SEO數(shù)據(jù)分析:如何改善網(wǎng)站收錄

2013/12/11 12:28      夜息

搜索引擎做為網(wǎng)站流量的重要來源,網(wǎng)站的收錄量自然是大部分網(wǎng)站運(yùn)營(yíng)人員關(guān)心的問題。

先明確一些基本點(diǎn),一個(gè)網(wǎng)頁(yè)被收錄與否,有兩個(gè)因素:

是否被爬蟲爬過

頁(yè)面質(zhì)量是否過關(guān)

之前提過了收錄率這么一個(gè)指標(biāo),很多網(wǎng)站都懶得去做這個(gè)指標(biāo),“我看看site的數(shù)據(jù)不就行了!”,事實(shí)上沒有這個(gè)指標(biāo),很多工作就無從下手。從數(shù)據(jù)中找出問題,利用數(shù)據(jù)指導(dǎo)解決方案,分析數(shù)據(jù)驗(yàn)證工作成果。 最近看了《深入淺出數(shù)據(jù)分析》這個(gè)本,覺得不錯(cuò),把數(shù)據(jù)分析的方法講得很生動(dòng),建議有興趣的從事數(shù)據(jù)分析的同學(xué)可以買本看看。任何數(shù)據(jù)分析由目標(biāo)->分析->評(píng)估->決策,四個(gè)環(huán)節(jié)組成。

目標(biāo):我們想看一下網(wǎng)站的收錄情況如何,在SEO方面是否還有提高的機(jī)會(huì)。

分析:收錄情況什么算好什么算壞,是不是用一些指標(biāo)來衡量?網(wǎng)站的收錄情況是不是過于籠統(tǒng),是不是應(yīng)該細(xì)分下各個(gè)頁(yè)面的收錄情況?

評(píng)估:于是我們需要下面一些數(shù)據(jù)

· 網(wǎng)站的頁(yè)面層級(jí)關(guān)系

SEO的數(shù)據(jù)分析:如何改善網(wǎng)站收錄

·各個(gè)層級(jí)頁(yè)面帶來的SEO流量

·各個(gè)層級(jí)頁(yè)面的收錄情況如何

SEO的數(shù)據(jù)分析:如何改善網(wǎng)站收錄

SEO流量的占比可以從Google Analytics中過濾出來。

頁(yè)面數(shù)量可以從數(shù)據(jù)庫(kù)獲得,或者通過火車頭or自制小腳本抓取統(tǒng)計(jì)。

收錄率可以將獲取的頁(yè)面通過工具進(jìn)行搜索,火車頭也可以。

問題立馬凸顯!

1+2級(jí)目錄頁(yè)帶來了大量的流量,收錄率不是很好,優(yōu)化收錄的流量提升突破口在此!

SEO的數(shù)據(jù)分析:如何改善網(wǎng)站收錄

產(chǎn)品頁(yè)面數(shù)量很多,收錄也不是很理想,但是帶來的流量有限,除了收錄問題,還有頁(yè)面內(nèi)容的問題,本文中先不管它了。

決策:我們的結(jié)論是立刻展開行動(dòng)對(duì)目錄頁(yè)面進(jìn)行收錄的優(yōu)化。

看到這邊,似乎剛開始的目標(biāo):“通過優(yōu)化收錄提升流量”

演變成了新的目標(biāo):“如何提高目錄頁(yè)面的收錄量”

這邊能不能再次通過數(shù)據(jù)分析的方法進(jìn)行SEO呢?

答案是肯定的!

我們?cè)賮碇匦伦咭槐?目標(biāo)->分析->評(píng)估->決策 的過程

目標(biāo):提高目錄頁(yè)面的收錄量

分析:通過本文開始的有關(guān)收錄的兩個(gè)因素,我們需要檢查一下,網(wǎng)頁(yè)是否被爬蟲爬行過,網(wǎng)頁(yè)的質(zhì)量是不是過關(guān)。

1. 關(guān)于爬蟲的情況,我們需要分析日志,才能確定。于是我們從日志中拆分一系列數(shù)據(jù)看看頁(yè)面是否真的被爬行過。

2. 由于頁(yè)面質(zhì)量似乎是一個(gè)很難衡量的值,于是我們可以用相同模板下的:

已被爬行的頁(yè)面數(shù)量/已被爬行并且被收錄頁(yè)面數(shù)量

來評(píng)估該模板頁(yè)面質(zhì)量對(duì)收錄的影響大小。如果被爬的頁(yè)面都被收錄了,那至少說明這套頁(yè)面的內(nèi)容搜索引擎還算認(rèn)可。(實(shí)際情況遠(yuǎn)比這個(gè)復(fù)雜,而且收錄后也有可能因?yàn)橘|(zhì)量問題被刪除,但總比什么參照都沒有要好,對(duì)吧!)

評(píng)估:(敏感信息用編號(hào)代替,均為真實(shí)數(shù)據(jù))

先看一下爬蟲日志的情況,通過Shell腳本,我們可以分析出。

目錄總計(jì)被爬行的次數(shù)為13000次左右

不重復(fù)的目錄爬行次數(shù)為5500次左右

頻道A下的目錄幾乎被100%抓取過至少1次,頻道B的目錄抓取也不錯(cuò),有70%被至少抓過一次。

其余頻道下的目錄被抓取的覆蓋率不到30%

小議SEO的數(shù)據(jù)分析II – 如何改善網(wǎng)站收錄

不要覺得這個(gè)結(jié)果很神奇,其實(shí)很多網(wǎng)站都會(huì)面對(duì)這樣的糟糕問題,只要你把數(shù)據(jù)不斷的細(xì)分,細(xì)分,再細(xì)分,總會(huì)觀察出一些端倪的。

關(guān)于日志分析,不要迷信任何的日志分析軟件,那都是給懶人用的,自制腳本+Excel才是王道,可以拆分顯示出任何你想要的數(shù)據(jù),當(dāng)然,甚至可以連Excel都不要。

然后,我們統(tǒng)計(jì)了一下被抓得最頻繁的頻道A和頻道B,目錄頁(yè)的收錄率

小議SEO的數(shù)據(jù)分析:如何改善網(wǎng)站收錄

頻道A和B是很讓人放心的,說明頁(yè)面質(zhì)量沒問題,但是余下的收錄情況就讓人比較擔(dān)心了。

決策:通過上面的數(shù)據(jù)評(píng)估,我們已經(jīng)得到了如下結(jié)論。

頁(yè)面質(zhì)量并不是影響收錄的原因。

頻道A,B的抓取量異常的高,通過調(diào)查了解,原來是首頁(yè)上的目錄頁(yè),顯示的全是頻道A下的目錄頁(yè),首頁(yè)又擁有全站最高的權(quán)重。頻道B擁有比其他頻道強(qiáng)大的外鏈資源,權(quán)重也非常高。

除了A, B頻道,其他頻道的抓取情況不容樂觀,抓取入口太少,太深,進(jìn)而影響了收錄情況。

很明顯,現(xiàn)在頻道A從站內(nèi)的角度來說太強(qiáng)大了,必須進(jìn)行一些“劫富濟(jì)貧”的運(yùn)動(dòng)來降低頻道A的抓取量,轉(zhuǎn)移到其他頻道中去。同時(shí),需要給爬蟲提供更多的入口抓取頻道頁(yè)。

現(xiàn)在問題變得清晰起來,我們開始把工作分成兩部分:1.提供更多的入口 2.將資源平分給各頻道而不是集中在少數(shù)幾個(gè)頻道上。

提供入口工作:

1.把目錄頁(yè)的URL制作成sitemap。提交給搜索引擎,并且將其設(shè)置為比較高的抓取權(quán)重。

2.完善面包屑導(dǎo)航,將面包屑導(dǎo)航劃分得更加細(xì)致,以提供更多入口

3.在其他產(chǎn)品中推薦目錄頁(yè)

資源平分工作:(一些概念:任意頁(yè)面都有可能成為爬蟲入口,百度爬蟲抓取深度有限,頁(yè)面相對(duì)入口越淺,被抓取的概率越高。)

1.原先首頁(yè)指向的都是頻道A的目錄頁(yè)+產(chǎn)品頁(yè),將其全部nofollow,確保從首頁(yè)進(jìn)入的爬蟲,全部抓取到頻道頁(yè),通過頻道頁(yè)再進(jìn)入目錄頁(yè)(其實(shí)這個(gè)不算太重要)

2.原先頻道頁(yè)指向自身的產(chǎn)品頁(yè),將其全部nofollow(確保從頻道頁(yè)入口的爬蟲,最大程度的抓取目錄頁(yè))

3.從目錄頁(yè)返回到首頁(yè)的鏈接,將其全部nofollow。

4.減少一些頁(yè)面上無關(guān)鏈接。(什么情況下這么做都是非常有效的。)

現(xiàn)在可以開始動(dòng)手了。。

成果

這么做到底有什么效果呢,我們來看看修改后1個(gè)月后的數(shù)據(jù)。

小議SEO的數(shù)據(jù)分析

目錄頁(yè)的收錄率提高了100%!

產(chǎn)品頁(yè)的收錄率也有一定程度的提高,這是歸功于目錄頁(yè)對(duì)于產(chǎn)品的良好展現(xiàn)。

目錄頁(yè)的SEO表現(xiàn):

SEO流量占比上升了15%

增長(zhǎng)10%的到訪關(guān)鍵詞數(shù)量(新頁(yè)面的收錄)

SEO流量增長(zhǎng)了50%以上。(包含一些季節(jié)因素)

相關(guān)閱讀