夜息SEO培训:小议SEO的数据分析II – 如何改善网

  頁面質量是否過關


  上一篇文章已經提過了收錄率這麽一個指標,很多網站都懶得去做這個指標,“我看看site的數據不就行了!”,事實上沒有這個指標,很多工作就無從下手。從數據中找出問題,利用數據指導解決方案,分析數據驗證工作成果。最近看了《深入淺出數據分析》這個本,覺得不錯,把數據分析的方法講得很生動,建議有興趣的從事數據分析的同學可以買本看看。任何數據分析由,目標->分析->評估->決策,四個環節組成。


  目標:我們想看一下網站的收錄情況如何,在SEO方面是否還有提高的機會。


  分析:收錄情況什麽算好什麽算壞,是不是用一些指標來衡量?網站的收錄情況是不是過于籠統,是不是應該細分下各個頁面的收錄情況?


  評估:于是我們需要下面一些數據


  網站的頁面層級關系

1.png

  各個層級頁面帶來的SEO流量


  各個層級頁面的收錄情況如何

2.jpg

  SEO流量的占比可以從GoogleAnalytics中過濾出來。


  頁面數量可以從數據庫獲得,或者通過火車頭or自制小腳本抓取統計。


  收錄率可以將獲取的頁面通過工具進行搜索,火車頭也可以。


  問題立馬凸顯!


  1+2級目錄頁帶來了大量的流量,收錄率不是很好,優化收錄的流量提升突破口在此!

3.png

  産品頁面數量很多,收錄也不是很理想,但是帶來的流量有限,除了收錄問題,還有頁面內容的問題,本文中先不管它了。


  決策:我們的結論是立刻展開行動對目錄頁面進行收錄的優化。


  看到這邊,似乎剛開始的目標:“通過優化收錄提升流量”


  演變成了新的目標:“如何提高目錄頁面的收錄量”


  這邊能不能再次通過數據分析的方法進行SEO呢?


  **是肯定的!


  我們再來重新走一遍目標->分析->評估->決策的過程


  目標:提高目錄頁面的收錄量


  分析:通過本文開始的有關收錄的兩個因素,我們需要檢查一下,網頁是否被爬蟲爬行過,網頁的質量是不是過關。


  1.關于爬蟲的情況,我們需要分析日志,才能確定。于是我們從日志中拆分一系列數據看看頁面是否真的被爬行過。


  2.由于頁面質量似乎是一個很難衡量的值,于是我們可以用相同模板下的:


  已被爬行的頁面數量/已被爬行並且被收錄頁面數量


  來評估該模板頁面質量對收錄的影響大小。如果被爬的頁面都被收錄了,那至少說明這套頁面的內容搜索引擎還算認可。(實際情況遠比這個複雜,而且收錄後也有可能因爲質量問題被刪除,但總比什麽參照都沒有要好,對吧!)


  評估:(敏感信息用編號代替,均爲真實數據)


  先看一下爬蟲日志的情況,通過Shell腳本,我們可以分析出。


  目錄總計被爬行的次數爲13000次左右


  不重複的目錄爬行次數爲5500次左右


  頻道A下的目錄幾乎被100%抓取過至少1次,頻道B的目錄抓取也不錯,有70%被至少抓過一次。


  其余頻道下的目錄被抓取的覆蓋率不到30%

4.png

  不要覺得這個結果很神奇,其實很多網站都會面對這樣的糟糕問題,只要你把數據不斷的細分,細分,再細分,總會觀察出一些端倪的。


  關于日志分析,不要迷信任何的日志分析軟件,那都是給懶人用的,自制腳本+Excel才是王道,可以拆分顯示出任何你想要的數據,當然,甚至可以連Excel都不要。


  然後,我們統計了一下被抓得最頻繁的頻道A和頻道B,目錄頁的收錄率

5.png

  頻道A和B是很讓人放心的,說明頁面質量沒問題,但是余下的收錄情況就讓人比較擔心了。


  決策:通過上面的數據評估,我們已經得到了如下結論。


  頁面質量並不是影響收錄的原因。


  频道A,B的抓取量异常的高,通过调查了解,原来是首頁上的目录页,显示的全是频道A下的目录页,首頁又拥有全站最高的权重。频道B拥有比其他频道强大的外链资源,权重也非常高。


  除了A,B頻道,其他頻道的抓取情況不容樂觀,抓取入口太少,太深,進而影響了收錄情況。


  很明顯,現在頻道A從站內的角度來說太強大了,必須進行一些“劫富濟貧”的運動來降低頻道A的抓取量,轉移到其他頻道中去。同時,需要給爬蟲提供更多的入口抓取頻道頁。


  現在問題變得清晰起來,我們開始把工作分成兩部分:1.提供更多的入口2.將資源平分給各頻道而不是集中在少數幾個頻道上。


  提供入口工作:


  1.把目錄頁的URL制作成sitemap。提交給搜索引擎,並且將其設置爲比較高的抓取權重。


  2.完善面包屑導航,將面包屑導航劃分得更加細致,以提供更多入口


  3.在其他産品中推薦目錄頁


  資源平分工作:(一些概念:任意頁面都有可能成爲爬蟲入口,百度爬蟲抓取深度有限,頁面相對入口越淺,被抓取的概率越高。)


  1.原先首頁指向的都是频道A的目录页+产品页,将其全部nofollow,确保从首頁进入的爬虫,全部抓取到频道页,通过频道页再进入目录页(其实这个不算太重要)


  2.原先頻道頁指向自身的産品頁,將其全部nofollow(確保從頻道頁入口的爬蟲,最大程度的抓取目錄頁)


  3.从目录页返回到首頁的链接,将其全部nofollow。


  4.減少一些頁面上無關鏈接。(什麽情況下這麽做都是非常有效的。)


  現在可以開始動手了。。


  成果


  這麽做到底有什麽效果呢,我們來看看修改後1個月後的數據。

6.jpg

  目錄頁的收錄率提高了100%!


  産品頁的收錄率也有一定程度的提高,這是歸功于目錄頁對于産品的良好展現。


  目錄頁的SEO表現:


  SEO流量占比上升了15%


  增長10%的到訪關鍵詞數量(新頁面的收錄)


  SEO流量增長了50%以上。(包含一些季節因素)


  備注:


  1.除了收錄,排名也是問題,可以同步關注。


  2.對于頻道A這樣特殊情況,甚至可以對其進行全屏蔽,但是技術上實現起來會略微麻煩。


  3.百度對nofollow的支持據說很混亂,有認識百度內部人士可以幫忙問一下。


  4.有問題可以留言~

  
  標簽: