一個合格的站長或者seoer必須要能看懂網站的服務器日誌文件,這個日誌記錄了網站被搜索引擎爬取的痕跡,給站長提供了蜘蛛是否來訪的有力佐證,站長朋友可以通過網站日誌來分析搜索引擎蜘蛛的抓取情況,分析網站的是否存在收錄異常問題。並且我們可以根據這個日誌文件判斷蜘蛛來訪頻率以及抓取規律,這將非常有利於我們做優化。另外,學習分析網站日誌文件也是站長必須具備的能力,也是你從一個初級seo進階到seo高手的必由之路。但是前提是要主機服務商開通日誌統計功能,一般虛擬主機提供商都不會開通,你可以申請開通,或者自己到服務器管理後臺開通這個日誌統計功能,不過日誌也會佔用空間的,我們在看完日誌文件後,可以隔段時間清理下日誌文件。那麼如何分析服務器日誌文件呢?聽我娓娓道來。
搜索引擎抓取網站信息必會在服務器上留下信息,這個信息就在網站日誌文件裏。我們通過日誌可以瞭解搜索引擎的訪問情況,一般通過主機服務商開通日誌功能,再通過FTP訪問網站的根目錄,在根目錄下可以看到一個log或者weblog文件夾,這裏面就是日誌文件,我們把這個日誌文件下載下來,用記事本(或瀏覽器)打開就可以看到網站日誌的內容。那麼到底這個日誌裏面隱藏了什麼玄機呢?其實日誌文件就像飛機上的黑匣子。我們可以通過這個日誌瞭解很多信息,那麼到底這個日誌給我們傳遞了什麼內容呢?
如果想要知道網站日誌文件包含了什麼內容,首先必須知道各搜索引擎的蜘蛛名稱,比如百度的蜘蛛程序名稱是baiduspider,Google的機器人程序名稱是Google-Googlebot等等,我們在日誌的內容裏搜索上述的的蜘蛛名就可以知道哪個搜索引擎已經爬取過網站了,這裏就留下了他們的蛛絲馬跡。再者,必須能看懂常見的http狀態碼,最常見的HTTP狀態碼有200(頁面抓取成功)、304(上次抓取的和這次抓取的沒變化),404(未找到頁面,錯誤鏈接)500(服務器未響應,一般由服務器維護和出故障,網站打不開時出現的),這些狀態碼是我們站長朋友必須能看懂的,服務器狀態碼的值是我們和蜘蛛交流的信號。知道了這些基本信息以後我們就可以根據網站日誌進行分析了,一般來說我們只看百度和谷歌蜘蛛的爬行和抓取情況,當然有特殊需要的也可以對其他幾個蜘蛛的爬行情況進行分析。網站日誌中出現大量的谷歌蜘蛛和百度蜘蛛,說明搜索引擎蜘蛛時常來光顧你的網站。
說到分析日誌文件,我們就不得不說分析日誌文件的時機了,那麼在什麼情況下我們要去分析日誌文件呢?首先,新網站剛建立的時候,這個時候也是站長朋友最急切的時候,我們一般都會焦急的等待搜索引擎收錄網站內容,經常會做的事情就是去百度或者Google用命令site:下網站域名看看是否被收錄,這個時候,其實我們沒必要頻繁的查詢網站是否被收錄,要想知道搜索引擎是否關顧我們的網站。我們就可以藉助網站日誌文件來查看,怎麼看?看網站日誌是否有搜索引擎的蜘蛛來網站抓取過,看返回的狀態碼是200還是其他,如果返回200說明抓取成功,如果返回404說明頁面錯誤,或者頁面不存在,就需要做301永久重定向或者302暫時重定向。一般抓取成功後被搜索引擎放出來的時間也會晚點,一般谷歌機器人放出來的比較快,最快可秒殺,但是百度反應就慢了,最快也要一週左右,不過11月份百度算法調整後,放出來的速度還是很快的。其次,當網站收錄異常時我們要把正常收錄的日誌和異常的日誌進行對比分析,找出問題所在,這樣可以解決網站收錄問題,也是對完整優化大有裨益的。第三,網站被搜索引擎K掉後,我們必須要觀察網站日誌文件來亡羊補牢,一般這種情況下,日誌文件裏只有很少的幾個蜘蛛爬行了首頁和robots,我們要找出被K的原因並改正,再提交給搜索引擎,接下來就可以通過觀察日誌來看蜘蛛是否正常來臨,慢慢過一段時間,如果蜘蛛數量增加或者經常來臨並且返回200狀態嗎,那麼恭喜你,你的網站又活了,如果半年都沒反應,那麼建議放棄該域名重新再戰了。
很多站長朋友不懂得如何利用網站日誌文件,遇到網站收錄問題就去提問別人,而不好好自檢,這是作爲站長或者seoer的悲哀。而且網上的很多軟文都提到要做好日誌文件的分析,但是那隻是軟文而已,說不定寫文章的作者都沒有去看日誌文件。說到底,還是希望站長朋友一定不要忽略了網站日誌文件,合理的利用好網站日誌文件是一個站長或seoer必備的技能。再者說,看懂網站日誌文件並不需要你有多麼高深的編碼知識,其實只要看得懂html代碼和幾個返回的狀態碼就可以了,一定不能懶,或者抱着僥倖心理去對待你的網站,這種心理會導致你輸得很慘。如果你是一個小站長,或者你是一個seoer,如果你以前沒有意識到網站日誌文件的重要性,那麼從看到我寫的這篇文章開始要好好對待你的網站日誌了。