1、網站剛上線,看搜索引擎蜘蛛的抓取情況
如果網站提交給搜索引擎2天後,發現日誌裏蜘蛛不少,並都返回200,則說明已經可以正常收錄。只是Google展示的時間比較快,而百度則需要20天左右(經驗平均值)展示出來。
2、網站收錄異常,對比日誌中蜘蛛的行爲情況
收錄正常增加時和現在異常時的日誌,進行對比分析。如果沒有異常,則應該是搜索引擎展示數據庫出問題所致。如果蜘蛛爬取量明顯減少,觀察是否外鏈突然減少很多。如果日誌依然,則認爲是搜索引擎的展示問題。
3、解決網站被封問題時,觀察日誌情況
網站被封時,往往日誌裏有百度蜘蛛,但很少,而且往往只訪問robots.txt文件和首頁經過這裏的建議修改後,再提交給百度,之後的2天觀察日誌情況。如果蜘蛛明顯增加,而且返回200居多,則收錄的希望很大,時間問題。
4、及時發現網站安全問題,採取對措施
有兩點需要注意:一,日誌裏收錄了,但不一定展示出來,我們可以看到百度蜘蛛和google機器人訪問很頻繁,但不一定他們都展示出來。只要它們頻繁訪問和正常抓取,一切就會很正常。二,市場上有專門分析蜘蛛爬取的工具我以後會在SEO工具欄目下介紹 ,不用我們去讀懂文檔裏的代碼
在日誌裏,發現比較多的HTTP狀態碼是,200(正常)、304(沒變化)、404(錯誤鏈接):304代表,自從上次抓取後,該內容沒有更新。一般情況下,網站的圖片經常會返回該值;404代表,訪問的這個鏈接是錯誤鏈接。這個錯誤鏈接,一方面來自原本存在後來刪除了網頁,另一方面可能來自本來就不存在,但其他人外鏈了這麼個死鏈接。