搜索引擎抓取和收錄頁面的過程--河南BOB亚博竞赛電子科技有限公司

搜索引擎抓取和收錄頁面的過程

　　搜索引擎對企業網站網頁的收錄是一個複雜的過程，簡單來說，收錄過程可以分爲：抓取、過濾、建立索引和輸出結果。下面河南企業網站SEO優化公司BOB亚博竞赛科技和大家簡單說一下這幾個步驟，讓你可以清楚你的網頁從你發佈之後是如何被搜索引擎收錄並獲得相關排名的。

　　1、抓取

　　網站的頁面有沒有被搜索引擎收錄，首先要看一下網站的蜘蛛訪問日誌，看一下蜘蛛有沒有來，如果蜘蛛都沒有抓取，那是不可能被收錄的。蜘蛛訪問網站的日誌可以從網站的IIS日誌裏面看到，如果搜索引擎蜘蛛沒有來呢?那麼就主動向搜索引擎提交，搜索引擎會派出蜘蛛來抓取網站，這樣網站纔有可能被儘快收錄。

　　廣度優先抓取：廣度優先抓取是按照網站的樹形結構，對一個的層進行的抓取，如果此層沒有抓取完成，蜘蛛不會進行下一層的搜索。

　　深度優先抓取：深度優先抓取是按照網站的樹形結構。按照一個連接，一直抓取下去，知道這一個連接沒有再往下的鏈接爲止，深度優先抓取又叫縱向抓取。

　　(注意：廣度優先抓取，適用於所有情況下的搜索，但是深度優先抓取不一定能適用於所有情況。因爲一個有解的問題樹可能含有無窮分枝，深度優先抓取如果誤入無窮分枝(即深度無限)，則不可能找到目標結束點。所以，深度優先抓取策略很多時候是不會被使用的，廣度優先的抓取更加的保險。)

　　廣度優先抓取適用範圍：在未知樹深度情況下，用這種算法很保險和安全。在樹體系相對小不龐大的時候，廣度優先也會更好些。

　　深度優先抓取適用範圍：剛纔說了深度優先抓取有自己的缺陷，但是並不代表深度優先抓取沒有自己的價值。在樹型結構深度已知情況下，並且樹體系相當龐大時，深度優先搜索往往會比廣度優先搜索優秀。

　　2、過濾

　　企業網站的頁面被抓取了並不代表一定會被收錄。蜘蛛來抓取了之後，會把數據帶回去，放到臨時的數據庫中，再進行過濾，過濾掉一些垃圾的內容或者是低質量的內容。

　　你頁面的信息如果是採集，在互聯網上有大量的相同信息，搜索引擎就很有可能不爲你的網頁建立索引。有時候我們自己寫的文章也不會被收錄，因爲原創的不一定就是高質量的。

　　過濾這一過程就是一個去掉糟粕的過程，如果你的網站的頁面順利通過了過濾這一過程，說明頁面的內容達到了搜索引擎設定的標準，頁面會就會進入建立索引和輸出結果這一步。

　　3、建立索引與輸出結果

　　這裏，我們把建立索引和輸出結果合在一起進行說明。

　　通過一系列的過程之後，符合收錄的頁面之後會建立索引，建立索引之後就是輸出結果，也就是我們在搜索關鍵詞後，搜索引擎展示給我們的結果。

　　當用戶在搜索關鍵詞時搜索引擎就會輸出結果，輸出的結果是有順序排列的。這些結果排序是根據一系列複雜的算法來排定的。比如：頁面的外鏈，頁面與關鍵詞的匹配度，頁面的多媒體屬性等。

　　在輸出的結果中，還有一些結果是通過抓取之後直接可以輸出的，沒有經過中間複雜的過濾和建立索引等過程。什麼樣的內容和什麼樣的情況下才會發生的呢?那就是具有很強的時效性的內容，比如新聞類的。比如今天發生了一件特大事件，各大門戶和新聞源快速發出了關於事件的新聞，搜索引擎會迅速對重大新聞事件作出反應，快速收錄相關的內容。

　　百度對於新聞的抓取速度是很快的，對重大事件的反應也比較及時。但是這裏還有一個問題就是，這些發佈的新聞如果有低質量的頁面會怎麼辦?搜索引擎會在輸出結果之後，仍然對這一部分新聞內容進行過濾，如果頁面內容與新聞標題不符，質量過低，那麼低質量的頁面還是會被搜索引擎過濾掉。

　　在輸出結果的時候，搜索引擎會多多少少會對搜索結果進行人工幹預，其中以百度爲最嚴重，在百度很多關鍵詞的自然搜索結果中被加入了百度太多自家的產品，而且很多是沒有考慮用戶體驗的，這也是百度被大家詬病的原因之一，有興趣的朋友可以百度一個詞看一下搜索結果，是不是百度自家的產品佔據了太多的首頁位置。

上一篇：最容易被忽視的16條SEO誤區

下一篇：什麼是企業網站SEO生命週期？