GOOGLE索引 – 專利文件(US7509315B1)解讀

這份文件從2009年就發表了,談的是一種管理搜索引擎網頁爬取和索引的方法。

想要解決要怎麼在有限的資源下,確保高品質網頁被納入索引。

想解決的問題

  1. 因為資源有限,搜尋引擎通常只能維護有限數量的索引
  2. 但搜尋引擎發現的URL(網址數)可能比它可以索引的數量還多
  3. 傳統的索引方法中,重要頁面可能不會被搜尋引擎索引,不重要頁面卻有可能被索引

解決的方法&創新

這份專利提出一種系統性方法,讓爬蟲機器人可以:

設定「及格線」

只有超過這條及格線的頁面才會被收錄,每當新發現的重要頁面增多的時候,Google就會提高及格線的標準

重要的頁面先來

在索引某個目標數量的頁面(例如先索引10萬個頁面)之後;一旦達到目標數量,就只爬取頁面的重要性大於或等於及格線的額外頁面,並且會開始刪除重要性低於水平線的頁面

最後,索引的列表中就會只包含最重要的頁面

GOOGLE索引 – 實際案例

那這個專利造成了什麼樣的後果?可以推斷以下的情況是因為這個專利造成的

  • 當您的網站首頁和主要類別頁通常比深層產品頁面更快被索引,這不是巧合
  • 權威網站(例如比較知名、流量比較大的網站)的新頁面通常在幾分鐘內就能被索引,而小型部落格卻有可能需要好幾天
  • 網站改版後,如果頁面總數大幅增加,一些較不重要的舊頁面可能會從索引中消失

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *