SEO專家筆記: Pagerank深入研究 (三)

延續之前的文章”SEO專家筆記: Pagerank深入研究 (一)“、以及”SEO專家筆記: Pagerank深入研究 (二)“,我們談到了Pagerank的特性以及演算法的公式,現在再來看看Pagerank更多的事情 …

由這篇論文”The Anatomy of a Large-Scale Hypertextual Web Search Engine“,可以看到更多Pagerank與Google的細節。

論文中說到Google的特點: “The Google search engine has two important features that help it produce high precision results. First, it makes use of the link structure of the Web to calculate a quality ranking for each web page. This ranking is called PageRank … Most search engines associate the text of a link with the page that the link is on. In addition, we associate it with the page the link points to.”

大致的翻譯是: Google搜尋引擎有兩個重要的特性,以協助產生精準的結果。第一個是Pagerank,第二個是Anchor text。Pagerank演算法是其他搜尋引擎所沒有的,而Goole不僅把anchor text與含有該anchor text的網頁相關,還與連往的網頁相關。

並且除此之外,還說到: “Aside from PageRank and the use of anchor text, Google has several other features. First, it has location information for all hits and so it makes extensive use of proximity in search. Second, Google keeps track of some visual presentation details such as font size of words. Words in a larger or bolder font are weighted higher than other words. Third, full raw HTML of pages is available in a repository.”

大致的翻譯是: Google還使用所有點選的資料,所以可以知道哪些資料是搜尋相關的。並且Google還使用排版性質的權重,如粗體或是較大的字體,並且將網頁完整的html內容存在資料櫃中。

所以從上面的資料可以瞭解,Pagerank在Google的份量是很重要的,也是Google與其他搜尋引擎競爭的最大優勢。

在這篇論文中,就很清楚的把後來的Pagerank演算法列出來如下:

PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))

也就是如下的樣子:

並且我們可以從以下的圖,看出來加入Pagerank之外的因素之後,Pagerank已經不是page rank,因為許多排名並不一定是Pagerank高的排在前面,之所以會這樣,就是因為已經加入諸如IR score等等因素。

什麼是IR Score? IR指information retrieval (資訊擷取),就是從網頁內容中擷取有用的資訊,然後透過這些資訊去計分而得到IR score (資訊擷取分數)。而所謂有用的資訊就很多啦,這些內容講三天都講不完的啦,我們以後有空再聊。

在最後的結尾,談到了: “We are also working to extend the use of link structure and link text. Simple experiments indicate PageRank can be personalized by increasing the weight of a user’s home page or bookmarks. As for link text, we are experimenting with using text surrounding links in addition to the link text itself.”

大致翻譯如下: 在Pagerank以及anchor text(錨點文字)的使用上,Google還以加重跟使用者有關的網頁,而求得個人化的Pagerank,並不只考慮anchor text本身,還附加考慮其連結周圍的文字來計算相關性。

所以我們可以從這篇最早提出Google搜尋引擎的論文中,看到比較完整的Pagerank演算法,並且也看到當時Google已經都考慮到可能的缺點,並且持續用更多的實驗來改善。

那麼對於Pagerank本身可能的缺點,有哪些解決方法呢? 我們後續再來探討。如果你有其他寶貴意見,也歡迎你多多交流討論囉。

在〈SEO專家筆記: Pagerank深入研究 (三)〉中有 1 則留言

  1. 自動引用通知: SEO專家筆記: Pagerank深入研究 (四) « Seo搜尋引擎優化 « 台灣搜尋引擎優化與行銷研究院:SEO:SEM

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *