SEO專家筆記: Pagerank深入研究 (二)

為什麼我們在”SEO專家筆記: Pagerank深入研究 (一)“說到,Pagerank是一個反應網站體質的指標呢? 為什麼說Pagerank在最早期剛提出來的時候,其實真的是page rank (頁面排名),但是現在的Pagerank並不是指page rank呢?

我們看看Pagerank的最早論文”The PageRank Citation Ranking: Bringing Order to the Web“,裡面說到Pagerank ~ “In order to measure the relative importance of web pages, we propose PageRank, a method for computing a ranking for every web page based on the graph of the web. PageRank has applications in search, browsing, and traffic estimation. ….. To test the utility of PageRank for search, we built a web search engine called Google”

翻譯: 為了測量網頁的相對重要性,我們提出了Pagerank,他是以網路上互連狀況為基礎,一個計算每個網頁排名的方法。Pagerank可以應用在搜尋、瀏覽、以及流量的預測,為了測試Pagerank在搜尋上的功能,我們建立了一個網路搜尋引擎叫做Google。

Pagerank是基於link analysis(連結分析)而來,並且跟學術上的citation analysis(引用分析)的原理是一樣的,其間的不同是學術上的引用,因為有審核程序,比較能夠保證品質,但是網頁上的連結則無法保證品質。因此,Pagerank的出發點就是為了要找出相對重要性,來確認網頁搜尋時可以進行品質過濾。

以下就是最早的Pagerank簡單版本。其中,u是一個網頁,R(u)表示該網頁的rank,網頁v是指連結指向u的網頁,R(v)表示該網頁的rank,Nv表示網頁v的連外連結總數量,也就是網頁v的outbound link總數。c是一個小於1的數字,可以讓網頁的排名總和是固定的。

這個簡單版本的Pagerank計算就可以用以下的樣子來表示。例如,當網頁A有100分時,有2個連外連結,則每個會傳遞100/2的數值出去。所以每個頁面的Pagerank就是把接收到的數值總和起來,再乘以一個數字c。

但是這個簡單版本的Pagerank會有問題產生,什麼問題呢? 就是所謂的rank sink (排名下沉),就是當兩個網頁u,v只有互相連結,而沒有指向其他網頁,如果有另外一個網頁指向u或v其中,那麼在整個網頁的Pagerank計算當中,就會發生rank sink,也就是到達網頁u,v的Pagerank數值沒有出口。

因此就修正Pagerank演算法公式為以下的樣子:

上面多加了一個E(u),這個東西有許多含意,可以指random surf(隨機瀏覽)的機率,並且這個值到底應該多少,是整個調整Pagerank很重要的參數。在論文中說到,||E||1=0.15。

所以在Pagerank的Wikipedia頁面說到,Pagerank是一個probability distribution (機率分佈),意思就是說Pagerank的計算是模擬人們在瀏覽頁面的樣子,從一個頁面透過連結去連到另外一個頁面,在連結過去的同時也把Pagerank數值傳遞出去,所以又產生了personalized Pagerank (個人化Pagerank) 的概念。

後來對於傳統Pagerank演算法的公式就寫成以下的樣子 (d代表一個參數,通常以0.85表示):

總體網頁的Pagerank計算,是一個不小的工程,他會有許多疊代的計算,如下圖,當Pagerank計算到某個階段,會開始收斂。

應該注意的是,這裡的公式所計算出來的Pagerank數值,並不是PR值,而必須再去對照總體的數值進行歸類,有人把這個對照表整理出來如下圖,但是因為不是Google官方的資料,因此只能當做參考:

上表的意思是,如果你的網頁有PR1的連結101個,你的網頁就可以達到PR2。如果你的網頁有PR2的連結18.362個,你的網頁就可以達到PR2 … 依此類推。

在最早提出Pagerank的時候,主要是要把Pagerank當成page rank (網頁排名) 的根據,也就是當以關鍵字篩選出網頁之後,再以Pagerank高低進行排序,就的到了最後的搜尋結果。

例如以university為關鍵字查詢,圖下兩個不同搜尋引擎的搜尋結果,左邊是Google(僅以網頁標題查詢並以Pagerank排序)的搜尋結果,右邊是Altavista搜尋引擎的搜尋結果。

上圖可以看出來,Google排名出來的都是大學的首頁,但是Altavista列出來的有許多是大學網頁的內頁。

所以最早的Pagerank確實就是page rank(網頁排名),但是在論文中也坦承,這個方式會被有心人士運用,也就是假造連結,有的是購買較重要網頁的連結,或是購買大量次要的連結,這些行為確實會造成Pagerank無法真正表現用處。

後來Google網頁排名加入了許多參考因素(至少200多個),因此網頁排名就不再是與Pagerank成正比,但是沒有造假的Pagerank數值還是可以看出網站的相對重要性,因此在自然的環境下,Pagerank可以代表網站的體質。

我們後續再來談Pagerank的演化以及相關研究。

在〈SEO專家筆記: Pagerank深入研究 (二)〉中有 1 則留言

  1. 自動引用通知: SEO專家筆記 ~ 已經變成許多專家自己的筆記 « Seo搜尋引擎優化 « 台灣搜尋引擎優化與行銷研究院:SEO:SEM

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *