Link farm detection: 如何偵測連結農場?

什麼是 Link Farm ? 之前談過,就是這些Link/backlink是被「刻意」、「大量」、「製造」出來的。而這篇”A New Enhanced Technique for Link Farm Detection“談到了偵測連結農場的方法,我們來看看  …

由Google的連結配置link schemes文章,看到了可能對網站搜尋結果排名有負面影響的連結機制範例,以及一些違反指南的常見非自然連結範例。

但是搜尋引擎到底如何知道這些方法是違反規定的呢? 上述的研究報告中,提出了一個SVMLight的工具。並且把spam的連結結構跟正常的連結結構表示出來,如下圖:

SVMLight是利用Support Vector Machine的方法,在這個例子中,對於評估的對象給予一個分數來標示是spam或是non-spam,不過這個方法不是本文要討論的重點。

當然spam的連結結構不是只有一種情況,上述的只是其中之一。但是不管spam的連結結構長得如何,它就是跟正常的連結結構不相同。

論文中提出的方法,使用以下各種方式來判斷spam:

1. Web graph algorithms
2. Degree based measure- Edge reciprocity, Assortative, Disassortative
3. Page Rank
4. Trust rank
5. Truncated PageRank
6. Classification by using SVMLight Tool

也就是上述的各演算法會各算出某個連結結構的Spamcity score (垃圾成份分數),然後加總之後就知道到底是不是Link farm了。

如下圖就是經過演算法的分析,把spam site以黑色標示出來。

雖然這篇論文出版於2012年,已經算是蠻新的內容了,但是Google所使用的方法一定更精密詳細。所以連結農場其實是很難遁形的,只是看Google要不要處理的問題了。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *