搜尋引擎如何判斷內容與連結的相關性?

在之前的"Web Spam Detection“與"Link farm detection“談到搜尋引擎可以判斷垃圾網站的成份,但是許多意圖操作的人還是會想出方法,想要逃脫搜尋引擎的偵測,我們來看看常見的例子與其破綻 …

有些人會認為,既然link farm (連結農場) 有以下的連結特性 (如下圖),因此就會思考做出不一樣的連結狀態。


(資料來源: A New Enhanced Technique for Link Farm Detection)

例如刻意在許多頁面,連結到無辜的第三者網站或是政府網站。

其實這樣的作法還是沒有辦法躲避偵測,因為連結農場可以自己操作連外的連結,但是沒有辦法「自然的」操作連進來的連結。

頂多可以購買少數的高Pagerank的網站來抬高身價,但是要達成多樣性且高品質的話,所花的代價根本不敷成本。

並且故意連結到無辜的第三者網站,更容易因為第三者網站的外部連結報告 (如Google網站管理工具),而自曝身份。所以要把人為連結操作到自然並且有效,除非投入大量的人力與財力,否則是不可能有效的。就算短期有效果,隨著搜尋引擎的演算法改善,更可能一夕完全失效。

除了透過link schemes之外,還可以透過內容與連結的相關性來瞭解link farm。也就是在"連結不是原罪,Google也不是大神“說過的,連結最基本的規範 = 客戶必須知情 or 內容必須相關。如果在網頁內容插入不相關的連結,並且沒有NoFollow,如果不相關連結類型的數目越多,則就越可能是link farm。

網站是否為link farm (連結農場), 其實只需要看整體連結狀態,以及整體不相關非NoFollow的連結數目,就可以知道。

但是相關性如何判斷呢 ? 之前曾經在"搜尋引擎知道網頁內容是否相關 (relevant content)?“提過,我們再來仔細的看看。

最經常被用來判斷文件相關性的方法,有TF-IDFEuclidean DistanceCosine SimilarityJaccard CoefficientPearson Correlation Coefficient … 等等。

為了正確的瞭解這些演算法是否可以自動判讀文件相關性,我們以下列的流程來進行實驗,並且檢定出有顯著改善的演算法 :

上面的步驟分成三大程序:

第一步是由已經人工分類的DMOZ中倒出所有的資料,匯入MySQL中,以備後面程式使用。

第二步是資料的預處理步驟,先進行網頁資料抓取,然後取出我們需要的資料,分成英文與中文分別處理字詞的分析,讓抓取的資料還原到基本的單詞。

第三步就是把第二步處理過的資料,進行演算法計算與比較。由此便可以知道各演算法計算出的相關性數值,並且比較各種不同演算法的精準度。

結果發現所有的演算法在所有的資料實驗中,其精準度都達80%以上,並且某些演算法其精準度還達90%以上。

這個代表的是: 使用最簡單的方法、以最便宜的硬體,就可以快速輕易的知道網頁間的相關性。所以Google等搜尋引擎會不知道嗎? 當然會比我們更清楚。所以各種SEO的作弊行為,其實應該可以退場了,好好的進行真正的網站優化才是上策。

敬請留言

你的回應對我們是很重要的. 你的電子郵件將不會被公開.

請等待 ...
*
Loading Facebook Comments ...