Web Spam Detection: Google是否能夠偵測黑帽SEO?

Web Spam Detection (網路垃圾偵測) 是搜尋引擎極力研究的重點方向,透過網路垃圾偵測,可以提供Google有用的垃圾產生者資訊,並且當成演算法修正的依據,我們來看看網路垃圾偵測的相關技術 …

網路垃圾通常可以分成三大類型(如下圖): Link based techniques (連結類型)、Content based techniques (內容類型)、Hiding techniques (隱藏類型)。

(資料來源: A SURVEY ON WEB SPAM DETECTION METHODS: TAXONOMY By S Ghiam)

但是雖然說這些網路垃圾使用的是techniques(技術),其實是有些過度描述了,因為大多都使用很基本的網頁設計方法,並不需要太高深的技術。因此,要抓出上述的三種網路垃圾,對Google來說,並不是一件難事,問題是網路垃圾太多,所以Google也只能以排序的方式來處理。

將上述的網路垃圾說明如下:

(1) Link based techniques (連結類型) 就是製造假連結,透過錨點文字傳遞意含,透過Pagerank傳遞信任度。這類連結在我們的研究中發現,只要spider由黑帽SEO本身網站搜尋起,就可以找到一大串製造垃圾的站群,這些站群都是互相串連,並且再外連到操作的客戶網站上。通常企業網站都不會知道,他們的網路排名是透過垃圾站群的操作,當垃圾站群被Google處理之後,當然企業網站就會連帶遭受池漁之殃。

(2) Content based techniques (內容類型) 就是製造假內容,所謂假內容就是專門為了搜尋引擎而製造的內容。這類內容又分兩種,第一種是無意義的內容,第二種是有意義但是抄襲或是重複的內容。這兩種方式也都很容易偵測。前者只需要由使用者行為模式分析即可得到,根本不需要去看內容。後者則可以由詞彙等等分析,找到抄襲或是重複的來源。並且這類作假都會結合連結類型作假,因此也可以使用上述方法輔助偵測。

(3) Hiding techniques (隱藏類型) 就是把想要餵給搜尋引擎的資料,以隱藏的方式存在,使用者並不會看到,或是不容易看到,例如安排在同色系的網頁中。隱藏的資料類型也可分為內容或是連結,內容則是想鎖定的關鍵字,連結則是連往操作的對象。這類型的偵測,可以由網頁原始碼,或是輔以上述兩種方式得到結果。

所以,Google是否能夠偵測黑帽SEO? 當然是沒有問題的。我們後續再來介紹相關的演算法以及實際例子。如果您有任何寶貴意見,歡迎討論囉。

敬請留言

你的回應對我們是很重要的. 你的電子郵件將不會被公開.

請等待 ...
*
Loading Facebook Comments ...