在網路上尋找資料時, 經常發現重複或近似內容, 有些是splog造成, 有些是惡意的SEO動作, 有些則是有其必要的原因, 在Google關於重複內容的說明文件中, 指出:
非惡意的重複內容可能包括:
-可針對行動裝置產生的一般網頁和精簡網頁的討論區
-透過不同的URL儲存顯示或連結的項目
-列印用網頁
但在某些情況下,有心人士會故意在整個網域中重複內容,試圖操控搜尋引擎的排名或贏得更多的流量。 這種欺騙的做法會帶來不好的使用經驗,因為訪客會在搜尋結果中看到大量相同的內容。
Search engine到底如何處理重複內容? 如何才能避免因重複內容而導致處罰?
我們先來看看幾個檢查重複內容的網路服務:
http://www.webconfs.com/similar-page-checker.php
http://tool.motoricerca.info/similarity-analyzer.phtml
當然以上只是初淺的查詢, 並非search engine所依靠的方式, 到底Google如何確定兩個網頁是重複的呢?
根據Google的專利資料”Methods and apparatus for estimating similarity“, “Detecting duplicate and near-duplicate files” :
A similarity engine generates compact representations of objects called sketches. Sketches of different objects can be compared to determine the similarity between the two objects. The sketch for an object may be generated by creating a vector corresponding to the object, where each coordinate of the vector is associated with a corresponding weight. The weight associated with each coordinate in the vector is multiplied by a predetermined hashing vector to generate a product vector, and the product vectors are summed. The similarity engine may then generate a compact representation of the object based on the summed product vector.
就是透過由文件形成vector, 再由hashing function產生的值, 與vector相乘後總合, 由這些總合後就變成sketch, 來比較這些sketch求得重複程度
在這篇研究文章中”Detecting Near Duplicates for Web Crawling(PDF)”, 使用Charikar’s simhash將高維的向量轉成f-bit fingerprint
這篇論文也指出, 辨識重複資料的目的:
(1)減少search engine在處理重複資料的空間浪費與計算浪費
(2)可以比對找出散佈在各地的類似新聞, 形成相關連的叢集(cluster)
(3)利用檢查結構類似, 可以用來淬取資料
(4)用來檢查文章的盜用(plagiarism)及垃圾網站(spam)
(5)用來檢查文章的改版
如Google所說的, 重複資料不是都屬於黑帽SEO, 有其必要性, 但是還是必須小心參考Google關於重複內容的說明文件, 好好審視您的網頁的重複狀況, 因為判斷重複內容的技術越來越精準, 事先避免才能保持與search engine的友好關係
以下是影片的說明:
Getting Serious, Series 1: Avoiding Duplicate Content
Do You Have Duplicate Content and Not Even Know It?
其他參考資料:
http://www.seobythesea.com/?p=999
http://www.vizioninteractive.com/search-engine-optimization-tip-14-fix-duplicate-content/
http://www.searchenginejournal.com/duplicate-content-penalty-how-to-lose-google-ranking-fast/1886/