Google在幾天前推出一個工具軟體Google Refine 2.0,這個東西以前叫做Freebase Gridworks,這個工具的主要目的是讓你可以從一堆亂七八糟不一致的資料中,找出有價值的資訊。這個工具對於許多研究人員來說,可以提升篩選資料的效率之外,還可能代表什麼意思呢?
這篇公告”Google Refine (previously Freebase Gridworks) 2.0 announced“中說明,”Google Refine是一個強力的工具來處理雜亂的資料集,可以清除資料不一致性、資料格式轉換 … 並可以資料匯成Freebase格式”。
我們先來看看幾個關於Google Refine 2.0的介紹短片:
看完功能介紹後,可以開始來使用看看 …
Google Refine 2.0 下載:
(Windows) http://google-refine.googlecode.com/files/google-refine-2.0-r1836.zip
(其他作業系統) http://code.google.com/p/google-refine/downloads/list
可以試用的資料集:
http://infochimps.org/datasets/disasters-wordwide-from-1900-2008
http://www.sos.louisiana.gov/tabid/136/Default.aspx
http://www.data.gov/raw/8
http://www.data.gov/raw/1175
http://www.data.gov/raw/1554
http://drop.io/NFDC_02_2010
我們使用了第一個資料集”Disasters wordwide from 1900-2008″來試看看 …
很不幸的是這個資料 …. 竟然把台灣歸在中國之下 …. 需不需要去抗議啊!?
這個問題不是我們小老百姓能夠處理的~ 回歸主題吧!
看了上面的例子,原來Google Refine其實是一個用來編修、萃取、轉換龐大資料集的工具,而且處理資料的方式,跟Google Analytics還真像。
當我們打開上述17828筆的資料,我們根本對於這個資料沒有頭緒,他可以如同Excel一樣,把某個欄位群組(Group)起來,然後就可以只選擇你需要的資料(如我們選了台灣) … 然後看到有125筆資料,如果我們再由Location去群組,就可以分析其他資料。
其他的功能就自己去嘗試吧。
我們來看看Google推出這個要做什麼呢?
這個就跟我們之前提過的Freebase有關啦~ 請參考”SEO – Common Tag 通用標籤與搜尋引擎優化“。
Freebase是做什麼的呢?
他們說: “Freebase is a huge collection of facts, built by people like you. Freebase connects facts in ways other sites can’t, giving you new ways to explore millions of subjects.” 他是一個事實的龐大收錄,這些事實就是透過使用者來匯集,他們以一種其他網站無法做到的方式來連接事實,並給你全新的方式來探索各種主題。
有沒有看出來背後的意義呢? Google Refine 2.0 就是讓專家學者更方便匯整各類資料,然後匯成Freebase的格式,但是匯成Freebase格式做什麼用呢?
就是語意相關的、就是知識社交化啦,這個背後在做的事情,就是在建立各種領域的專家資料庫,跟我們之前文章提到的”Blekko 一個不太一樣的搜尋引擎“,其實就有異曲同工之妙,資料大到一個狀況,就必需要有方法來收斂,進行去蕪存菁的作業,Google Refine與blekko的slashtags就是一樣類似的作用。