Google 收購 reCAPTCHA

Google收購了reCAPTCHA, 一家由卡內基美隆大學延伸出來的公司, 專門研究文字與圖形轉換的技術並提供安全檢查碼免費服務, Google買下這家公司能夠拿來幹什麼事情?

許多人應該在網路上輸入資料時, 常會看到如下的圖案:

這個圖案式的文字主要是確定操作輸入的是「人」而不是「自動程式」

這個圖案就是所謂的CAPTCHA, 也可說是安全檢查碼, 英文是「Completely Automated Public Turing test to tell Computers and Humans Apart」, 直接翻譯的意思是「全自動區分電腦和人類的圖靈測試」

圖靈測試(Turing test)是一種測試電腦是否具備人類智能的方法, 其來源應該是Turing Machine, 就是在1936年由Alan Turing設計出來的概念, 可以摹擬任何的電腦演算法

所以Google買下這個技術做什麼呢? 根據”Teaching computers to read: Google acquires reCAPTCHA“的說法是: 可以自動的將掃瞄文字準確的還原為純文字, 應用在Google BooksGoogle News Archive Search

也就是紙類的印刷文字將可以更精準的變成Google的資料, 除了這個呢?

既然可以把紙類的印刷文字還原成純文字, 就有可能也將網路上的影像檔文字(image text)抽取出來, 以reCAPTCHA具備比Optical Character Recognition (OCR)更準確的情況來看, Google應該會開始處理影像檔文字, 也就是只要圖案內有可辨識的英文字, 都可能被抓取, 當然處理中文字的困難是更高的, 所以短期內影像檔中文字是無法處理(當然一般掃瞄書籍出來的中文字是可以處理的)

如此一來, 就英文來說, 影像檔就可以多出更多的meta data, Flash檔案中的圖檔物件的文字都可以順利處理了, 這個發展讓Google又多了一項有力的武器, 當然reCAPTCHA還可以把處理後的資料以聲音唸出來, 這個應用也許以後也會陸續出現 …

參考網站: reCAPTCHA

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *