Microsoft的搜尋與多媒體技術

五月 28, 2008


微軟亞洲研究院成立十週年,院長洪小文(上圖)透露了部份研究成果:搜尋與多媒體技術。目前進行的研究成果包含自動化圖片編輯、與行動定位系統搭配的圖片搜尋、以搜尋為基礎的翻譯技術、哼唱搜尋,以及自動語音合成技術等,全都與多媒體或搜尋技術相關,顯示微軟打算與Google正面交峰的企圖。

與Google Earth與街景服務競爭的圖片搜尋技術稱為Photo2Search,使用者可用手機將街道上的建築物拍攝並上傳至系統,系統便會先取得基地台的位址資料,再將附近街道圖片與使用者上傳之圖片進行比對,比對完成後,再將使用者所需的資訊,如附近地圖、觀光點、建物資訊等訊息回傳給使用者。

傳統的圖片搜尋多半是透過metadata才能進行搜尋,但Photo2Search是透過基地台的位置比對,將搜尋目標範圍縮小後,再針對圖片內容進行畫素分析。

Photo2Search顧名思義就是利用圖片來搜尋,想要知道最近出來的DVD的反應如何?是值得一看還是浪費時間?只要照個像丟上系統查詢…想要知道最近開的餐廳評語如何?也只要照個像丟上系統查詢…

Photo2Search就是要讓: a picture is worth a thousand words , 一張圖片勝過千言萬語, 讓圖片自己與系統對話!

這個技術就是要解決實際世界與數位世界的差異問題, 這項技術的前身是Content Based Image Retrieval (CBIR) – 圖片內容頡取, 但是運算時間長且不易取得同類查詢的結果, Photo2Search使用另外的方式來比對事先取得的圖片資料庫, 這個技術可以運作在圖片、聲音、影片上。

其他關於搜尋的技術研發,還有翻譯搜尋Lingo。透過比對網路上現成的多語言資料,可以更精確找出特定語詞的譯法。至於已被商品化的搜尋技術,則是哼唱搜尋(Query by Humming),藉由哼唱一段歌曲,再透過語音辨識技術來找出資料庫中吻合的曲目,該技術目前已輸出給部分手機鈴聲(ringtone)業者,並已有商業化服務。

該語音合成的發聲特徵來自建模(modeling)技術,任何人只要先花二十分鐘讓系統學習,然後就能用他的聲音唱任何歌曲、說任何話。

這樣一個系統在任何多媒體資料庫上是非常有用的,其中載有音樂的資料庫提供一個替代性和自然的方式查詢。可以廣泛使用這種系統在商業音樂產業、音樂電視台及電台、音樂商店,甚至於個人的使用上。

敬請留言

你的回應對我們是很重要的. 你的電子郵件將不會被公開.

請等待 ...
*
Loading Facebook Comments ...