Latent Semantic Index 隱含語意索引

我們在之前的文章提過"搜尋引擎最佳化與隱性語意: SEO and Latent Semantic“, “SEO 與 Latent Semantic Analysis (LSA)“,到底內容是否注意Latent Semantic Index 隱含語意索引有沒有關係? 到底要如何注意呢?

Latent Semantic Index隱含語意索引就是透過Latent Semantic Analysis後所建立起來的結果。但許多都把LSA與LSI當做同樣一件事,也無傷大雅。

如果每個字都只有一個意義,也就是word對應到concept都是一對一的話,那麼問題就很簡單,但是實際上每個word有同義詞、近義詞,甚至在不同的句子中,同樣的word又有不同的意義 … 因此問題就複雜了。

以前我們說「某某人很火」,大概是指「某某人很火大」、「某某人很不高興」,但是現在又可能指「某某人很紅火」、「某某人很熱門」,這些的不同又跟時間的推移有關係 …

LSA就是要找出文件中,哪些文件是相關的,不是用word去比對,而是用concept去比對,所以最開始就要抽離出word而成concept space。

假設有下面幾個文件的title

  1. The Neatest Little Guide to Stock Market Investing
  2. Investing For Dummies, 4th Edition
  3. The Little Book of Common Sense Investing: The Only Way to Guarantee Your Fair Share of Stock Market Returns
  4. The Little Book of Value Investing
  5. Value Investing: From Graham to Buffett and Beyond
  6. Rich Dad’s Guide to Investing: What the Rich Invest in, That the Poor and the Middle Class Do Not!
  7. Investing in Real Estate, 5th Edition
  8. Stock Investing For Dummies
  9. Rich Dad’s Advisors: The ABC’s of Real Estate Investing: The Secrets of Finding Hidden Profits Most Investors Miss

如果我們只用title的字來當成LSA的根據來計算的話,我們會得到如下的結果:

當去除一些沒有必要的stop word之後,算出來的結果就可以看出來,T7跟T9比較相關,T1跟T3比較相關,T2跟T4、T5、T8比較相關,T6則沒有跟其他相關。

至於結果是怎麼算的呢? 有興趣可以參考: Latent Semantic Analysis (LSA) TutorialWikipedia : LSA

但是其實LSA還是有些問題被簡化了: word order、一字多義都沒有考慮 … 一字多義還比較好解決,但是word order就比較困難了,如果字的順序會影響concept的話,結果就可能不正確。

搜尋引擎到底有沒有使用LSA? 有些人說沒有 (參考: digitalpoint forum),許多人認為只是理論而已(這裡有一篇學術paper: CombiningWeb-based Searching with Latent Semantic Analysis to Discover Similarity Between Phrases),但是如果你使用Google Webmasters去瞭解,其實很多資料都有LSA的影子 … 如果你仔細去瞭解裡面的資料的話,你會發現網站內容的用字遣詞都必須特別注意。

那麼既然LSA是以word找concept,那麼只要關鍵充塞就好啦,不是嗎? 那麼你可以看看這個demo

LSA的技術使用在search engine的英文環境上已經沒有多大的困難,而使用在中文上可能只缺一些完整的mapping。

當然除了透過LSA來調整你的內容之外,再透過Semantic Tag來建立關聯,也是必須注意的。

3 留言

於 Latent Semantic Index 隱含語意索引.
  1. NewsFeed
    |

    隨著資料集的大量增長,引用統計式文件模型於資訊檢索上之研究重要性與日俱增。機率式潛在語意分析(probabilistic latent semantic analysis, PLSA)模型為一種可有效率擷取語意及其統計量的文件模型方法。而機率式潛在語意分析在實際應用時,對於新領域文件連續地更新具有高敏感性。本論文中,提出了一個新穎的貝氏機率式潛在語意分析的架構,本研究方法著重於利用遞增式學習演算法,解決新文章加入時的模型更新(updating)問題的方法。本演算法藉由即時遞增式萃取以及學習最新的潛在式語意資訊,以期望提升文件模型之效能,並獲得符合線上資料改變後的新文件模型。在設定上,藉由一個適當的Dirichlet機率密度函式作為PLSA模型參數的事前機率。而擁有相同形式的事後機率分布使得模型得到一個可重複產生的事前/事後機率機制,以求達到累積資料的遞增式學習。本方法提出近似貝氏(quasi-Bayes, QB)機率式潛在語意分析模型以達到累進學習的目的。參數求解過程是採用Expectation-Maximization(EM)演算法推導出來的。在這樣的線上PLSA檢索系統中,為求達到更強健的參數估測同時也建構於超參數(hyperparameter)的更新。相較於原始的最大相似度估測,本論文提出的QB方法,擁有動態增加文件建立索引的能力,在本論文中也同時提出最大化事後機率(maximum a posteriori, MAP)的機率式潛在語意分析模型用於更正型的批次模型訓練(corrective training)方法。在實驗驗證上,利用文件檢索以及文件分類驗證貝氏機率式潛在語意分析之優越性。

    http://fedetd.mis.nsysu.edu.tw/FED-db/cgi-bin/FED-search/view_etd?identifier=oai:etdncku.lib.ncku.edu.tw:etd-0715105-163625&index_word=syntactic-semantic analysis

  2. NewsFeed
    |

    應用潛藏語意分析(Latent Semantic Analysis, LSA)到中文文章理解時,遭遇到的一個困難是在字的輸入部分,究竟是要用個別的單字或是由單字組成的詞。在本研究中由文章理解的建構-整合理論的觀點假設中文閱讀理解時以單字作為處理單位即可。在研究中以比較中文雙字詞在有足夠的文章背景下即在薄弱的文章背景下,其詞義及其構成單字的字義是否平行激發,以驗證此假設。實驗一以一次一個字的方式呈現中文文章,並檢驗雙字詞之單字字義、詞義激發與文章背景訊息對字彙判斷作業的促發效果,結果發現當SOA為500ms時,與文章背景訊息無關的單字字義以及文章的背景訊息都會被激發,SOA為1000ms時此激發產生的促發效果消失。另一方面,與文章背景無關的雙字詞詞義在SOA為200、500、1000ms時都產生負向的促發效果。此結果顯示中文的雙字詞中的單字字義是被獨立且平行激發的,與建構-整合模型的假設相符,但雙字詞則不符合。實驗二是雙字詞為背景來與比較雙字詞中構成單字的字義與雙字詞的詞義被激發的時間歷程,結果發現雙字詞中個別組合單字在SOA為200ms時,其與雙字詞詞義無關的字義會與雙字詞詞義皆被平行激發,且雙字詞中第二字的字義與雙字詞詞義的激發則皆會持續至SOA為1000ms時。綜合兩個實驗結果,我們推論在中文的理解歷程中,中文的認知處理單位可以是單字。

    http://nctur.lib.nctu.edu.tw/handle/987654321/7486

  3. NewsFeed
    |

    垃圾信攻擊隨著時間在變化,必須要有好的機制來因應不斷變化的垃圾信攻擊。動態式的學習增長,將是近年垃圾信過濾器重要發展方向。
    由於信件中有些伴隨出現的文字或樣式,將有很大的辨別依據,所以本論文希望藉由信件的語意與摘要分析,藉而蒐集語意的集合來進行比對。
    本過濾去分成合法信件與非法信件的語意集合,目的是為了找出與這兩類皆不相似的信件,進而分析出新的語意,使得過濾器學到新的語意來對於往後再出現的信件進行過濾。進而分析出新的語意,使得過濾器學到新的語意來對於往後再出現的信件進行過濾。
    此外,使用者的回饋將幫助本過濾器得到未顯露過信件真實的類別,並且簡單利用先cluster的方法減少使用者回饋的負擔。
    實驗結果顯示出,本論文在經過語意分析後的過濾器,呈現出較好的結果。

    http://ir.lib.ntust.edu.tw:8080/dspace/handle/987654321/7406

敬請留言

你的回應對我們是很重要的. 你的電子郵件將不會被公開.

請等待 ...
*
Loading Facebook Comments ...