自然言語処理における大量テキスト分析のための「トピックモデル」について。
目次
AI・ディープラーニングの全体像
- 人工知能
- 機械学習
- ディープラーニングの基本・応用
- ディープラーニングの研究
- AIプロジェクト
- AI社会実装に伴う法律・倫理
自然言語処理の大量テキスト分析における「トピックモデル」
トピックモデルの概要
- 「クラスタリング」を用いて文章中の”トピック”を見つけるという統計手法
- K-means:各データを1つのクラスターに属させる
トピックモデル:1つのデータを複数のクラスターへ割り当てることが可能 - 仮定①:文書が潜在的なトピックから生成される(背景となるテーマやジャンル)
仮定②:文書内の単語は特定のトピックが持つ確率分布に従って出現する(そのテーマやジャンルでよく使われる単語を想定する)
トピックモデルの種類
潜在的意味解析 (LSA;Latent Semantic Analysis) | 単語の出現数に注目、文書と単語の間の共起行列を生成し、その行列に対し、特異値分解(SVD)を行って潜在的トピックを見つける |
---|---|
確率的潜在的意味解析 (PLSA;Probabilistic Latent Semantic Analysis) | 確率の考え方を取り入れ、LSAを拡張した手法。 文書はある確率モデルに基づいて生成され、1つの文章は一定の確率をもって複数のトピックに関連づけられていると仮定。 |
潜在的ディリクレ配分法 (LDA;Latent Dirichlet Allocation) | 「ディリクレ分析」という確率分布に従い、各文章や単語が生成されることを仮定しつつ、トピックの確率値を出力。 ※PLSAでは文章の数に比例して確率モデルのパラメータ数が増えてしまって過学習しやすい。 ⇔各パラメータを1つの値に決定せず、その確率分布を考えることから、汎化性能が改善されている。 |