ルールベースの「機械翻訳」と、現在使われている「ニューラル機械翻訳」について。
目次
AI・ディープラーニングの全体像
- 人工知能
- 機械学習
- ディープラーニングの基本・応用
- ディープラーニングの研究
- AIプロジェクト
- AI社会実装に伴う法律・倫理
機械翻訳
ルールベースの「機械翻訳」
- 当初の「機械翻訳」は、ルールベース
- 両言語に関するマニュアルと照合し、訳文を出力する
- 人間が事前に大量の複雑なルールを作成し、システムに登録しておく必要があり、役に立つ場面は限定的
統計的機械翻訳
- 1990年代に出てきた「統計的機械翻訳」は、統計モデルを使用
- データを用いて学習
- 学習データ:起点言語と目標言語に関する大量の文章ペア
- 新しい文章が入力された場合、学習済みの確率テーブルを見ながら最適な翻訳文を探す
- Google翻訳:2006年~2016年
ニューラル機械翻訳
- 「GNMT(Google Neural Machine Translation)」→ニューラル機械翻訳
- 2016年、Google社が発表
- 当初:「RNNの対」から構成される「エンコード・デコーダ(Seq2Seq)」モデルが組み込まれていた
- エンコーダ:翻訳前の文章を埋め込み、埋め込み層を用いて分散表現に変換し、隠れ層で特徴表現に変換した活性化値をデコーダに渡す
- デコーダ:デコーダを通じて復元される訳文が出力される
- RNNを用いているため、入力文章がある程度長くなると、後半では前半の情報を忘れてしまい、翻訳の精度が落ちる