「文章生成AI」モデルのチューニングについて。
目次
AI・ディープラーニングの全体像
- 人工知能
- 機械学習
- ディープラーニングの基本・応用
- ディープラーニングの研究
- AIプロジェクト
- AI社会実装に伴う法律・倫理
文章生成AI
概要
ChatGPT | ・2022年11月リリース ・「ChatGPT Plus」(2023年3月) |
---|---|
Gemini | ・2023年12月 ・「Bard」(2023年3月リリース) ・「PaLM2」が使われている |
LLaMA | ・Large Language Model Meta AI ・2023年2月リリース ・「LLaMA-2」(2023年7月) ・高性能ながらモデルサイズが圧倒的に小さい |
ChatGPT
- 「Transformer」を応用したモデル
- GPT→ウェブから収集した大量なテキストデータを用いて「教師なし学習」を行い、自然言語の一般的な知識を学習しており、事前学習用データには、偏見や差別的表現が含まれてしまう
- 「ファインチューニング」を行い、人間が手を加えて作成したデータと人間によるフィードバックを使用する
- ファインチューニングの仕組み
:「教師あり学習」→「報酬モデルの学習」→「強化学習」 - 全体のプロセスには人間が関わっており、人間(ラベラー)からのフィードバックに基づきモデルが訓練される(Reinforcement Learning form Human Feedback(RLHF))
- 開発に関わる人間(ラベラー)→すべてを一つの請負会社に委託すると、バイアスが学習に影響を与える
教師あり学習(Supervised Fine-Tuning;SFT)
- 人間(開発者、ラベラー)が作成した「プロンプト」と、それに対する「正しい回答」のセットを学習データとし、GPTに対して「教師あり学習」を行う
- 事前学習で十分に学習できていないことを学ぶことができる
- 不適切表現、要約、ポジネガ感情など
報酬モデルの学習
- 強化学習に必要な「報酬モデル」の学習→人間のフィードバックで行う
- 報酬モデル→強化学習において、GPTを定量的に評価する関数
- 人間がGPTに質問を行って複数の回答を出力させ、人間が”適切であると思われる順”に並び替える
- 人間が並び替えた順位をデータセットとして、報酬モデルに学習させる
報酬関数を使った強化学習
- 学習済みの報酬モデルを用いて「強化学習」を行い、GPTの出力を最適化するための「方策(ポリシー)」を最適化する
- GPTに質問を与えて回答を出力させ、その出力を報酬モデルが評価する
- その評価をさらにGPTにフィードバックする
課題
- テキストを確率的に生成しているため、学習データに根拠がなくとも、確率が高いと計算された単語を返す(ハルシネーション(幻覚))
- 推論問題など高度がタスクに関しては、内容的に違和感や矛盾が現れる
- 法律、倫理に関する問題がある
- 継続的なチューニングで進化を遂げていくうちに、不適切な出力の確率が減ることが期待される