ディープラーニングの研究/文章生成AI

「文章生成AI」モデルのチューニングについて。

目次

AI・ディープラーニングの全体像

  • 人工知能
  • 機械学習
  • ディープラーニングの基本・応用
  • ディープラーニングの研究
  • AIプロジェクト
  • AI社会実装に伴う法律・倫理

文章生成AI

概要

ChatGPT・2022年11月リリース
「ChatGPT Plus」(2023年3月)
Gemini・2023年12月
「Bard」(2023年3月リリース)
「PaLM2」が使われている
LLaMALarge Language Model Meta AI
・2023年2月リリース
「LLaMA-2」(2023年7月)
・高性能ながらモデルサイズが圧倒的に小さい
ChatGPT
  • 「Transformer」を応用したモデル
  • GPT→ウェブから収集した大量なテキストデータを用いて「教師なし学習」を行い、自然言語の一般的な知識を学習しており、事前学習用データには、偏見や差別的表現が含まれてしまう
  • 「ファインチューニング」を行い、人間が手を加えて作成したデータと人間によるフィードバックを使用する
  • ファインチューニングの仕組み
    「教師あり学習」「報酬モデルの学習」「強化学習」
  • 全体のプロセスには人間が関わっており、人間(ラベラー)からのフィードバックに基づきモデルが訓練される(Reinforcement Learning form Human Feedback(RLHF)
  • 開発に関わる人間(ラベラー)→すべてを一つの請負会社に委託すると、バイアスが学習に影響を与える

教師あり学習(Supervised Fine-Tuning;SFT)

  • 人間(開発者、ラベラー)が作成した「プロンプト」と、それに対する「正しい回答」のセットを学習データとし、GPTに対して「教師あり学習」を行う
  • 事前学習で十分に学習できていないことを学ぶことができる
  • 不適切表現、要約、ポジネガ感情など

報酬モデルの学習

  • 強化学習に必要な「報酬モデル」の学習→人間のフィードバックで行う
  • 報酬モデル→強化学習において、GPTを定量的に評価する関数
  • 人間がGPTに質問を行って複数の回答を出力させ、人間が”適切であると思われる順”に並び替える
  • 人間が並び替えた順位をデータセットとして、報酬モデルに学習させる

報酬関数を使った強化学習

  • 学習済みの報酬モデルを用いて「強化学習」を行い、GPTの出力を最適化するための「方策(ポリシー)」を最適化する
  • GPTに質問を与えて回答を出力させ、その出力を報酬モデルが評価する
  • その評価をさらにGPTにフィードバックする

課題

  • テキストを確率的に生成しているため、学習データに根拠がなくとも、確率が高いと計算された単語を返す(ハルシネーション(幻覚)
  • 推論問題など高度がタスクに関しては、内容的に違和感や矛盾が現れる
  • 法律、倫理に関する問題がある
  • 継続的なチューニングで進化を遂げていくうちに、不適切な出力の確率が減ることが期待される

この記事が気に入ったら
いいね または フォローしてね!

  • URLをコピーしました!
目次