深層強化学習を「生成」分野へ応用する場合について。
目次
ディープラーニングのデータ「生成」分野への応用
- ディープラーニング→画像生成など「生成」分野への応用
- データセットから、画像が持つ「潜在空間」を学習し、それをベクトルとして表現
- データセット→音声生成、文章生成
- データ生成
①「変分オートエンコーダ(VAE:Variational AutoEncoder)」
②「敵対的生成ネットワーク(GAN:Generative Adversarial Network)」
敵対的生成ネットワーク(GAN)
- ①「ジェネレータ(generator)」→ランダムなベクトルを入力、画像を生成して出力
②「ディスクリミネータ(discriminator)」→画像を入力、その画像が本物か偽物か予測して出力 - ジェネレータは、ディスクリミネータが見間違えるような偽物画像を作るよう学習していく
- ディスクリミネータは、偽物をきちんと見抜けるよう学習していく
- これら2種類のネットワークを競い合わせ、本物と見分けがつかないような偽物(新しい画像)を作り出すことを実現する
- ディープニューラルネットワークを用いている
- 「DCGAN(Deep Convolutional GAN)」→ディープニューラルネットワークに、畳み込みニューラルネットワークを採用することで、高解像度な画像生成が可能
- 「Pix2Pix」→画像から画像に変換する処理
※あらかじめ、ペア画像を学習のために用意しておかなければならない - 「Cycle GAN」→画像を変換し、その変換画像を元の画像に再度変換する処理
※ペア画像は必要ない
Diffusion Model
- データの生成過程を、時間的な連続的な拡散プロセスとする
- 「拡散過程」→画像にノイズを加えていき、ガウス分布にする
- 「逆拡散過程」→徐々にノイズを除去して画像を生成する
- 学習時は拡散過程を、生成時は逆拡散過程のみを行う
- データの品質は高く、生成AIの代表的なアプローチのひとつ
NeRF
- NeRF(Neural Radiance Fields)
- 複数視点の画像を手がかりに3次元形状を復元し、3Dシーンを生成する技術
- 新たな視点の画像を生成できる
- 3次元空間の各点での、色・透明度を予測するネットワークを学習
- 非常に高品質な3次元形状を復元でき、新たな視点や照明条件での画像生成が可能
- 計算リソースが必要、シーンごとに学習が必要など、品質は入力データの質量に強く依存