深層強化学習（ディープラーニング+強化学習）⑤

2025年2月19日

深層強化学習を「生成」分野へ応用する場合について。

ディープラーニングのデータ「生成」分野への応用

ディープラーニング→画像生成など「生成」分野への応用
データセットから、画像が持つ「潜在空間」を学習し、それをベクトルとして表現
データセット→音声生成、文章生成
データ生成
①「変分オートエンコーダ（VAE：Variational AutoEncoder）」
②「敵対的生成ネットワーク（GAN：Generative Adversarial Network）」

敵対的生成ネットワーク（GAN）

①「ジェネレータ（generator）」→ランダムなベクトルを入力、画像を生成して出力
②「ディスクリミネータ（discriminator）」→画像を入力、その画像が本物か偽物か予測して出力
ジェネレータは、ディスクリミネータが見間違えるような偽物画像を作るよう学習していく
ディスクリミネータは、偽物をきちんと見抜けるよう学習していく
これら2種類のネットワークを競い合わせ、本物と見分けがつかないような偽物（新しい画像）を作り出すことを実現する
ディープニューラルネットワークを用いている
「DCGAN（Deep Convolutional GAN）」→ディープニューラルネットワークに、畳み込みニューラルネットワークを採用することで、高解像度な画像生成が可能
「Pix2Pix」→画像から画像に変換する処理
※あらかじめ、ペア画像を学習のために用意しておかなければならない
「Cycle GAN」→画像を変換し、その変換画像を元の画像に再度変換する処理
※ペア画像は必要ない

Diffusion Model

データの生成過程を、時間的な連続的な拡散プロセスとする
「拡散過程」→画像にノイズを加えていき、ガウス分布にする
「逆拡散過程」→徐々にノイズを除去して画像を生成する
学習時は拡散過程を、生成時は逆拡散過程のみを行う
データの品質は高く、生成AIの代表的なアプローチのひとつ

NeRF

NeRF（Neural Radiance Fields）
複数視点の画像を手がかりに3次元形状を復元し、3Dシーンを生成する技術
新たな視点の画像を生成できる
3次元空間の各点での、色・透明度を予測するネットワークを学習
非常に高品質な3次元形状を復元でき、新たな視点や照明条件での画像生成が可能
計算リソースが必要、シーンごとに学習が必要など、品質は入力データの質量に強く依存

この記事が気に入ったら
いいねまたはフォローしてね！

Follow @wideworld16 Follow Me

URLをコピーしました！

この記事を書いた人

酒井寛志（さかいひろし）

長崎で活動する
税理士、キャッシュフローコーチ

酒井寛志税理士事務所/税理士
㈱アンジェラス通り会計事務所/代表取締役

Gemini・ChatGPT・Claudeなど
×GoogleWorkspace×クラウド会計ソフトfreeeの活用法を研究する一方、
税務・資金繰り・マーケティングから
ガジェット・おすすめイベントまで、
税理士の視点で幅広く情報発信中