AIのためのデータ収集・加工について。
目次
AI・ディープラーニングの全体像
- 人工知能
- 機械学習
- ディープラーニングの基本・応用
- ディープラーニングの研究
- AIプロジェクト
- AI社会実装に伴う法律・倫理
データの収集・加工・利用
学習データと予測精度
- 学習データの量と質(バリエーション)→機械学習モデルの精度を大きく左右する
- データの収集
- データの加工
- データを用いてモデルを学習
- モデルの評価
- データの収集や加工の方法を見直す
- モデルのチューニングをする
構造化データ、非構造化データ
構造化データ
非構造化データ
オープンデータ
- 「オープンデータ」→国等・研究機関・独立行政法人・企業等が公開している、無償で利用可能なデータセット
- 営利・非営利を問わず利用可能
- 「機械判読」に適したデータ形式で、「二次利用」が可能な利用ルールで公開されたデータ
- 気象データ
- 経済統計データ
- 人口動態データ
- 景気動向指数
- 物価上昇に関するアンケート調査の結果
- 公共施設の所在地
- 画像データべース
- 総務省統計のサイト、日経経済指標のサイト、政府の公共データベースなど
データの収集方法
データの収集前に、データを使う目的とデータに期待する質を再確認する必要あり。
自社データ | 売上データ、顧客データ、受注データなど |
---|---|
調査機関・データ販売企業から購入したデータ | アンケート、ポイント履歴、POSデータ |
Webからスクレイピング・クローリングしたデータ | スクレイピング(Web等から情報を抽出)、クローリング(Web等からHTMLを自動取得) |
Web APIを利用して収集したデータ | 公式APIなどから取得 |
IoTデバイス・センサーで計測したデータ | カメラ画像、位置情報、気温など |
画像・動画データ | 外部の分析システムに送り、遠隔確認可能 ※画像認識技術と組み合わせる |
在庫情報+位置情報 | 在庫情報や物流の管理 |
生体情報 | ウェアラブルデバイス |
データの適正判断
- データの質を確認する必要あり
- 学習用データにノイズが混じっていると、モデルが混乱する
- バイアス→「特定クラスのデータ数が、他クラスのデータ数よりも多い状態」
- 偏っているデータを用いてモデルを学習させると、学習結果にもバイアスが生じる
データのバイアス
- 「データバイアス」→データそのものが偏っていること
- 「サンプリング・バイアス」→母集団から標本抽出を行う段階で生じる統計的偏り
- 事前対策:サンプルデータを均等に集めるための工夫
(「層別抽出法/層化サンプリング(stratified sampling)」) - 事後対策:偏りを補正するための工夫
(「アップサンプリング」・「ダウンサンプリング」) - 「アノテーション」(教師あり学習のデータに正解ラベルを付与するプロセス)を実行する人の考え方によるバイアスにも留意が必要
アルゴリズムのバイアス
- 「アルゴリズムバイアス」→モデルのアルゴリズムが特定の変数を強調して学習してしまい、予測結果にバイアスが生じてしまう
- データバイアスとの並存が起こることもある
- 「センシティブ属性」(性別、国籍、人種など)対し、アルゴリズムバイアスが起きることは社会問題を起こすこともある
- 複数種類のアルゴリズムでモデルを構築、それらの結果に違いが生じていないか確認することが必要
外れ値、異常値
- 「外れ値(Outlier)」→他データから見て、”極端に大きな値or小さな値”のこと
- 「異常値(Abnormal Value)」→外れ値のうち、”極端な値をとる原因がわかっているもの”
- 極端に小さいor大きいからといって、必ずしも異常値であるとは言い切れない
- 合理的な原因のある以上ではない外れ値である可能性もあり、外れ値が発生した背景や原因を考察する必要あり
- トリム平均→両端にある値を取り除いて平均値を計算
- データの分析を観察し、経緯を踏まえたうえで、外れ値の性質や原因を判断することが大切
- 「対数変換」→外れ値が意味のある外れ値である判断された場合、外れ値を含んだ状態でも分析しやすくする
データの網羅性
- 学習データが、予測したい事象を網羅しているかどうか
- 学習データに含まれていない事例については、モデルは正しく予測することができない
- 転移学習を利用するなどしてまんべんなくデータを集めることが必要
- 必要とされる学習データ量を少なくするために、モデルのパラメータ数を減らすアルゴリズムの研究も注目されている