機械学習の手法のうち「教師なし機械学習」について。
目次
AI・ディープラーニングの全体像
- 人工知能
- 機械学習
- ディープラーニングの基本・応用
- ディープラーニングの研究
- AIプロジェクト
- AI社会実装に伴う法律・倫理
機械学習の手法:教師なし機械学習
概要
- 教師なし学習→正解ラベルがなく特徴量構造のみから学習→クラスタリング、次元削減
- 「クラスタリング」→正解のないデータから、共通する特徴を持つグループに分類する
例)K-means - 「次元削減」→データを特徴づける情報を抽出する
例)主成分分析
K-means(K平均法)
- K-means(K平均法)の目的→「データからグループ構造を見つけ出すために、データをK個のクラスターに分けること」
- 「K」は、ユーザーが指定するハイパーパラメータ
- 教師なし学習のクラスタリングは、教師あり学習の分類とは異なる
- 教師ラベル(正解)がないため、データ間の特徴量の類似度に基づいてグループを分けるようモデル学習される
- データ間の特徴量の類似度を距離として捉え、距離の近いデータをグルーピングする
- 顧客のタイプをクラスター分析するときに利用できる
(同じクラスタ内の顧客層の多くが同じ特定商品を購入する傾向→同じクラスタ内の他の顧客にもレコメンドする)
- データを、ランダムに「K個」のクラスタに分けておく
- 各クラスタ内のデータ点の「重心」を求める
- 各データ点と計算されたK個の「重心の間の距離」を計算する
- 「距離が一番近い重心を含むクラスタ」に、各データ点を割り当て直す
- 「重心の位置が変化しなくなるまで」、上記を繰り返す
階層クラスター分析、非階層クラスター分析
- クラスタリング→クラスター分析
→「非階層クラスター分析」・「階層クラスター分析」
非階層クラスター分析
- 代表例:K-means法
- あらかじめ決めた数のクラスターにデータを分類するため、データサイズが大きく複雑な階層構造に分類しづらい場合の分析に適している
- 初期的にクラスター数と重心とを指定することにバイアスが生じやすい
→初期設定を変えながら分析を何度も繰り返す
階層クラスター分析
- データの階層化を前提としたアプローチ
- データの集合から最も近いデータを順番にまとめていく→データ群を整理し、階層構造を作り出す
- 要素間の類似性に基づいてデータをまとめ上げる分析手法→「デンドログラム(樹形図)」を生成し、クラスター形成のプロセスを視覚的に表すことができる
- データ間の類似度を距離として視覚化した樹形図→適切な高さで水平線を引き、データをクラスター(グループ)に分ける役割を果たす
- 水平線とデンドログラムが交わる点の数によって、クラスターの数が確定する
(階層のどこで切るかによって、階層数が決まる) - 各クラスターには、ある程度の数のデータが含まれていることが理想的
※すべてのクラスターにデータが1つずつしか含まれないのは適切ではない - 重要なポイント→「距離の計算方法」
※距離測定法:ユークリッド法、マンハッタン距離、マハラノビス距離など
※クラスター間の距離を定義するための手法:ウォード法、群平均法、最短距離法、重心法、メディアン法など - 距離の定義は、基本的に分析対象のデータの特性を考慮して選ぶべき
(データ数が多すぎると、デンドログラムが複雑になり、クラスターが決まりにくくなり、非階層クラスター分析を採用することになる)
非階層クラスター分析 | 事前に決めたクラスター数にデータを分類 →各データ点を距離が一番近い重心に対応するクラスターに配置を繰り返す | ・高速 ・ランダムで大量なデータの分析に適する | ・初期設定(クラスター数、重心)によって結果が影響される |
---|---|---|---|
階層クラスター分析 | 樹形図の数に沿って、最も近い距離のデータ同士を順にグルーピング →徐々にクラスター数を減らしていく | ・階層化されており説明しやすい ・商品など視点を定め、顧客情報をクラスター化して販促を効率化 | ・距離の定義に結果が影響される ・分類対象が多い場合、階層化に時間がかかる |
主成分分析
- 次元削減→「情報を凝縮させ、高次元のデータを低次元のデータに変換すること」
- 次元削減の代表的手法:「主成分分析(Principal Component Analysis;PCA)」
- 特徴量間の関係性を分析し、「全体のばらつき」を最もよく表す「主成分」と呼ばれる変数を合成する
- 主成分に注目することで、データの本質的な構造や特徴が掴みやすくなる
- 強く相関し合う特徴量が数多くある状態から、少数の重要な情報を持つ特徴量に情報圧縮を施す
- 次元削減を用いて情報を凝縮することで、可視化しやすくなる
- 特徴量を減らし、学習時間を節約することで、「次元の呪い」への対策にもなる
- 特徴量間の強い相関は過学習の要因になる→教師あり学習の学習データに対し、事前に次元削減を施すことで、教師あり学習の精度を向上させることができる
- 予測対象に強く関連する特徴量を採用し、関連性の薄いものや相関の高いものを排除することが理想的
- 次元削減を使用することでノイズを取り除き、重要な特徴量のみで構成されるデータセットに仕上げることができる