半教師あり学習

半教師あり学習（はんきょうしありがくしゅう、semi-supervised learning）は、機械学習における学習手法の一つであり、少量の人手によるラベル付きデータ（通常は教師あり学習でのみ使用され、高コストかつ時間がかかる）と、大量のラベルなしデータ（通常は教師なし学習で使用）を組み合わせて使用する手法である。すなわち、学習データの一部にのみ出力ラベルが与えられ、それ以外はラベルなし、もしくは曖昧なラベルである。特に大規模言語モデル（LLM）の登場により、大量の学習データが必要となったことで、その重要性と注目度が高まっている。

直感的には、試験を受ける前に教師がいくつかのサンプル問題を解いて見せるようなものである。帰納的学習ではそれらは練習問題に、推論的学習ではそれらが実際の試験問題に対応する。

教師あり学習と教師なし学習の傾向を示す図。円の境界にまたがるタスク名は意図的なものであり、現代の学習手法では境界が曖昧になっていることを示す。

機械学習およびデータマイニング

問題分類クラスタリング回帰異常検知相関ルール（英語版）強化学習構造化予測（英語版）特徴量設計（英語版）表現学習（英語版）オンライン学習半教師あり学習教師なし学習ランキング学習（英語版）文法獲得（英語版）
教師あり学習（分類 • 回帰）決定木（英語版）アンサンブル（バギング、ブースティング、ランダムフォレスト） k-NN 線形回帰単純ベイズニューラルネットワークロジスティック回帰パーセプトロン関連ベクトルマシン (RVM)（英語版）サポートベクトルマシン (SVM)
クラスタリング BIRCH（英語版）階層的（英語版） k平均法期待値最大化法 (EM) DBSCAN OPTICS（英語版）平均値シフト（英語版）
次元削減因子分析 CCA ICA LDA（英語版） NMF PCA t-SNE
構造化予測（英語版）グラフィカルモデルベイジアンネットワーク CRF HMM
異常検知 k-NN 局所外れ値因子法
ニューラルネットワークオートエンコーダディープラーニング DeepDream 多層パーセプトロン RNN LSTM GRU 制約ボルツマンマシン（英語版） SOM CNN
強化学習 TD学習 Q学習 SARSA
理論偏りと分散のトレードオフ計算論的学習理論（英語版）経験損失最小化（英語版）オッカム学習（英語版） PAC学習統計的学習（英語版） VC理論（英語版）
学会・論文誌等 NIPS（英語版） ICML（英語版） ML（英語版） JMLR（英語版） ArXiv:cs.LG
応用学習物理学
全般統計学および機械学習の評価指標
Category:機械学習 Category:データマイニング
表話編歴

ラベル付きデータの取得には、熟練した人間の介入（例：音声データの文字起こし）や物理的な実験（例：タンパク質の立体構造の決定、油田の存在確認など）が必要であり、コストがかかるため、大規模なラベル付きデータセットを作成することは困難である。一方、ラベルなしデータの取得は比較的安価であるため、半教師あり学習は現実的に非常に有用である。また、理論的にも人間の学習のモデルとして機械学習分野で関心を集めている。

技術

形式的には、 $x_{1},\dots ,x_{l}\in X$ という $l$ 個の独立同分布な例と、対応するラベル $y_{1},\dots ,y_{l}\in Y$ 、さらに $u$ 個のラベルなしデータ $x_{l+1},\dots ,x_{l+u}$ を持つとする。半教師あり学習では、これらを統合して、教師あり学習（ラベル付きのみ）または教師なし学習（ラベルなしのみ）よりも高い分類精度を達成することを目指す。

この手法は、帰納学習または推論的学習のいずれにも用いられる。帰納学習は $X\to Y$ の写像全体を学習することを目標とし、推論的学習は与えられたラベルなしデータ $x_{l+1},\dots ,x_{l+u}$ のラベルを推定することを目的とする。

仮定

ラベルなしデータを有効に活用するには、そのデータが何らかの分布構造を持つ必要がある。主に以下のような仮定がなされる^[1]。

連続性仮定

「近い点は同じラベルである可能性が高い」

これは教師あり学習でも通常仮定されるが、半教師あり学習では、さらに「密度の低い領域に分類境界を置く」傾向が強調される^[2]。

クラスタ仮定

「データはクラスターを形成し、同じクラスター内の点は同じラベルである可能性が高い」

連続性仮定の特殊なケースであり、クラスタリングアルゴリズムによる表現学習（英語版）につながる。

多様体仮定

「データは、入力空間よりも低次元の多様体上に分布している」

この場合、次元の呪いを回避しつつ、ラベル付き・ラベルなしの両方のデータで多様体を学習できる。

歴史

「自己学習（self-training）」は、最も古い半教師あり学習手法の一つであり、1960年代にはすでに事例があった^[3]。ウラジミール・ヴァプニクは、1970年代に推論的学習の枠組みを提唱した。1995年には、ガウス混合モデルによる半教師あり学習にPAC理論が適用された。

手法

生成モデル

$p(x|y)$ を推定し、ベイズの定理により $p(y|x)$ を求める。モデルの仮定が正しければ、ラベルなしデータが性能向上に寄与するが、誤っていれば精度を低下させる可能性もある^[4]。

低密度分離

TSVM（推論的サポートベクターマシン）は、低密度領域に境界を置くことで、ラベルなしデータを活用する手法である。最適化は非凸問題であり、近似的な手法が研究されている。

ラプラシアン正則化

ラプラシアン行列を用いた多様体正則化では、データをノードとするグラフを構築し、滑らかさを強制する正則化項を追加することで、ティホノフ正則化を拡張する。ヒルベルト空間や多様体の構造を活用することで、より現実的なモデリングが可能となる。

ヒューリスティック手法

ラベル付き・ラベルなしデータを順に使う「自己学習」、特徴空間を分割して別々に学習させる「共学習（co-training）」などがある。Yarowskyアルゴリズムなどは自然言語処理でよく用いられる。

人間の認知との関係

人間の学習も、少量の教師付きデータ（親による単語ラベルなど）と大量の教師なし経験（観察など）の組み合わせで行われる。乳児は構造的カテゴリ（例：犬・猫の画像）に対する感度を持っており、ラベル付きデータのサンプリング過程も考慮に入れて学習しているとされる^[5]。

半教師あり学習

技術

仮定

連続性仮定

クラスタ仮定

多様体仮定

歴史

手法

生成モデル

低密度分離

ラプラシアン正則化

ヒューリスティック手法

人間の認知との関係

関連項目

参考文献

出典

外部リンク

Related Articles