- AI BEST SEARCH
- AI関連用語集・キーワード一覧【AI BEST SEARCH】
- 自己教師あり学習(Self-supervised Learning)
自己教師あり学習(Self-supervised Learning)
自己教師あり学習(Self-supervised Learning)とは、ラベルのないデータから自動的に学習のための“擬似ラベル”を生成し、それを使ってモデルを訓練する機械学習の手法です。 従来の教師あり学習と比べて、大量のラベル付きデータを必要とせずに、高精度なモデルを構築できる点が特徴です。 一般的に、機械学習には人手で作成されたラベル(正解データ)が必要ですが、 自己教師あり学習では、データそのものの構造や特徴から学習に使える信号を自動で生成します。 これにより、「ラベル作成のコスト削減」と「大量データの活用」が両立できる次世代の学習パラダイムとして注目されています。 主な仕組みの例: • 入力データの一部を隠し、その部分を予測させる(例:画像の一部欠損を補完) • 時系列の順序をシャッフルして、元の順序を推定させる • テキストの一部をマスクし、文脈から推測させる(例:BERTでのマスク言語モデル) 自己教師あり学習の代表的な応用分野: • 自然言語処理(NLP):BERT、GPTなどの大規模言語モデルは、自己教師ありで事前学習されている • 画像認識:SimCLR、MoCo、BYOLなどの手法により、高精度な特徴抽出が可能 • 音声処理:wav2vec 2.0 などが音声データから自動で特徴を学習 利点: • ラベルなしデータを活用できるため、データ収集コストを大幅に削減 • 表現学習(representation learning)としても有効で、下流タスクへの転移がしやすい • データの構造や文脈を深く捉える高性能な事前学習が可能 自己教師あり学習は、教師あり学習と教師なし学習の中間に位置するアプローチであり、 近年のAIモデル(特に基盤モデルや大規模言語モデル)では欠かせない学習技術となっています。 今後は、視覚・言語・音声などマルチモーダルな学習への応用も広がると期待されています。