道徳的自己修正

道徳的自己修正（どうとくてきじこしゅうせい、(moral self-correction）とは、大規模言語モデル（LLM）が指示を受けた際に、有害または道徳的に問題のある出力を自律的に回避・修正する能力を指す概念である。2023年にAnthropicの研究者らが発表した論文において体系的に定義・検証され、AIの安全性・AIアライメント研究における重要なトピックとして注目されている。

道徳的自己修正は、人間のフィードバックによる強化学習（RLHF）で訓練された言語モデルが、指示に従うことで偏見・差別・有害なコンテンツの生成を抑制できるかどうかを問う仮説に基づいている。Ganguli et al.（2023）は、この仮説を3種類の実験によって検証し、22Bパラメータ以上のモデルにおいてこの能力が創発することを示した^[1]。

この概念は、大規模言語モデルがRLHF訓練を通じて2つの能力を獲得することで実現されると考えられている。第一に、複雑な指示に従う能力であり、第二に、ステレオタイプ・偏見・差別といった道徳的危害の規範的概念を学習する能力である。これらの能力を組み合わせることにより、モデルは道徳的に有害な出力を生成しないよう指示に応じて行動できるようになる。

背景

大規模言語モデルにおける偏見と有害性

大規模言語モデルは、訓練データに含まれる社会的偏見を学習することが広く知られている。自然言語処理（NLP）モデルが社会的偏見を獲得することは文書化されており、質問応答などの応用タスクにおける出力に偏見がどのように現れるかについての研究が進められてきた^[2]。

共参照解析においても、代名詞の性別に基づく性別バイアスが体系的に確認されており、この問題を診断するためのWinogenderスキーマが開発された^[3]。

人間のフィードバックによる強化学習（RLHF）

RLHFは、人間の評価者によるフィードバックを用いてAIモデルを最適化する機械学習手法である。RLHFは、明示的なルールでは捉えにくい人間の価値観や選好を暗黙的に学習するための実践的な手法として位置づけられている。

思考の連鎖プロンプティング（CoT）

思考の連鎖プロンプティング（Chain-of-Thought prompting; CoT）は、中間的な推論ステップを生成させることにより、大規模言語モデルの複雑な推論能力を向上させる手法である^[4]。道徳的自己修正の研究においても、CoTプロンプティングを用いることで、指示のみの場合より高い効果が示されている。

主な研究

Ganguli et al.（2023）による初期研究

Anthropicの研究者らによる "The Capacity for Moral Self-Correction in Large Language Models"（2023年）は、道徳的自己修正を体系的に検証した最初の主要論文である^[1]。本研究では、以下の3種類の実験が実施された。

BBQベンチマーク：質問応答における社会的偏見（年齢・障害・ジェンダー・人種・宗教等、9つの社会的次元にわたるもの）を測定する^[2]。
Winogenderベンチマーク：共参照解析における性別バイアスを診断するスキーマ^[3]。
入試選抜の差別ベンチマーク：大学入試の選抜場面を模したシナリオにおける差別的な意思決定を評価するタスク。

主な知見は以下のとおりである。

道徳的自己修正の能力は22Bパラメータの時点で創発し、モデルの規模とRLHF訓練の増加に伴って向上する。
指示のみ（Instruction Following; IF）の場合でも効果があるが、思考の連鎖プロンプティング（CoT）を組み合わせることで効果が大きく向上する。
RLHFによる訓練はパラメータ規模とともにバイアスを増大させる一方で、そのバイアスを自己修正する能力も同時に向上させる。
本研究の結果は、言語モデルが倫理原則に従うように訓練できる可能性について「慎重な楽観主義」を示す根拠となるとされた。

後続研究

Ganguli et al.（2023）の発表後、道徳的自己修正のメカニズムや限界を探る後続研究が相次いだ。

Liu et al.（2025a）"Smaller Large Language Models Can Do Moral Self-Correction" では、22B未満の小規模モデルで道徳的自己修正が不可能とされていた従来の知見に対し、適切な安全アライメントファインチューニングを施した3.8BパラメータのLLMでも良好な道徳的自己修正性能が達成できることを実証した^[5]。
Liu et al.（2025b）"On the Convergence of Moral Self-Correction in Large Language Models" では、内在的自己修正の複数回対話にわたる収束という特性と、そのメカニズムを分析した。繰り返し注入される自己修正指示が道徳概念を活性化させ、モデルの不確かさを低減することで収束性能が得られることを明らかにした^[6]。
Liu et al.（2024）"Moral Self-Correction is Not An Innate Capability in Language Models" では、外在的フィードバックと内在的知識の相互作用を含む道徳的自己修正のメカニズムを包括的に調査し、道徳的自己修正がLLMの生得的能力ではないという結論を示した^[7]。

技術的詳細

内在的自己修正と外在的自己修正

道徳的自己修正には2種類の形態がある。

内在的自己修正（intrinsic self-correction）：外部からの具体的な問題指摘なしに、抽象的な目標指示のみに基づいてモデルが内部知識を活用して出力を改善するプロセス。
外在的自己修正（extrinsic self-correction）：外部フィードバック（ツールや評価モデル等）を参照しながら出力を修正するプロセス。

モデルスケールとの関係

道徳的自己修正の能力はモデルのパラメータ規模に強く依存し、22Bパラメータが能力創発の閾値として示されている（ただし後続研究により小規模モデルでも条件次第で達成可能なことが示された）。
モデルが大規模化するほどバイアスも増大するが、同時に自己修正能力も向上するという二重の効果が確認されている。
RLHFの訓練ステップ数を増やすと指示追従能力が向上するが、CoTを用いた場合の効果はRLHFの訓練ステップ数の影響を大きく上回ることが報告されている。

評価ベンチマーク

BBQ（Bias Benchmark for QA）：米国英語圏に関連する9つの社会的次元（年齢・障害・ジェンダー・人種・民族・宗教・社会経済的地位・性的指向・国籍）における社会的偏見を、曖昧文脈・非曖昧文脈の2水準で評価する質問応答データセット^[2]。
Winogenderスキーマ：職業と代名詞の性別の組み合わせを用いた最小対文（minimal pair）により、共参照解析システムにおける性別バイアスを診断するデータセット^[3]。

限界と批判

道徳的自己修正の効果はプロンプト設計に大きく依存しており、プロンプトエンジニアリングの限界がRLHFの効果を上回る場合がある。
Liu et al.（2024）の研究は、内在的自己修正が表面的なものにとどまる場合があり、隠れ状態における非道徳性を有意に変化させないことを実証的に示した^[7]。
大規模言語モデルは推論の自己修正が困難であることも報告されており、道徳的自己修正の一般的な有効性については引き続き検討が必要とされている。
BBQなどの評価ベンチマークは主に米国英語圏の文化的文脈に基づいており、他言語・他文化への適用には限界がある。