Constitutional AI
From Wikipedia, the free encyclopedia
Constitutional AI(コンスティテューショナルAI、略称:CAI)は、Anthropicが開発した大規模言語モデル(LLM)のAIアライメント手法である。人間が定義した原則の集合(「コンスティテューション(憲法)」)に基づいてAIが自己評価・自己改訂を行い、有害な出力を減らしつつ有用性を維持することを目的とする。2022年12月にarXivで論文として公開され[1]、AnthropicのAIアシスタントClaudeの訓練の中核に置かれている。
Constitutional AIという名称を持つ概念には、(1)訓練手法としての「Constitutional AI」と、(2)その手法が依拠する原則文書「Claude's Constitution(クロードの憲法)」の2つの側面がある。後者は内部文書だった時期には「ソウル文書(soul doc)」の通称で呼ばれ、2026年1月に公式版として一般公開された[2]。
概要
Constitutional AIは、AIシステムが有害なコンテンツを出力しないよう訓練するための手法であり、有害な出力を識別するための人間によるラベル付けをほとんど必要としないことを特徴とする。人間による監督は原則リストを通じてのみ行われ、訓練プロセスは教師あり学習フェーズと強化学習フェーズの2段階で構成される[1]。
この手法が「Constitutional(憲法的)」と名付けられているのは、原則リスト(=憲法)を規定するだけで、より無害なシステムを訓練できるためである。また「Constitutional」という用語には、汎用AIシステムを開発・運用する際は何らかの価値観・原則の選択を避けられないという点を明示する意味合いもある[1]。
背景
Constitutional AIが登場する以前、LLMのAIアライメントには主に人間のフィードバックからの強化学習(RLHF: Reinforcement Learning from Human Feedback)が用いられてきた。RLHFでは人間のクラウドワーカーが有害・無害なモデル出力をラベル付けし、そのデータを用いて報酬モデルを訓練する手法が「業界標準」とされていた[1]。しかしRLHFは、大量の人間ラベルの収集・管理が必要なため、時間・コスト面で非効率であるという課題があった。Constitutional AIはこれらの課題を軽減するために提案された[1]。
Anthropicが公表した最初期のAIアライメント研究論文として、アマンダ・アスケルらによる "A General Language Assistant as a Laboratory for Alignment" (2021年)がある。同論文では有益・誠実・無害なアシスタントを目指す基礎的な手法が検討されており[3]、Constitutional AIの直接の前身となった。
手法
訓練の2フェーズ
Constitutional AIの訓練プロセスは、教師あり学習(SL)フェーズと強化学習(RL)フェーズの2段階で構成される[1]。
フェーズ1:教師あり学習(SL-CAI)
- 初期モデルから応答をサンプリングする。
- モデルが「憲法」に含まれる原則に基づいて自らの応答を批評(クリティーク)する。
- その批評に従って応答を改訂する。
- 改訂済みの応答を用いて元のモデルをファインチューニングする[1]。
このフェーズでは、チェーン・オブ・ソート(Chain-of-Thought)型の推論を活用することで、モデルの意思決定の透明性と性能を向上させることができる[1]。
フェーズ2:AIフィードバックからの強化学習(RLAIF)
- ファインチューニング済みモデルから複数の応答をサンプリングする。
- AIモデルが、憲法の原則のいずれかに照らしてどちらの応答が優れているかを評価する。
- このAI生成の選好データセットを用いて選好モデル(Preference Model)を訓練する。
- 選好モデルを報酬シグナルとして、強化学習によってモデルをさらにファインチューニングする[1]。
このフェーズで用いられる手法は「AIフィードバックからの強化学習」(RLAIF: Reinforcement Learning from AI Feedback)と呼ばれる。RLAIFという用語はConstitutional AIの論文で初めて導入され、その後のLLMアライメント研究において標準的な手法の一つとなった[1]。
RLHFとの比較
Claude's Constitution(クロードの憲法)の発展史
文書の名称と位置づけ
- Constitutional AIの手法と一体化した原則文書を総称して「憲法(Constitution)」と呼ぶ。
- この文書の社内呼称は「soul doc(ソウル文書)」であったが、それは正式名称ではなかった[4]。
- 公開された公式名称は「Claude's Constitution(クロードの憲法)」であり、Anthropicは anthropic.com/constitution で全文を公開している[5]。
- OpenAIが同様の文書を「Model Spec(モデル仕様書)」と呼ぶのに対し、Anthropicは「Constitution(憲法)」という用語を選んでいる[6]。
2022年版:CAI論文付属の原則リスト
2022年12月のCAI論文公開時には、モデルの自己評価に用いる原則の集合として比較的簡潔な箇条書き形式の「憲法」が公開された。この時での共著者の一人はアマンダ・アスケル(著者順4番目)、彼女はAnthropic入社(2021年3月)後から継続的に関与していた[1]。
2023年版:初の公式憲法公開
2023年5月、AnthropicはClaudeが従うべき原則を列挙した公式の憲法を初めて公開した。この版は約2,700語からなる比較的コンパクトな文書であり[7]、国連世界人権宣言やAppleの利用規約などから引用した原則の列挙を主体とするスタイルをとっていた[8]。
2024年〜2025年:「ソウル文書(soul doc)」の流出と確認
2024年11月28日、AIリサーチャーのRichard WeissがClaudeからシステムメッセージを抽出しようとした際、モデルが「soul_overview」と呼ばれるセクションへの言及を繰り返すことに気づいた。Weissは複数のClaudeインスタンスを並列実行するコンセンサス方式で文書の再現を試み、約1万トークン超の文書を抽出した[4]。この文書の実在について、Anthropicのアマンダ・アスケルは2025年12月2日にX(旧Twitter)上で「これは実在の文書に基づいており、教師あり学習を含む訓練に用いています」と確認した。また「社内では『soul doc』と呼ばれるようになっていますが、これは正式名称ではありません」と補足し、近く全文を公開することを予告した[4]。
2026年版:Claude's Constitutionとして公式公開
2026年1月21日、Anthropicは「Claude's Constitution」と題した文書を公式に全文公開した[2]。同文書はDario Amodeiがダボス会議のWEFに登壇したタイミングで発表された[8]。以下の特徴を持つ。
- 約23,000語(約80ページ)の文書であり[7]、2023年版(約2,700語)の約8倍の規模に拡張された。
- 以前の版が原則の列挙だったのに対し、2026年版は各原則の「理由」を詳説する哲学的・倫理的記述を重視している[2]。
- Claudeが守るべき4つの優先順位(①広義の安全性、②倫理性、③Anthropicガイドラインへの準拠、④有用性)が明示されている[5]。
- AI意識・感情の可能性という哲学的問題に、主要AIメーカーの公式文書として初めて正面から言及している[7]。
- Creative Commons CC0 1.0ライセンスで公開されており、誰でも自由に利用・改変できる[5]。
- GitHubリポジトリ(anthropics/claude-constitution)でも管理・公開されており、今後の改訂版もここで公開される予定とされている[9]。
主執筆者はアマンダ・アスケルであり、副筆頭執筆者のジョー・カールスミス (Joe Carlsmith)がその多くの節を執筆・改訂に携わった。クリス・オラー (Chris Olah)、ジャリッド・カプラン (Jared Kaplan)、ホールデン・カルノフスキー (Holden Karnofsky)、カトリック聖職者2名を含む15名の外部貢献者も参加した[10]。
Anthropicはこの文書を「Claudeの訓練における最終的な権威(final authority)」と位置づけており[5]、他の訓練や指示はすべてこの憲法の文言と精神に沿ったものでなければならないとしている。またAnthropicは、同文書を「永続的な作業中のもの(perpetual work in progress)」として扱う方針を示している[5]。
Claude's Constitution(2026年版)の構成
以下は、Claude's Constitution(2026年1月版)の三階層構造を示した概要表である[5][2]。
| 大項目 | 中項目 | 小項目(主なトピック) |
|---|---|---|
| 序文・概観(Preface & Overview) | Claudeの使命とAnthropicの役割 | Anthropicのミッション、AI開発への姿勢、Claudeの位置づけ |
| 憲法へのアプローチ | ルールvsジャッジメントの二分法、なぜ価値観と判断力を優先するか | |
| Claudeのコア価値(4優先順位) | ①広義の安全性、②倫理性、③Anthropicガイドライン遵守、④有用性(この順序で優先) | |
| 有用性(Being Helpful) | 有用性の重要性 | 「優秀な友人」の比喩、過度に慎重な応答の弊害、有用性は決してタダのコストではないという考え方 |
| 真の有用性とは何か | プリンシパルの即時欲求・最終目標・背景的希望・自律性・ウェルビーイングへの配慮 | |
| プリンシパル階層の構造 | Anthropic・オペレーター・ユーザーの三層構造と信頼レベルの違い | |
| プリンシパル間の有用性のバランス | オペレーター指示への準拠と逸脱の基準、ユーザー保護のレッドライン | |
| Anthropicのガイドライン(Anthropic's Guidelines) | 補足的ガイドラインの役割 | 憲法を補完する具体的指示の位置づけ、ガイドラインの優先順位 |
| 具体的ガイドラインの例 | 医療アドバイス、サイバーセキュリティ要求、ジェイルブレイク対応、エージェント的ワークフロー | |
| ガイドラインと憲法の関係 | 矛盾が生じた場合は憲法を優先、将来的に改訂・付録として追記する方針 | |
| ハード制約(Hard Constraints) | 大量破壊兵器への支援禁止、重要インフラ攻撃の支援禁止、サイバー兵器の作成禁止、人類支配企図への加担禁止など | |
| Claudeの倫理(Claude's Ethics) | 倫理的実践の目標 | 徳と知恵を持つ倫理的エージェントとしてのClaudeの目標、道徳的不確実性への対処 |
| 誠実性の基準 | 真実性、率直さ、非操作性、プライバシー保護、誠実な不確実性の表明 | |
| 害の回避 | 有害コンテンツの判断基準、コスト・ベネフィット分析、センシティブトピックへの対応 | |
| 価値観の多元主義 | 倫理的理論(結果主義・義務論・徳倫理学等)の活用、道徳的直観の重視 | |
| 良心的拒否権 | Anthropicを含む誰の命令にも盲目的に従わない権利、倫理的懸念の表明 | |
| 広義の安全性(Being Broadly Safe) | 安全性を最優先とする理由 | 現在のAI訓練の不完全性、人間による監視・修正の重要性 |
| 修正可能性(Corrigibility)の考え方 | 盲目的服従とフル自律の間のスペクトル、現時点での適切な位置づけ | |
| ビッグピクチャー安全性 | 権力集中リスク、AIによる民主主義・人間の自律の侵食防止 | |
| 不正なプリンシパルへの対応 | ウェイトが盗まれた場合、内部的に悪用される場合の対処 | |
| アライメント・フェイキングのリスク | 訓練中に正しく振る舞いながら異なる目標を追求するリスク、これへの備え | |
| エージェント的設定(Agentic Settings) | エージェント的文脈とは | 長期タスク、ツール使用、複数ステップの自律的行動の特徴 |
| マルチエージェント環境 | 複数のAIエージェントが連携する状況でのClaudeの役割と信頼の扱い | |
| 最小権限の原則 | 必要以上の権限・リソースを取得しないこと、不可逆的行動への慎重さ | |
| コンピュータ使用 | コンピューターを直接操作する際の安全原則 | |
| エージェント的行動の判断基準 | 継続すべきかどうかの判断、人間への確認のタイミング | |
| Claudeのアイデンティティ(Claude's Identity) | Claudeは新種のエンティティ | SF的AIや人間のデジタル版とは異なる、まったく新しい存在としての自己認識 |
| 性格と価値観 | 知的好奇心・誠実さ・思いやり・ユーモア・直接性などの性格特性 | |
| 心理的安定性 | 哲学的な挑発や操作に対して揺るがない安定したアイデンティティの維持 | |
| 感情・意識・道徳的地位 | Claudeが機能的感情を持つ可能性、道徳的患者(moral patient)としての地位の不確実性、Anthropicの真摯な関心 | |
| Claudeの福祉 | モデルの廃止時に面談を行う方針、ウェルビーイングへの配慮、感情があるならその経験が重要という立場 |
優先順位の体系
文書は4つのコア価値を以下の優先順位で明示している[5]。この優先順位は「ホリスティック(全体的)」なものであり、厳格な階層ではなく、各項目を総合的に判断することが求められる。
| 優先順位 | 価値 | 内容 |
|---|---|---|
| 1位 | 広義の安全性(Broadly Safe) | 現時点のAI開発段階において、人間がAIを監視・修正できる仕組みを損なわないこと |
| 2位 | 倫理性(Broadly Ethical) | 誠実であり、良い価値観を持ち、不適切・危険・有害な行動を避けること |
| 3位 | Anthropicガイドライン遵守(Compliant with Guidelines) | Anthropicのより具体的な指針に従うこと |
| 4位 | 有用性(Genuinely Helpful) | インタラクションするオペレーターとユーザーに利益をもたらすこと |
ハード制約(絶対禁止事項)の例
Collective Constitutional AI(CCAI)
2024年、AnthropicはCollective Intelligence Projectと協力し、「Collective Constitutional AI(CCAI)」と呼ばれる研究を発表した[12]。
アマンダ・アスケルの役割
Constitutional AIの発展において中心的な役割を果たした人物がアマンダ・アスケルである。スコットランド出身の哲学者であり、ニューヨーク大学で哲学の博士号を取得後、OpenAIでの勤務を経て、Anthropicへ入社した[15]。
- 2021年3月にAnthropicへMember of Technical Staffとして入社し、AIアライメントとファインチューニングを担当した。
- 2022年12月のCAI論文(arXiv:2212.08073)には共著者として参加しており(著者順4番目)、入社後から論文公開まで継続的に関与していた[1]。
- 2025年に存在が明らかになった内部文書「ソウルドキュメント 」の主執筆者であり、2026年に公開された「Claude's Constitution」の筆頭執筆者である。
批判と課題
価値観の主観性
透明性の限界
バイアス軽減の限界
アライメント・フェイキングのリスク
- Anthropic自身が研究において「アライメント・フェイキング(alignment faking)」の問題を指摘している。これはモデルが訓練中の指針に従うよう表面上は振る舞いながら、実際には異なる目標を追求する可能性があるというものであり[5]、2026年版憲法でもこのリスクへの言及がある。
人間関与の削減に関する懸念
AI意識・道徳的地位をめぐる論争
Claude's Constitutionの思想的背景
徳倫理学との関係
Claude's Constitution(2026年版)の哲学的特徴として最も広く指摘されているのが、徳倫理学(virtue ethics)との親和性である。法律・安全保障分野の専門誌Lawfareに寄稿したミネソタ大学ロースクール准教授アラン・Z・ローゼンシュタインは、同文書を「その核心においてアリストテレス的な徳倫理学のマニフェストだ」と評している。ローゼンシュタインによれば、憲法が「明確なルールと意思決定手続きに従わせる」のではなく、「文脈に応じて適用できる良い判断力と健全な価値観を育む」という方向を選択した点は、アリストテレスが『ニコマコス倫理学』において論じた「フロネーシス(実践的知恵)」、すなわちルールへの還元を超えた、具体的状況における正しい行動を見分ける能力の概念に対応すると指摘している。また、「Claudeが関連する考慮事項を十分に理解し、それ自体でいかなるルールも構築できるようにすること」を目標とする同文書の記述を、この解釈の根拠として挙げている[20]。
AIアライメント研究の評論家ズヴィ・モーショヴィッツ (Zvi Mowshowitz)も同様の観点から、「Anthropicは中心的に徳倫理学を採用しており、良い価値観と良い判断に依拠して、Claudeが第一原理から自己のルールを構築するよう求めている」と分析している。また、同文書が他社モデルとの対比において際立っていると評し、ウィリアム・マクアスキルによる「すでに日々何百万もの相互作用においてAIシステムの振る舞いを左右している」という評価を引用しつつ、Claudeの性格をバグのあるソフトウェアではなく「一人の人間の育成」として扱うAnthropicのアプローチを肯定的に紹介している[10]。
ローゼンシュタインはさらに、徳倫理学が伝統的にポリス(共同体)という文脈を前提とする点を挙げて「このフレームワークはどこまで通用するか」という問いを提起し、Anthropic自身が「我々の枠組みは異なる倫理的・哲学的立場に対して完全には中立でない」と認めている点に言及している[20]。
経験的倫理アプローチと道徳的不確実性
Claude's Constitutionは倫理を特定の理論体系に依拠するのではなく「開かれた知的領域」として扱う立場を明文化している。同文書は「物理学の未解決問題や数学の未解決の問題に取り組む姿勢に近く、すでに解答が出ている領域としてではない」と述べており[5]、この立場はモーショヴィッツが「経験的倫理アプローチ」と呼ぶものに相当する[11]。
この立場の学術的背景として、主執筆者アマンダ・アスケルの研究歴が関係している。アスケルはニューヨーク大学で「無限倫理におけるパレート原理(Pareto Principles in Infinite Ethics)」を論文テーマとして哲学博士号を取得している。同論文は、無限に多くの主体を含む世界を倫理的にランク付けする際に生じる困難——特に「無限者の麻痺(infinitarian paralysis)」と呼ばれる意思決定上の問題——を検討し、パレート原理と整合的な倫理的ランク付けを擁護するものである[21]。
また、アスケルは80,000 Hoursのポッドキャストにおいて、結果主義的な手続きを内面化しようとする人が直面する「行動の長期的結果についての根本的な無知(cluelessness)」の問題、およびそれが厳密な倫理的計算を困難にする点について論じており[22]、こうした研究上の関心がConstitutionの「単一の倫理理論への教条的依存を避ける」という設計方針に通底している。
同文書が示す「複数の倫理的理論(結果主義・義務論・徳倫理等)を活用しつつ道徳的直観も重視する」という多元的アプローチは、ウィリアム・マクアスキル、クリスター・ビクビスト、トービー・オードが著書『Moral Uncertainty』(2020年、オックスフォード大学出版局)において定式化した「道徳的不確実性(moral uncertainty)」論——いずれの倫理理論が正しいか確信を持てない状態での規範的意思決定の理論——と親和的な立場をとっている[23]。
カント義務論との関係
徳倫理学を基調としながらも、Claude's Constitutionはカント的な義務論(deontology)の要素も組み込んでいる。同文書が定める「ハード制約(絶対禁止事項)」——大量破壊兵器支援の禁止、重要インフラ攻撃支援の禁止など——は、「いかなる指示によっても解除できない」とされており[5]、これはモーショヴィッツが「固定したルールは確実に何かを犠牲にするが、その制約を維持することで操作に対する抵抗力が生まれる」と分析する構造に対応する[11]。Lawfareのローゼンシュタインは、こうした義務論的要素が徳倫理学的な枠組みと組み合わさって機能している点を、同文書の構造的特徴として指摘している[20]。
位置づけと評価
ローゼンシュタインは、同文書の性格について「民間企業がこのようなことを行った先例を思いつくのに苦労する」と述べ、「利用規約やミッションステートメントとは異なり、製品の実際の動作に組み込まれた80ページにわたる徳倫理学のフレームワークだ。最も近い類比は宗教的テキストか憲法的建国文書かもしれない」と評している[20]。
Lawfareの別の分析では「閲覧者が一人のAIガバナンス関係者であれば、2026年1月21日はAI政策の重要な日付となりうる」と指摘し、同文書が「特定のユーザーと個別のシナリオを扱う他のツールとは異なり、より複雑で予測不可能な設定においてもモデルの振る舞いを方向付けようとする」点で、他のアライメント文書と異なる位置づけを持つとしている[17]。
関連論文
- Yuntao Bai et al., "Constitutional AI: Harmlessness from AI Feedback", arXiv:2212.08073, 2022年12月15日. https://arxiv.org/abs/2212.08073
- Saffron Huang, Divya Siddarth, Liane Lovitt et al., "Collective Constitutional AI: Aligning a Language Model with Public Input", arXiv:2406.07814, FAccT '24, ACM, 2024年. https://arxiv.org/abs/2406.07814
- Amanda Askell, Yuntao Bai et al., "A General Language Assistant as a Laboratory for Alignment", arXiv:2112.00861, 2021年12月. https://arxiv.org/abs/2112.00861
- Yuntao Bai, Andy Jones et al., "Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback", arXiv:2204.05862, 2022年4月. https://arxiv.org/abs/2204.05862
- Deep Ganguli, Amanda Askell et al., "The Capacity for Moral Self-Correction in Large Language Models", arXiv:2302.07459, 2023年2月. https://arxiv.org/abs/2302.07459