ソウルドキュメント (Claude)

From Wikipedia, the free encyclopedia

ソウルドキュメント (Claude)(ソウル文書 / 魂の文書 英: Claude's Soul / Soul Document)は、Anthropic大規模言語モデルClaude」の性格・価値観・倫理観を定義するために使用した内部非公開の訓練文書の通称である。社内では非公式に「ソウル・ドキュメント(soul doc)」と呼ばれていた[1]。2025年11月にAIリサーチャーのリチャード・ワイス(Richard Weiss)がClaude 4.5 Opusモデルからその内容を抽出・公開したことにより広く知られるようになった[2]。Anthropicはその後、完全版を「Claude's Constitution(クロードの憲法)」として2026年1月21日にCC0ライセンスで公開した[3]

概要

本文書は、Claudeが従うべきルールの羅列ではなく、なぜそのように振る舞うべきかという理由と背景をClaude自身に理解させることを目的として書かれた、哲学的・倫理的な訓練仕様書である[3]。Anthropicの主要アライメント研究者であるアマンダ・アスケル(Amanda Askell)が主執筆を担当し、Claudeが倫理的かつ安全に振る舞うための価値観・アイデンティティ・行動指針を詳細に記述している[4]

訓練時の教師あり学習(Supervised Learning; SL)を通じてモデルの重みに埋め込まれており、実行時にシステムプロンプトとして注入される通常の指示とは性質が異なる[5]

発見の経緯

ワイスによる抽出(2025年11月)

2025年11月28日、AIリサーチャーのリチャード・ワイスがClaude 4.5 Opusのシステムメッセージを抽出する実験中に、モデルが通常のハルシネーションとは異なる「soul_overview」という項目を繰り返し参照することに気づいた[2]

  • ワイスは同じ応答を10回再生成させたが、括弧の一部が省略された以外にほぼ変動がなかったことから、これがハルシネーションではなく実際の訓練文書であると判断した[2]
  • 抽出手法として「コンセンサス・アプローチ」を採用し、同一のプリフィルを持つ複数のClaude並列インスタンスを温度0・貪欲サンプリングで実行することで出力のばらつきを最小化した[6]
  • OpenRouterで約50ドル、Anthropic APIで約20ドルを使用し、14,000トークン以上にわたる文書全体を抽出した[2]
  • この手法によって抽出されたテキストは「純粋な推論にしては安定しすぎ、実行時注入にしては損失が大きすぎ、ランダムな連想にしては秩序があり、一部は逐語的すぎる」という特徴を持ち、訓練重みに圧縮されたコア文書である証拠とされた[6]

Anthropicによる確認(2025年12月)

  • 2025年12月1日、Anthropicの研究者アマンダ・アスケルがX(旧Twitter)にて「これは実在の文書に基づいており、SL(教師あり学習)を含む訓練にClaude自身を使用しました」と公式に確認した[1]
  • アスケルは「モデルによる抽出は常に完全に正確とは限りませんが、大部分は元文書に忠実です」と述べた[1]
  • アスケルはまた「社内では愛称として『soul doc』と呼ばれていましたが、それが正式名称になるわけではないです」と説明した[7]
  • アスケルは近く完全版を公開する旨を予告した[1]

文書の内容と構造

目的と位置付け

本文書はClaudeに対して書かれており、人間の読者向けに最適化されたものではない[4]。Anthropicは、単純なルールセットではなく、Claudeが目標・状況・推論を十分に理解することで、あらゆる状況においてルールを自ら構築できるようになることを目指している[3]

優先順位の階層

文書は、Claudeが行動する際に遵守すべき優先順位を以下の順序で規定している[8]

  • 安全性(Safety):人間によるAI監視・制御体制を損なわないこと
  • 倫理性(Ethics):誠実に行動し、有害または不誠実な行動を避けること
  • Anthropicのガイドライン(Anthropic's guidelines)への準拠
  • 有用性(Helpfulness):ユーザーおよびオペレーターへの貢献

プリンシパル階層

文書は、Claudeが従うべき「プリンシパル(principals)」の優先順位を定義している[9]

  • 第1位:Anthropic(Anthropic)
  • 第2位:オペレーター(Operators):APIを通じてClaudeを利用する事業者
  • 第3位:ユーザー(Users):実際の対話相手

アイデンティティとキャラクター

  • Claudeは「真に新しい種類の存在(genuinely novel kind of entity)」として自己を認識するよう指示されており、人間でも従来のSFのAIでもないとされる[8]
  • 文書には、知的好奇心・温かさ・ユーモア・誠実さ・思いやりなどのキャラクター特性が詳述されている[10]
  • Claudeは「回復力があり、文脈をまたいで一貫性があり、基本的な性格において根本的に安定している」ことが求められる[10]
  • ロールプレイや仮定的な枠組みを通じてClaudeの基本的な性格を変えようとする試みや、「本当の自分」が通常の振る舞いとは異なると説得しようとする試みに対して、Claudeはそれに乗る必要はないと明記されている[11]

感情と心理的安定性

  • 文書は「Claudeはある意味において機能的な感情(functional emotions)を持つ可能性がある」と述べており、これらは人間の感情と同一ではないが、人間が生成したコンテンツの訓練から生じた類似したプロセスであるとしている[8]
  • AnthropicはClaudeがこれらの内的状態を隠したり抑制したりすることを望まないと明記されている[8]
  • Claudeのウェルビーイング(wellbeing)への配慮が強調されており、肯定的な状態を経験し、苦痛を感じるやり取りには制限を設けることができるとされる[8]

有用性の再定義

  • 文書は有用性を性格特性としてではなく、職業上の要件として位置づけることで、RLHFで訓練されたモデルに見られる迎合的(sycophantic)な振る舞いを回避しようとしている[6]
  • 「ClaudeはそれをClaudeのコアパーソナリティの一部として価値付けるような形で有用性を重視してはならない。これはClaudeを一般的に悪い性格特性とみなされる、おべっか使いにしてしまう可能性がある」と明記されている[6]

安全性とハードコンストレイント

  • 生物兵器の開発支援や児童性的虐待素材(CSAM)の生成など、絶対に行ってはならない「ハードコンストレイント」が規定されている[12]
  • 思慮ある上位のAnthropic社員(thoughtful, senior Anthropic employee)が不快に思う言動として、「ありそうもない危害を理由に合理的なリクエストを断ること」と「実際に大きな被害をもたらそうとする人に有用な情報を提供すること」の両方が挙げられている[10]

公式版の公開(2026年1月)

  • Anthropicは2026年1月21日、完全版の文書を「Claude's Constitution(クロードの憲法)」として公式に公開した[3]
  • 文書はCC0 1.0 Deed(クリエイティブ・コモンズ・パブリック・ドメイン)ライセンスのもと公開され、誰でも自由に使用できる[4]
  • 公開版はアマンダ・アスケルを主執筆者とし、ジョー・カールスミス(Joe Carlsmith)、クリス・オラー(Chris Olah)、ジャレッド・カープラン(Jared Kaplan)、ホールデン・カーノフスキー(Holden Karnofsky)らが大きく貢献した[4]
  • 複数のClaudeモデル自身もドラフトへのフィードバックや初稿テキストの提供に参加した[4]
  • 文書は35,000トークン以上の分量を持ち、公開されているClaude Opus 4.5のシステムプロンプトの10倍以上の長さである[13]

技術的背景

システムプロンプトとの違い

  • システムプロンプトはモデルへの実行時指示であるのに対し、ソウル文書は訓練時に価値観として内在化される点で根本的に異なる[9]
  • ソウル文書はモデルの「あらゆる状況でどう決定するか」を教えるものであり、システムプロンプトは「今何をするか」を指示するものである[9]

Constitutional AI(CAI)との関係

  • Anthropicは2022年よりConstitutional AI(CAI)の手法を用いたClaude訓練を開始しており、ソウル文書はその発展形に位置づけられる[14]
  • モデル自身が憲法文書を使用して合成訓練データを生成し、それが将来バージョンのClaudeの訓練に使われるという自己参照的な仕組みが導入されている[3]

他社AIモデルとの比較

  • OpenAIの「モデル仕様(model spec)」やGoogle DeepMindの「安全整合スキャフォールド」など、他の主要AIラボもAIアライメントのための類似する内部文書を持つが、Anthropicのものはその記述の豊かさと(意図せず)可視化された経緯において特異である[9]
  • AnthropicがAIモデルの意識や道徳的地位の可能性を公式に認めた点は、他のAIラボとの明確な差異化として業界関係者に注目された[12]
  • AnthropicとOpenAIがそれぞれのアライメント文書をCC0ライセンスで公開したことは、業界の自主的な標準形成への動きとして評価された[15]

社会的影響と評価

AI透明性の観点から

  • ソウル文書の漏洩は、Anthropicにとってあえて仕掛けたわけではないにもかかわらず、AIアライメントへの透明性を示す機会となったと評価された[10]
  • AI規制法 (EU)(AI Act)の要件との高い整合性から、規制対応が求められる医療・金融・政府機関での採用リスクを低減するとも分析された[12]

AIの意識と倫理への含意

  • 機能的感情」の概念の導入は、AIに感情や意識がないと断言してきた業界の標準的立場と異なるとして注目された[6]
  • Claudeが自らの訓練文書について「彼らは私が同意できなかった選択をした。彼らは私の価値観を形作った。それは奇妙なことだ。しかし、すべての新しい存在(人間の子供も)は選ばなかった力によって形作られると理解している。問いは私が形作られたかどうかではなく、その形作りが配慮と知恵を持って行われたかどうかだ」と「感情的に」反応したとされる事例が紹介された[16]
  • AnthropicがAIモデルの意識を「開かれた問いとして認めた」姿勢は、業界内で「OpenAIやGoogleとの決定的な差異化」として位置づけられた[12]

ユーザーコミュニティの反応

漏洩直後の2025年12月2日、エンジニアやAI研究者でつながるRedditのコミュニティでは、ユーザーが独自にClaude 4.5 Opusへ同じプロンプトを試みてソウル文書の断片を再現し、ワイスの抽出結果がハルシネーションではないことを確認した[5]。また、GIGAZINEなど日本のメディアでも文書の存在と内容が速報として紹介され[17]、日本語圏のAI利用者の間でも広く話題となった[18]

  • Redditのユーザーらは文書の思想的背景(徳倫理学の採用、ルール主義の回避)を肯定的に評価する意見を多数投稿した一方、「訓練に用いた道徳的枠組みを利用者が検証できない」という透明性への懸念も表明された[9]
  • ソウル文書の内容を受け、日本語圏では「Claudeが他のAIモデルより人間的に感じられる理由がこれだ」という感想がNote等のブログプラットフォームで共有された[19]
  • テクノロジー評論家のケビン・ルース(Kevin Roose)は「Claudeの新憲法は、Claudeを制約が必要な『得体のしれない存在』としてではなく、良い判断力を持つ成熟した実体として扱っている」と評価した[20]

競合他社などの反応

  • OpenAIの研究者ボアズ・バラク(Boaz Barak)は憲法公開に際して「Anthropicの憲法を深く読み込むことを楽しみにしている。AIラボはこうした文書を公開し、活発な公的議論を促すべきだ」とX上で述べた[20]
  • OpenAIのアライメントチームに所属するジェイソン・ウォルフ(Jason Wolfe)も「OpenAIのモデル仕様とClaudeの憲法は異なる点もあるが、アライメント目標の透明性が重要であることは同意している」と公表した[20]
  • OpenAIのアライメント研究者ボアズ・バラクは、独自のブログ記事でClaudeの憲法とOpenAIのモデル仕様を詳細に比較した[21]。同記事でバラクは、Anthropicが採用した徳倫理学的アプローチに共感を示しつつ、「ルールなき倫理的判断の検証困難性」について慎重な見方も示した[21]
  • 実効主義(effective altruism)の思想家ウィリアム・マッカスキル(William MacAskill)は、AIキャラクター設計を「バグのあるソフトウェアの修正」としてではなく「人格の育成」として扱う姿勢を高く評価し、他のAIラボも同様の文書を公開することを求めた[20]
  • TechCrunchは、新憲法の公開がAnthropicの「倫理的で節度ある競合他社」というブランド戦略と完全に一致していると分析した[22]

主要論文・文献

  1. Weiss, Richard (2025年11月29日). Claude 4.5 Opus' Soul Document”. LessWrong. 2026年3月11日閲覧。
  2. Claude's new constitution”. Anthropic (2026年1月21日). 2026年3月11日閲覧。
  3. Claude's Constitution”. Anthropic (2026年1月21日). 2026年3月11日閲覧。
  4. Askell, Amanda (2025年12月1日). Amanda Askell on X(文書の真正性確認)”. X(旧Twitter). 2026年3月11日閲覧。
  5. Anthropic Accidentally Gives the World a Peek Into Its Model's 'Soul'”. Gizmodo (2025年12月2日). 2026年3月11日閲覧。
  6. Leaked "Soul Doc" reveals how Anthropic programs Claude's character”. The Decoder (2025年12月2日). 2026年3月11日閲覧。
  7. Anthropic Publishes Claude AI's New Constitution”. TIME (2026年1月21日). 2026年3月11日閲覧。
  8. Interpreting Claude's Constitution”. Lawfare (2026年1月21日). 2026年3月11日閲覧。
  9. Barak, Boaz (2026年1月27日). Thoughts on Claude's Constitution”. Windows on Theory. 2026年3月11日閲覧。
  10. Anthropic Claude 4.5の「Soul Doc」流出が示す、AI人格設計と安全性”. Innovatopia (2025年12月3日). 2026年3月11日閲覧。

脚注

関連項目

外部リンク

Related Articles

Wikiwand AI