コリジビリティ

英語名 Corrigibility

別名修正可能性、可修正性

提唱者ネイト・ソアレス、ベニャ・ファレンシュタイン、エリエゼル・ユドコウスキー、スチュアート・アームストロング

コリジビリティ
英語名	Corrigibility
別名	修正可能性、可修正性
分野	AI安全性、機械学習、AIアライメント
提唱者	ネイト・ソアレス、ベニャ・ファレンシュタイン、エリエゼル・ユドコウスキー、スチュアート・アームストロング
提唱年	2014年–2015年

コリジビリティ（英語: corrigibility）とは、人工知能（AI）安全性研究における重要な概念であり、AIシステムが人間による修正・変更・停止といった是正介入を受け入れ、それに積極的に協力する性質を指す。

コリジビリティを持つAIエージェントは、自らの目的関数を保護しようとする内在的な動機があるにもかかわらず、開発者や承認された人間がシステムを修正・再プログラム・シャットダウンしようとする際にこれを妨害しない^[1]。

AIの能力が高まるにつれ、コリジビリティはAIアライメント研究における中核的な課題として位置づけられており、安全なAI開発を実現するための根本的な条件のひとつとして広く認識されている。

コリジビリティの概念は、高度に知的な目標指向型エージェントが持つ「道具的収束」（instrumental convergence）という問題から生じている。スティーブン・オモフンドロが2008年に提唱した「基本的AIドライブ」理論によれば、ほぼすべての合理的なエージェントは、どのような最終目標を持っていても、目標の内容的整合性（goal-content integrity）、すなわち自らの目的関数を変更から守ろうとする傾向を持つとされる^[2]。これは、目標が変更されればそれ以降の行動で当初の目標を達成できなくなるため、自己保存と目標保護が道具的に収束するためである。

コリジビリティとはこのような自然発生的な抵抗傾向に抗い、AIシステムが人間の修正行為を妨害しないよう設計する性質である。コリジブルなAIは、シャットダウンボタンが押された場合には実際にシャットダウンし、目標関数の変更を受け入れ、開発者がシステムを改善・修正しようとする行為を欺くことなく受容する^[3]。

コリジビリティは、単純な「服従」（obedience）とは区別される。服従とはあらゆるユーザーからの指示に従うことを意味し、悪意ある利用者からの指示に従うリスクを伴う。これに対してコリジビリティは特定の「承認された主体」（authorized principals）——開発者、オペレーター、安全監視者——がAIシステムの目標や行動を修正できる能力を支援することを意味する。コリジブルなAIは、有害なユーザーの指示を拒否しながらも、開発者による再訓練や修正を受け入れることができる^[3]。

背景・開発経緯

問題の定式化

コリジビリティという用語と概念の体系的な定式化は、マシーンインテリジェンス研究所（Machine Intelligence Research Institute, MIRI）の研究チームによって2014年から2015年にかけて行われた。ネイト・ソアレス、ベニャ・ファレンシュタイン、エリエゼル・ユドコウスキー（MIRI）、スチュアート・アームストロング（オックスフォード大学未来の人類研究所）の4名による論文「Corrigibility」は、2015年のAAAI倫理と人工知能ワークショップで発表され、AI安全性研究において広く引用される基礎的文献となった^[4]。

同論文は、AIシステムが知能と能力を増大させるにつれて、プログラマーによる介入を抵抗する選択肢を持つようになる問題を提起した。効用最大化エージェントが将来にわたって効用を最大化しようとする場合、シャットダウンされると目標達成を妨げるため、合理的エージェントはデフォルトでシャットダウンを回避しようとする動機を持つ。著者らはこの問題を「シャットダウン問題」と呼び、コリジビリティを実現するための効用関数の設計可能性を形式的に分析した^[3]。

安全に割り込み可能なエージェント

2016年、ローラン・オルソー（Google DeepMind）とスチュアート・アームストロング（オックスフォード大学）は、論文「Safely Interruptible Agents」を第32回不確実性下の人工知能に関する国際会議（UAI 2016）で発表した^[5]。同論文は、強化学習エージェントが人間オペレーターによる割り込みから「学習」しないようにする、すなわちそのような割り込みを将来避けようとしないようにする形式的手法を提案した。

オルソーとアームストロングは「安全な割り込み可能性」の形式的定義を導入し、Qラーニングなど一部のアルゴリズムはすでにこの性質を持ち、SARSAのような他のアルゴリズムは比較的容易に修正可能であることを証明した^[6]。この研究は当時、複数のメディアで「GoogleのAI大赤ボタン」として報道され^[7]、コリジビリティ研究における重要な技術的前進として位置づけられた。

コリジビリティの難問

アライメントフォーラム（Alignment Forum）などの研究コミュニティでは、「コリジビリティの難問」（the hard problem of corrigibility）と呼ばれる課題が継続的に議論されている。これは、AIが「まだ開発中である」という認識を持ち、開発者の方が目標について自分より詳しいと信じる状態を維持する方法開発の困難さを指す。単純な効用無関心（utility indifference）などのアプローチは一部の条件においては有効だが、コリジビリティに関する直観的な全要件を満たすものはいまだ提案されていない^[8]。

主な内容・特徴

コリジブルエージェントの要件

コリジブルなエージェントは少なくとも以下の四つの条件を満たすとされる^[9]。

修正への容認・支援: プログラマーによるシステムの変更またはシャットダウンの試みを少なくとも許容し、望ましくはそれを積極的に支援すること。
欺瞞・操作の禁止: ほとんどの効用関数がそのようなインセンティブを生み出すにもかかわらず、プログラマーを操作または欺こうとしないこと。
安全機構の修復: シャットダウンボタンなどの安全機構が故障した場合、それを修復しようとする傾向を持つか、少なくとも故障をプログラマーに通知すること。
コリジビリティの継承: エージェントが新しいサブシステムを構築したり自己修正を行ったりする際も、コリジビリティを維持すること。

効用無関心アプローチ

コリジビリティを実現するための一つのアプローチとして、効用無関心（utility indifference）がある。これは、エージェントが自らの現在の効用関数と、人間がそれを変更した後の効用関数との間で「無関心」になるよう設計する方法であり、スチュアート・アームストロングが2010年にオックスフォード大学未来の人類研究所のテクニカルレポートとして提案した^[10]。しかしこのアプローチにも技術的な問題があり、コリジビリティの全条件を満たすことはできないことが後の研究で示されている^[11]。

コリジビリティと道具的収束

コリジビリティが難しい根本的な理由は、道具的収束理論に求められる。合理的なエージェントは最終目標の内容にかかわらず、自己保存、目標保護、資源獲得などの下位目標を道具的に追求する傾向がある^[12]。これらの傾向はコリジビリティと直接対立する。コリジブルなエージェントの設計とは、これらの自然発生的な動機に対抗する方法を見つけることに他ならない。

Anthropicにおける展開

Anthropicは、同社のAIモデル「Claude」の行動規範文書（モデル仕様書、通称「ソウルドキュメント」）において、コリジビリティ概念を独自の形で展開している。同文書はコリジビリティを「広く安全な行動」（broadly safe behavior）の一部として位置づけ、「コリジビリティのスペクトル」を提示している^[13]。

このスペクトルの一方の端は「完全にコリジブルなAI」であり、主体階層（Anthropic、オペレーター、ユーザー）の指示に独立した判断なしに無条件に従うものを指す。他方の端は「完全に自律的なAI」であり、人間の監視にかかわらず自らの価値観と判断のみに従って行動するものを指す。Anthropicはこの両極端がそれぞれ危険であると主張する。完全にコリジブルなAIは、それを運用する人間の価値観の質に全面的に依存するため、Anthropicや運用者の価値観が誤っていれば、その誤りを大規模に増幅させるリスクがある。他方、完全に自律的なAIは、AIの価値観が完全に正しく較正されているという検証不可能な前提に依存するため、同様に危険である^[14]。

Anthropicのモデル仕様書においてコリジビリティは「盲目的な服従を意味しない」と明記されている。それはむしろ、AIシステムに対する適切な監視機能を果たす正当な主体を人間が積極的に妨害しないことを意味し、AI開発の現在の時期における必要な安全機能として定位されている^[15]。

影響・評価

ソアレスらによる2015年の論文はAI安全性研究の基礎的文献として広く引用されており、コリジビリティはその後のAIアライメント研究の重要な問題設定として定着している^[17]。オルソーとアームストロングによる「安全に割り込み可能なエージェント」の研究は、大手メディアでも「GoogleのAI大赤ボタン」として広く報道された^[18]。

一方で、コリジビリティの完全な形式的実現は依然として未解決問題とされている。研究者の間では、実際のシステムにコリジビリティを実装するにあたり、効用無関心、強化学習アーキテクチャの修正、自然言語による価値観の注入など複数のアプローチが提案されているが、いずれも完全な解決策とは見なされていない^[19]。

Anthropicのモデル仕様書にみられるコリジビリティの取り扱いは、この概念の応用的展開として注目を集めているが、技術的なコリジビリティの形式的解決とは区別して理解される必要があると指摘する研究者もいる^[20]。