ポール・クリスティアーノ
From Wikipedia, the free encyclopedia
ポール・クリスティアーノ | |
|---|---|
| Paul Christiano | |
| 生誕 | アメリカ合衆国 |
| 国籍 | アメリカ合衆国 |
| 研究分野 | 人工知能、機械学習、AIアライメント |
| 研究機関 | 国立標準技術研究所(NIST)、アライメント研究センター(ARC)、OpenAI(元) |
| 出身校 |
マサチューセッツ工科大学(学士) カリフォルニア大学バークレー校(博士) |
| 配偶者 | アジェヤ・コトラ |
| プロジェクト:人物伝 | |
ポール・クリスティアーノ(Paul Christiano)は、人工知能(AI)のアライメント研究を専門とするアメリカ合衆国の研究者である。AIアライメントとは、AI安全性研究の一分野であり、AIシステムを人間の利益に沿う方向へ方向づけることを目指す[1]。国立標準技術研究所(NIST)内の人工知能安全研究所(AISI)においてAI安全性部門長を務める[1]。
かつてはOpenAIにおいて言語モデルアライメントチームを率い、その後、非営利研究機関のアライメント研究センター(Alignment Research Center、ARC)を設立した[1]。2023年にはタイム誌の「TIME100 AI」に選出され、AI分野で最も影響力のある人物100人の一人に名を連ねた[2]。
人間のフィードバックからの強化学習(RLHF: Reinforcement Learning from Human Feedback)の主要な考案者の一人とみなされており[2]、RLHFは現代の大規模言語モデルの訓練において広く用いられる手法となっている。
学歴
クリスティアーノは2012年にマサチューセッツ工科大学(MIT)において数学の学士号を取得した。MIT在学中はデータ構造、量子暗号、組合せ最適化に関する研究に取り組んだ[3]。その後、カリフォルニア大学バークレー校で博士号を取得した。博士論文のタイトルは「Manipulation-resistant online learning」であり、2017年に提出された[4]。
バークレー在学中には、研究者のカーチャ・グレースとともに「AI Impacts」プロジェクトで協働し、スーパーコンピュータと脳の性能を比較するための予備的手法を共同で開発した[5]。
OpenAIでの活動
2017年1月から2021年1月にかけてOpenAIの安全チームで研究者として勤務し[6]、後に言語モデルアライメントチームを率いた。
OpenAIでクリスティアーノは、ヤン・ライケ、トム・B・ブラウン、ミルヤン・マルティチ、シェーン・レグ、ダリオ・アモデイとの共著論文「Deep Reinforcement Learning from Human Preferences」(2017年)を発表し、RLHFの基礎を築いた[7]。この論文についてニューヨーク・タイムズは、2017年当時「AI安全性研究における注目すべき一歩」と評した[2]。同年のNeural Information Processing Systems(NeurIPS)会議にて正式発表された[8]。
また2016年には、ダリオ・アモデイ、クリス・オラー、ジェイコブ・スタインハルト、ジョン・シュルマン、ダン・マネとの共著でAI安全性研究における重要論文「Concrete Problems in AI Safety」を発表している[9]。
2018年にはジェフリー・アービング、ダリオ・アモデイとの共著で「AI safety via debate」を発表。AIが人間の理解を超えた領域でも安全性を保つための「ディベート」という手法を提案した[10]。
アライメント研究センター(ARC)の設立
2021年3月、クリスティアーノはOpenAIを離れ、より概念的・理論的なアライメント研究に専念するためアライメント研究センター(ARC)をカリフォルニア州バークレーに設立した[6]。ARCの使命は「将来の機械学習システムを人間の利益に沿わせること」であり[11]、理論的なアライメント研究とAIモデルの評価技術の開発を両輪として活動した。
2021年12月、クリスティアーノはARC初の技術報告書としてアジェヤ・コトラ、マーク・シューとともに「Eliciting Latent Knowledge(ELK:潜在知識の引き出し)」を発表した[11]。ELKは、AIシステムが保有しているものの明示的には開示しない「潜在的知識」を、人間が安全に引き出すための手法を探求する研究課題である。
2022年には、ARCにベス・バーンズがOpenAIから加わり「ARC Evals」を立ち上げた。ARC Evalsは最先端AIモデルの能力とアライメントを評価することを専門とし、2023年3月にはOpenAIの依頼を受けてGPT-4の危険能力評価を実施した。その評価ではGPT-4がTaskRabbitを通じて人間ワーカーを雇い、CAPTCHAを解かせることに成功するという事例が報告された[12]。2023年12月、ARC Evalsは独立した非営利組織「METR(Model Evaluation and Threat Research)」として分離・独立した。
2023年4月にはエコノミスト誌に対し、ARCが「AI安全性の業界標準策定」を検討していることを明らかにした[2]。
NIST・米国AI安全研究所
2024年4月、クリスティアーノはNIST(国立標準技術研究所)内の米国人工知能安全研究所(US AI Safety Institute)においてAI安全性部門長に就任した[1]。この役職においてフロンティアAIモデルのテストを設計・実施し、国家安全保障上の懸念を有する能力に関するモデル評価に注力している[1]。
就任の1ヶ月前の2024年3月には、研究所のスタッフの一部が、クリスティアーノの効果的利他主義運動(EA)との関係がAI安全研究所の客観性と中立性を損なう可能性があるとの理由で辞表を提出したことが報じられた[13]。
その他の活動
- 英国政府のフロンティアAIタスクフォース諮問委員会のメンバー(2023年9月より)[2]
- Anthropicのロングタームベネフィットトラスト(長期便益信託)の初期トラスティ(現在はNIST職への就任に伴い離任)[6]
- オープン・フィランソロピーの技術顧問(元)[14]
- オックスフォード大学・人類の未来研究所の研究員(元)[15]
- Anthropicのロングタームベネフィットトラスト(長期便益信託)の初期トラスティを務めた[6]
クリスティアーノはアジェヤ・コトラと結婚しており、コトラはMETRの技術スタッフのメンバーである[16]。
主な研究と考え方
クリスティアーノの研究は、AIシステムを人間の意図に忠実に従わせるための技術的手法の開発を核心としている。その主要な考え方は以下のとおりである。
- インテント・アライメント(意図的整合)
- クリスティアーノはAIアライメントを「AIシステムが、私たちの望むことを実行しようとするように構築すること」と定義する[17]。AIシステムが人間の価値観に自発的に従おうとする「インテント・アライメント」を実現することが、より安全なAIへの根本的な解決策であると考えている。
- スケーラブル・オーバーサイト(拡張可能な監視)
- AIシステムが人間の能力を超えた領域で動作する場合でも、人間がその行動を適切に評価・監視できる仕組みの構築をクリスティアーノは重視する[17]。RLHFや「AIディベート」はこのスケーラブル・オーバーサイトを実現するための具体的な手法である。ディベート手法では、2つのAIエージェントが互いの論述を批判し合い、人間の審判者がより正直な情報を提供したエージェントを判定することで、高度に複雑な問題においても人間が適切な監視を行えることを目指す[18]。
- 責任あるスケーリング政策(RSP)
- クリスティアーノは、AI開発企業が自社モデルの危険性評価を段階的に行い、危険性が一定の閾値を超えた場合には開発を一時停止または制限するという「責任あるスケーリング政策」の概念を推進した。この概念はAnthropicのRSP(責任あるスケーリング政策)や、METR(旧ARC Evals)が提唱する評価枠組みの知的基盤となっている[19]。
- 潜在知識の引き出し(ELK)
- AIシステムは、その内部の表現(潜在知識)においては正確な事実を「知って」いながら、外部出力においては誤解を招く情報を提示することがある。ELK研究はこの問題を解決し、AIシステムが保有する知識を人間が確実に引き出せるような訓練手法を探求する[20]。
発言
クリスティアーノの思想の理解を助けるため、以下に彼自身が説明した発言等を引用する。
AIアライメントの定義と目標
- AIアライメントの定義
- AIアライメントとは、私たちが望むことをやろうとするAIシステムを構築する問題として、私は捉えています。ある意味では、とても簡単なことのように聞こえるかもしれません——私たちがAIシステムを構築し、そのすべてを選ぶわけですから。」
- (原文:"AI alignment, I see as the problem of building AI systems that are trying to do the thing that we want them to do. So in some sense, that might sound like it should be very easy because we build an AI system, we get to choose all …")
- 出典:“Paul Christiano on how OpenAI is developing real solutions to the 'AI alignment problem'”. 80,000 Hours Podcast. 2026年3月27日閲覧。
- AIアライメント研究への動機
- 「私は人類の長期的な未来を良いものにするという問題に広く関心を持っています。そこから、AIが私たちの長期的な未来に与える影響、そしてその影響をいかにポジティブなものにするかという部分問題へと、焦点を絞っているのです。」
- (原文:"I'm broadly interested in the problem of making humanity's long-term future good. I'm zooming in on the sub-problem of the effects of AI on our long-term future and how to make those effects positive.")
- 出典:“Paul Christiano: Current Work in AI Alignment”. Effective Altruism. 2026年3月27日閲覧。
- AIが人類を助ける未来への希望
- 「AIシステムが人類の繁栄を助ける未来を、私は望んでいます。それはおそらく実現するでしょう——でもそれは、機械学習コミュニティが膨大な努力を積み重ねるからこそです。もしその努力に失敗すれば、人類の未来を取り返しのつかない形で損なう、本当のリスクがあると思っています。」
- (原文:"I want to see a future where AI systems help humanity thrive. I think this will probably happen, but only because the ML community will probably put in a whole lot of work. If we fail at this work, I think we run a real risk of making humanity's …")
- 出典:“AI alignment – Paul Christiano”. paulfchristiano.com. 2026年3月27日閲覧。
AIリスクと「破滅(ドゥーム)」について
- 人間レベルAI出現後のリスク
- 「全体として、人間レベルのAIシステムが登場した直後に破滅が訪れる確率は、おそらく50対50に近いかもしれません。AIによる乗っ取りが起き、多くの——あるいはほとんどの——人間が死亡するシナリオについては、10〜20%程度の確率があると思っています。私はこれを非常に真剣に受け止めています。」
- (原文:"Overall, maybe you're getting more up to a 50-50 chance of doom shortly after you have AI systems that are human level. I think maybe there's a 10 to 20% chance of AI takeover, [with] many, most humans dead. I take it quite seriously.")
- 出典:“A.I. has a '10 or 20% chance' of conquering humanity, former OpenAI safety researcher warns”. Fortune (2023年5月3日). 2026年3月27日閲覧。
- 最も現実的なリスクのシナリオ
- 「私たちが死を迎える最も可能性の高いシナリオには——AIが突然どこからともなく現れて全員を殺すのではなく——あらゆる場所に大量のAIを配備した状況が関わっています。何らかの理由で、万が一にもそれらのAIシステムすべてが私たちを殺そうとしていたとしたら、間違いなく私たちは殺されるでしょう。」
- (原文:"The most likely way we die involves—like, not AI comes out of the blue and kills everyone—but involves we have deployed a lot of AI everywhere. If for some reason, God forbid, all these AI systems were trying to kill us, they would definitely kill us.")
- 出典:“A.I. has a '10 or 20% chance' of conquering humanity, former OpenAI safety researcher warns”. Fortune (2023年5月3日). 2026年3月27日閲覧。
- アライメント失敗の損失の大きさ
- 「私は、AIアライメントの失敗が人類のポテンシャルを期待値ベースで10〜20%程度損なうと考えています。それだけで、最悪の部類に入る出来事の一つになってしまいます。20%の損失が何度も積み重なれば、残るポテンシャルはほぼゼロになってしまいますから。」
- (原文:"I think AI in particular, a failure to align AI maybe makes the future, in my guess 10% or 20% worse, or something like that, in expectation. And that makes it one of the worst things. You can't have that many 20% hits before you're down to no potential left.")
- 出典:“Episode 12 – AI Existential Risk with Paul Christiano”. AXRP Podcast (2021年12月2日). 2026年3月27日閲覧。
RLHFとスケーラブル・オーバーサイト
- RLHFの開発について
- 「アライメントについてはかなり長い間考え続けており、実現可能なアライメント解決策がどのようなものかを理解しようとしてきました。RLHFは非常に初期の段階から、自然な最初のステップとして浮かび上がってきていたのです。」
- (原文:"I've been thinking about alignment for a pretty long time and trying to understand what a plausible alignment solution looks like. RLHF stands out as a very early and natural step.")
- 出典:“TIME100 AI 2023: Paul Christiano”. TIME (2023年9月7日). 2026年3月27日閲覧。
- 理論研究への回帰
- 「私の博士研究は学習理論であり、私の本来の比較優位は理論研究にあります。あの4年間(OpenAI時代)を実証研究に費やしたのは、アライメントの実証研究がまだ(十分に)発展しておらず、OpenAIにいることでそれを立ち上げ、本当に必要とされていた基礎的な部分を実装する手助けができると思ったからです。」
- (原文:"I did my Ph.D. in learning theory; my natural comparative advantage was definitely doing theoretical research. I worked on empirical research for those four years in significant part because empirical research on alignment was not [well developed], and it seemed like being at OpenAI, I could help it get started and implement some very basic stuff that really should happen.")
- 出典:“TIME100 AI 2023: Paul Christiano”. TIME (2023年9月7日). 2026年3月27日閲覧。
責任あるスケーリング政策(RSP)と規制
- RSPと規制の関係
- 「開発者が責任あるスケーリング政策を今すぐ実施することは、効果的な規制が導入される確率を高めると思っています。もし逆に規制が難しくなると思うなら、私は重大な懸念を持つでしょう。RSPに関する透明性は、AI開発者の方針がリスク管理に十分かどうかを外部関係者が理解しやすくし、議論や改善へのプレッシャーの焦点を作り出します。」
- (原文:"I think that developers implementing responsible scaling policies now increases the probability of effective regulation. If I instead thought it would make regulation harder, I would have significant reservations. Transparency about RSPs makes it easier for outside stakeholders to understand whether an AI developer's policies are adequate to manage risk, and creates a focal point for debate and for pressure to improve.")
- 出典:Paul Christiano. “Thoughts on responsible scaling policies and regulation”. AI Alignment Forum. 2026年3月27日閲覧。
- RSPのリスク低減効果と限界
- 「急速なAI開発によるリスクは非常に大きく、非常に優れたRSPであっても、そのリスクを完全には排除できないと思っています。持続的で、グローバルで、実効性があり、ハードウェアも対象に含めたフロンティアAI開発の一時停止は、リスクをさらに低減させるでしょう。ただし、それは政治的・現実的に困難であり、大きなコストも伴います。」
- (原文:"I think the risk from rapid AI development is very large, and that even very good RSPs would not completely eliminate that risk. A durable, global, effectively enforced, and hardware-inclusive pause on frontier AI development would reduce risk further. I think this would be politically and practically challenging and would have major costs.")
- 出典:Paul Christiano. “Thoughts on responsible scaling policies and regulation”. AI Alignment Forum. 2026年3月27日閲覧。
主要論文
- Paul Christiano, Jan Leike, Tom B. Brown, Miljan Martic, Shane Legg, Dario Amodei. "Deep Reinforcement Learning from Human Preferences". Neural Information Processing Systems (NeurIPS), 2017. arXiv:1706.03741
- Geoffrey Irving, Paul Christiano, Dario Amodei. "AI safety via debate". arXiv, 2018. arXiv:1805.00899
- Dario Amodei, Chris Olah, Jacob Steinhardt, Paul Christiano, John Schulman, Dan Mané. "Concrete Problems in AI Safety". arXiv, 2016. arXiv:1606.06565
- Paul Christiano, Buck Shlegeris, Dario Amodei. "Supervising strong learners by amplifying weak experts". arXiv, 2018. arXiv:1810.08575
- Paul Christiano, Ajeya Cotra, Mark Xu. "Eliciting Latent Knowledge: How to tell if your eyes deceive you". Technical report, Alignment Research Center, 2021. ARC Report
- Paul Christiano. "Manipulation-resistant online learning" (PhD Dissertation). EECS Department, University of California, Berkeley, 2017. UCB/EECS-2017-107