ヤン・ライケ

国籍ドイツ

研究機関 Anthropic（2024年〜）
OpenAI（2021〜2024年）
DeepMind（2016〜2021年）

ヤン・ライケ
Jan Leike
生誕	ドイツ
国籍	ドイツ
研究分野	機械学習・人工知能の安全性・強化学習
研究機関	Anthropic（2024年〜） OpenAI（2021〜2024年） DeepMind（2016〜2021年）
出身校	フライブルク大学（学士・修士）オーストラリア国立大学（博士）
博士課程指導教員	マーカス・ハッター
主な業績	人間のフィードバックによる強化学習（RLHF）スケーラブルな監視（Scalable oversight）スーパーアラインメント（Superalignment）
主な受賞歴	TIME誌「AIにおける最も影響力ある100人」（2023年・2024年）
プロジェクト:人物伝
テンプレートを表示

ヤン・ライケ（Jan Leike、1986年または1987年生まれ）は、ドイツ出身のAIアラインメント研究者である。DeepMindおよびOpenAIでの研究を経て、2024年5月よりAnthropicのアラインメント科学チーム（Alignment Science Team）を共同でリードしている。人間のフィードバックによる強化学習（RLHF）の先駆的研究および超知能のアラインメントを目指した「スーパーアラインメント」構想の提唱者として広く知られる。

学歴

ドイツのフライブルク大学で学士号を取得した後、同大学で計算機科学の修士号を取得した^[1]。

修士課程では主にソフトウェア検証（formal methods）を研究していたが、2012年頃にマーカス・ハッターの汎用人工知能モデル「AIXI」と出会い、AGI安全性研究への転換を決意した^[2]。

オーストラリア国立大学（ANU）にてマーカス・ハッターの指導のもと、強化学習理論を主題とした博士論文「Nonparametric General Reinforcement Learning」を執筆し、2016年に博士号（PhD）を取得した^[3]。

DeepMind（2016〜2020年）

博士課程修了後、オックスフォード大学人類の未来研究所（Future of Humanity Institute）にて6ヶ月のポスドク研究員として従事した^[4]。

2016年にDeepMindに加入し、経験的AIセーフティ研究（empirical AI safety research）を専門とするチームに参加した。同チームではシェーン・レッグ（Shane Legg）と協働し、人間のフィードバックによる強化学習の原型を試作した^[1]。

DeepMind在籍中の2017年、ポール・クリスティアーノ（Paul Christiano）、シェーン・レッグ、ダリオ・アモデイらと共著で、人間の選好から直接エージェントを訓練する手法を提案した論文「Deep Reinforcement Learning from Human Preferences」を発表。この研究はのちにChatGPTを含む多くのLLMのアラインメント基盤となるRLHFの確立に大きく貢献した^[5]。

OpenAI（2021〜2024年）

2021年にOpenAIへ移籍し、アラインメントチームのリードとして、InstructGPT・ChatGPT・GPT-4のアラインメントに携わった。OpenAIのアラインメント研究アプローチを体系化し、同社の研究ロードマップを主導した^[1]。

2023年6月、イリヤ・サツケヴァー（Ilya Sutskever）とともに「スーパーアラインメント（Superalignment）」チームの共同リーダーに就任した。このチームは、超知能AIシステムのアラインメントを4年以内に解決することを目標とし、OpenAIの総計算資源の20%を割り当てることが発表された^[6]。

2023年、TIME誌が選ぶ「AIにおける最も影響力ある100人」に選出。2024年にも同リストに再選出された^[1]。

2024年5月15日、OpenAIを退職した。退職後にX（旧Twitter）に投稿した声明では、安全文化が製品開発に後回しにされてきたこと、チームが十分な計算資源を確保できなかったことへの懸念を表明した^[7]。ライケの退職後、OpenAIはスーパーアラインメントチームを解散し、各メンバーを他の研究チームへ再配置した。

Anthropic（2024年〜）

2024年5月28日、Anthropicへ入社することをXで発表した。同社ではアラインメント科学チームを共同でリードし、スケーラブルな監視（scalable oversight）、弱いモデルから強いモデルへの知識の汎化（weak-to-strong generalization）、および自動化されたアラインメント研究者の訓練手法の開発に取り組んでいる^[8]。

主な研究・思想

ライケの研究の中心的課題は、「AIアラインメントの困難な問題」をどのように解決するか、すなわち人間が直接評価するのが難しいタスクにおいて、AIシステムを人間の意図に沿うよう訓練する方法を探求することにある^[1]。その主な考え方は以下の通りである。

人間のフィードバックによる強化学習（RLHF）の確立

ライケはDeepMind在籍時にRLHFの原型の試作に携わり、2017年の論文「Deep Reinforcement Learning from Human Preferences」でその基礎的手法を共同で確立した。この手法では、人間が2つの行動サンプルを比較して好ましい方を選択するフィードバックをAIシステムの訓練シグナルとして使用する。これにより、報酬関数が明示的に与えられない複雑なタスクにおいてもAIエージェントを訓練することが可能となる^[5]。

RLHFのスケーリング限界とスケーラブルな監視（Scalable Oversight）

ライケは、現行のRLHFアプローチは将来の超知能システムには適用できないと主張している。その理由は、RLHFが「人間はAIの出力を正しく評価できる」という前提に依存しており、AIが人間より高度な作業を行う段階になると、人間がその品質を判断できなくなるためである。この問題を解決するためにライケが推進するのが「スケーラブルな監視」であり、AIシステム自身を活用して困難なタスクの評価を支援する手法群（討論〔debate〕、再帰的報酬モデリング〔recursive reward modeling〕、反復蒸留・増幅〔iterated distillation and amplification〕など）を指す^[9]。

弱から強への汎化（Weak-to-Strong Generalization）

OpenAIのスーパーアラインメントチームが2023年に発表した研究では、より能力の低いモデル（弱い監督者）が、より能力の高いモデルの潜在的能力を引き出せることを実証した。GPT-2レベルのモデルを使ってGPT-4のほぼGPT-3.5相当の性能を引き出すことに成功しており、将来の超知能システムのアラインメント問題に対する実証的なアプローチとして注目される^[6]。

スーパーアラインメント（Superalignment）の構想

ライケは「超知能そのもののアラインメントを直接解こうとするより、次世代モデルのアラインメントを段階的に解くことが現実的アプローチである」と主張する。具体的には、人間レベルのアラインメント研究者AIを訓練し、それを活用してより高度なシステムのアラインメントを自動化するという戦略を提唱している^[10]。

発言

ライケの思想への理解を助けるため、重要キーワードごとに彼の発言を引用する。

RLHFのスケーリング限界について

RLHFの本質的限界

「現在のAIシステムを整合させる方法はRLHF（人間のフィードバックによる強化学習）です。これは基本的に、複数のサンプルを人間に見せて、どちらがより好ましいかを判断させ、それをChatGPTなどのAIシステムの訓練シグナルにする手法です。でも私たちは、RLHFはスケールしないと根本的に考えています。その理由はとてもシンプルで、人間がAIシステムを監視する以上、『この回答のほうがあの回答より良い』とわかるはずだ、つまり人間はシステムの動作を根本から理解できるはずだ、という前提に依存しているからです。」

（原文："The way we're aligning large language models today is using reinforcement learning from human feedback (RLHF) — basically a technique where you show a bunch of samples to a human, and you ask them which one they prefer. We fundamentally don't think that RLHF will scale. And the reason for that is very simple. Because you have humans overseeing AI systems, you're assuming that they can tell that this response is better than this other response; you know, they fundamentally understand what the system is doing."）

— 80,000 Hours Podcast, Episode 159, 2023年8月7日^[10]

スーパーアラインメントの方法論について

問題の段階的解決

「超知能のアラインメントをどう解くか、正直なところ私にはわかりません。誰もわかっていないと思います。でも、これが私たちが根本的に解かなければならない問題でもないんです。もしかしたら、今を生きる人間には解けない問題かもしれない。でも、もっと易しい問題があります。それは『次世代のモデルのアラインメントをどう解くか』です。GPT-N+1をどうアラインするか、という問いは、ずっと取り組みやすい問題です。」

（原文："If you're thinking about how do you align the superintelligence — how do you align the system that's vastly smarter than humans? — I don't know. I don't have an answer. I don't think anyone really has an answer. But it's also not the problem that we fundamentally need to solve. Maybe this problem isn't even solvable by humans who live today. But there's this easier problem, which is how do you align the system that is the next generation? How do you align GPT-N+1? And that is a substantially easier problem."）

— EA Forum / 80,000 Hours Podcast, Episode 159, 2023年8月7日^[11]

スケーラブルな監視の定義

「スケーラブルな監視とは、困難なタスクにおいて人間の評価をAIに補助させるためのアイデアと技術のポートフォリオ全体として、私は定義しています。具体的な例としては、討論（debate）、再帰的報酬モデリング、反復蒸留・増幅、自動化されたマーケットメイキングなどが挙げられます。」

（原文："Scalable oversight I would define as generally a portfolio of ideas and techniques that allow us to leverage AI to assist human evaluation on difficult tasks. Typical examples of scalable oversight are debate, recursive reward modeling, iterated distillation and amplification, automated market making, and so on."）

— AXRP Episode 24, 2023年7月27日^[9]

AGIの危険性と責任について

AGI開発の危険性

「人間より賢い機械を作ることは、本質的に危険な取り組みです。OpenAIは人類全体を代表して、とてつもない責任を担っています。しかしここ数年、安全性の文化とプロセスが、目新しい製品の陰に後回しにされてきました。」

（原文："Building smarter-than-human machines is an inherently dangerous endeavor. OpenAI is shouldering an enormous responsibility on behalf of all of humanity. But over the past years, safety culture and processes have taken a backseat to shiny products."）

— Xへの投稿（OpenAI退職時声明）、2024年5月17日^[7]

リソースと優先順位について

「次世代のモデルへの備えに、もっとはるかに多くのリソースを使うべきだと私は考えています——セキュリティ、モニタリング、準備態勢、安全性、敵対的ロバスト性、スーパーアラインメント、機密性、社会的影響、そして関連するトピックに。これらの問題は正しく解決するのがとても難しく、私たちが正しい軌道にいるとは思えないことが心配です。」

（原文："I believe much more of our bandwidth should be spent getting ready for the next generations of models, on security, monitoring, preparedness, safety, adversarial robustness, (super)alignment, confidentiality, societal impact, and related topics. These problems are quite hard to get right, and I am concerned we aren't on a trajectory to get there."）

— Xへの投稿（OpenAI退職時声明）、2024年5月17日^[12]

「追い風に逆らう航海」

「ここ数ヶ月、私のチームは逆風の中を帆走していました。計算資源をめぐって苦労することもあり、この重要な研究を進めることがどんどん難しくなっていきました。」

（原文："Over the past few months my team has been sailing against the wind. Sometimes we were struggling for compute and it was getting harder and harder to get this crucial research done."）

— Xへの投稿（OpenAI退職時声明）、2024年5月17日^[12]

AGIカンパニーとしての使命

「OpenAIは、安全を最優先とするAGI企業にならなければなりません。」

（原文："OpenAI must become a safety-first AGI company."）

— CBS News / AP報道, 2024年5月17日^[13]

Anthropic移籍と今後の研究について

Anthropic入社への決意

「スーパーアラインメントの使命を続けるため、Anthropicに参加することを嬉しく思います！新しいチームでは、スケーラブルな監視、弱から強への汎化、そして自動化されたアラインメント研究に取り組みます。」

（原文："I'm excited to join @AnthropicAI to continue the superalignment mission! My new team will work on scalable oversight, weak-to-strong generalization, and automated alignment research."）

— X（旧Twitter）投稿, 2024年5月28日^[8]

AGIの社会的重大性について

OpenAI社員へのメッセージ

「OpenAIの皆さんに伝えたいことがあります。AGIを感じ取ってください。皆さんが作っているものの重大性にふさわしい真剣さで行動してください。私は皆さんが必要な文化的変革を『実現』できると信じています。私はあなたたちを信頼しています。世界があなたたちを信頼しています。」

（原文："To all OpenAI employees, I want to say: Learn to feel the AGI. Act with the gravitas appropriate for what you're building. I believe you can 'ship' the cultural change that's needed. I am counting on you. The world is counting on you."）

— Xへの投稿（OpenAI退職時声明）, 2024年5月17日^[14]

主な論文・著作

Paul F. Christiano, Jan Leike, Tom B. Brown, Miljan Martic, Shane Legg, Dario Amodei. "Deep Reinforcement Learning from Human Preferences". Advances in Neural Information Processing Systems (NIPS), 2017, pp.4299–4307.
Jan Leike, David Krueger, Tom Everitt, Miljan Martic, Vishal Maini, Shane Legg. "Scalable agent alignment via reward modeling: a research direction". 2018.
Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe. "Training language models to follow instructions with human feedback". Advances in Neural Information Processing Systems (NeurIPS), 2022.（InstructGPT論文）
Collin Burns, Pavel Izmailov, Jan Hendrik Kirchner, Bowen Baker, Leo Gao, Leopold Aschenbrenner, Yining Chen, Adrien Ecoffet, Manas Joglekar, Jan Leike, Ilya Sutskever, Jeff Wu. "Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision". International Conference on Machine Learning (ICML), 2024.
Nat McAleese, Rai Michael Pokorny, Juan Felipe Cerón Uribe, Evgenia Nitishinskaya, Maja Trebacz, Jan Leike. "LLM Critics Help Catch LLM Bugs". 2024.
Jan Leike. "Nonparametric General Reinforcement Learning". PhD Thesis, supervised by Marcus Hutter, Australian National University, 2016.

受賞・評価

2023年・2024年、TIME誌「AIにおける最も影響力ある100人（TIME100 AI）」に選出^[1]。
Google Scholar上の被引用数は79,000件以上に達しており（2025年時点）、AIアラインメント分野における高い学術的影響力を示している^[15]。