クリス・オラー

生誕約1993年頃

国籍カナダ

研究分野機械学習、ニューラルネットワーク解釈可能性、AI安全性

研究機関 Anthropic（共同創業者）
OpenAI（元）
Google Brain（元）

クリス・オラー
Chris Olah
生誕	約1993年頃カナダ
国籍	カナダ
研究分野	機械学習、ニューラルネットワーク解釈可能性、AI安全性
研究機関	Anthropic（共同創業者） OpenAI（元） Google Brain（元）
出身校	（学位なし）
主な業績	メカニスティック解釈可能性（mechanistic interpretability）の開拓 DeepDreamへの貢献 Distill誌の共同創刊ニューラルネットワーク可視化
主な受賞歴	ティール・フェローシップ（2012年） TIME100 AI（2024年）
プロジェクト:人物伝
テンプレートを表示

クリス・オラー（Chris Olah、本名：Christopher Olah、1993年頃生まれ）は、カナダ出身の機械学習研究者であり、AIの安全性に関する研究を専門とする。AIスタートアップ企業Anthropicの共同創業者の一人として知られ、ニューラルネットワークの内部動作を解明する分野である「メカニスティック解釈可能性（mechanistic interpretability）」の開拓者として広く知られる^[1]。

学歴

オラーはカナダ・トロントで育ち、3Dプリンティングや数学、プログラミングに早くから強い関心を抱いた。2009年には大学を離れており^[2]、正式な学位を持たないままAI研究の最前線へと進んでいった。

2012年にはティール・フェローシップ（Thiel Fellowship）に採択された。これは、20歳未満の優秀な若者が大学に行く代わりに野心的なプロジェクトに取り組むことを支援する10万ドルの奨学金プログラムである^[2]。

Google Brain

2014年ごろからGoogle Brainでリサーチャーとして働き始め、ニューラルネットワークの可視化に関する基礎的な研究を行った。2015年にはDeepDreamに関する研究ブログ記事「Inceptionism: Going Deeper into Neural Networks」の主要な共著者の一人として名を連ね、ニューラルネットワークが学習した内容を可視化する研究に取り組んだ^[3]。また同年には、TensorFlowのホワイトペーパーの共著者としても名前が挙げられている^[4]。

2016年には、ダリオ・アモデイをはじめとする研究者たちとともに、AIシステムにおける事故リスクを論じた論文「Concrete Problems in AI Safety」を発表した^[5]。

2017年には、シェイン・カーター（Shan Carter）とともにDistill誌で「Research Debt」（研究負債）論文を発表し^[6]、2018年には科学コミュニケーションの向上を目的とした機械学習の学術誌『Distill』（distill.pub）を共同創刊した^[7]。

OpenAI

2018年にOpenAIへ移り、解釈可能性チームである「Clarity Team」を率いた^[3]。このチームは、ニューラルネットワークの内部で何が起きているかを体系的に解明することを目的としており、「Circuits」（回路）と呼ばれるアプローチによる研究を進めた。

Anthropicの共同創業と現在の活動

2021年、ダリオ・アモデイらの元OpenAI研究者グループとともにAnthropicを共同創業した^[7]。

AnthropicではTIMEが「メカニスティック解釈可能性のパイオニアの一人」と評するほどの貢献をしており、大規模言語モデルにおいてニューロン群が特定の概念に対応していることを発見し、それらをオン・オフすることでモデルの挙動を変えられることを示した^[8]。

2024年、TIMEが選ぶ「AI分野で最も影響力のある100人（TIME100 AI）」に選出された^[8]。

研究

メカニスティック解釈可能性

オラーが開拓した「メカニスティック解釈可能性（mechanistic interpretability）」とは、ニューラルネットワークをリバースエンジニアリングし、人間が理解できるアルゴリズムへと変換することを目指す研究分野である。オラー自身は2022年の論考においてこの分野を「コンパイル済みバイナリをリバースエンジニアリングするのと同様に、ニューラルネットワークをリバースエンジニアリングしようとするもの」と定義している^[9]。この用語は2020年にオラー自身によって命名された^[10]。

主な研究成果として以下が挙げられる。

ニューラルネットワークが特定のパターンを処理する際に機能する「特徴（features）」と「回路（circuits）」の同定
単一ニューロンが複数の無関係な概念を同時に表現する「多義性（polysemanticity）」と「重ね合わせ（superposition）」の研究
スパースオートエンコーダ（sparse autoencoder）を用いた解釈可能な特徴の分解
Anthropicの大規模言語モデルにおける特徴マッピング（「Mapping the Mind of a Large Language Model」）

ニューラルネットワーク可視化

DeepDream（2015年）の主要共著者として、ニューラルネットワークが視覚的に何を学んでいるかを可視化する技法を開拓した^[3]。
「特徴の可視化（Feature Visualization）」「活性化アトラス（Activation Atlases）」「解釈可能性のビルディングブロック（Building Blocks of Interpretability）」などの研究を発表した。

Distill誌とリサーチ・デット

2017年、オラーはシェイン・カーター（Shan Carter）とともに「Research Debt」（研究負債）と題した論文をDistill誌で発表し、科学コミュニティにおける説明責任の欠如と、それが研究の進展を妨げる問題を論じた^[6]。

AI安全性への貢献

2016年に発表した「Concrete Problems in AI Safety」は、AIシステムにおける事故リスクを体系的に整理し、副作用の回避、報酬ハッキングの回避、スケーラブルな監督、安全な探索、分布シフトへの頑健性という5つの具体的な研究課題を提示した^[5]。

また2023年7月、オラーが率いるAnthropicの解釈可能性チームは、transformer-circuits.pubへの更新において、解釈可能性研究の安全性関連ターゲットとして

嘘と欺瞞（lying and deception）
道具的推論（instrumental reasoning）
ジェイルブレーク（jailbreaks）

などを具体的に列挙し、安全性向上に向けた体系的なロードマップを示した^[11]。

価値観・思想

「明確に理解し、うまく説明する」という根本動機

オラーは自身のGitHubプロフィールに「I work on reverse engineering artificial neural networks into human understandable algorithms.（人工ニューラルネットワークを人間が理解できるアルゴリズムへとリバースエンジニアリングする研究に従事している）」と記しており^[12]、これが研究者としての基本姿勢を端的に示している。

また、自身のブログ「Research Taste Exercises」（2021年）においては、「自分が最も重要だと考える問題と、最もワクワクする問題が一致する状態を目指すべきだ」という研究観を示している^[13]。

ニューラルネットワークを「理解されるべき自然現象」として捉える視点

オラーは、現代のニューラルネットワークを「ブラックボックス」として扱い性能の向上のみを追求するアプローチに対して批判的である。彼は、AIシステムをリバースエンジニアリングの対象となる自然現象として捉え、生物学者が新種の生物を研究するように内部を解明することが科学的にも安全上も不可欠だと主張してきた^[3]。

また彼は、解釈可能性研究においては「分布外（off-distribution）での安全性を理解すること」を重要視しており、狭い分布でのみ有効な相関的な説明手法よりも、モデルの仕組みをメカニズムのレベルで把握するアプローチを一貫して選んできた。特に2022年の論考「Mechanistic Interpretability, Variables, and the Importance of Interpretable Bases」では、ニューラルネットワークのパラメータをある種の「バイナリプログラム」として捉え、リバースエンジニアリングのアナロジーを精密に展開している^[14]。

AI安全性への戦略的コミットメントと段階的な安全目標

オラーは、解釈可能性研究によってAIが「本当に安全かどうか」を判断できるようになることを最終目標としつつ、それが達成できない場合でも局所的な安全確認だけで大きな安全上の懸念を減らせると述べている^[3]。

2023年5月の「Interpretability Dreams」では、解釈可能性研究の到達目標として「安全性への貢献」と「ニューラルネットワーク内に美しい構造を明らかにすること（reveal beautiful structure inside neural networks）」の双方を挙げており^[15]、オラーにとって解釈可能性は単なる安全工学にとどまらず、知的・美的探求でもある。

科学コミュニケーションと「研究負債」への問題意識

オラーはDistill誌の共同創刊を通じ、ML研究における「研究負債（research debt）」——すなわち概念の説明が不十分なために知識の積み上げが困難になる問題——の解消に取り組んだ。彼は、科学における説明責任の欠如が研究の進展を妨げると主張し、インタラクティブな図表や精緻な文体による論文執筆を自らの規範として実践してきた^[6]。

発言

クリス・オラーの思想・考え方の理解を助けるため、彼自身の発言を引用する。

ニューラルネットワークを未知の生命体に例えた発言

「もし宇宙人がやってきて、こうしたことをやってのけたとしたら、みんな競い合ってその宇宙人がどうやっているのかを調べようとするはずです。生物学者たちはその宇宙人を研究する権利を争うでしょう。あるいは2012年にインターネット上に浮かんでいるバイナリを発見して、それがすべてのことをできるとしたら、みんな急いでリバースエンジニアリングしようとするはずです。」

（原文："Imagine if some alien organism landed on Earth and could go and do these things. Everybody would be rushing and falling over themselves to figure out how the alien organism was doing things. You'd have biologists fighting each other for the right to go and study these alien organisms. Or imagine that we discovered some binary just floating on the internet in 2012 that could do all these things. Everybody would be rushing to go and try and reverse engineer what that binary is doing."）^[3]

回路（Circuits）の普遍性について

「動物が非常に似た解剖学的構造を持つように（それは進化の産物でしょうが）、ニューラルネットワークも、異なるデータセットで訓練されていても、異なるアーキテクチャであっても、同じものが繰り返し現れるようです。どのビジョンモデルを見ても、曲線検出器（curve detectors）が見つかります。そして実際、同じものが生物学的ニューラルネットワークと人工ニューラルネットワーク全体にわたって形成されていると考える理由もあります。」

（原文："Just like animals have very similar anatomies — I guess in the case of animals due to evolution — it seems neural networks actually have a lot of the same things forming, even when you train them on different data sets, even when they have different architectures. You can look at every vision model, and you'll find curve detectors. And in fact, there's some reason to think that the same things form across biological neural networks and artificial neural networks."）^[3]

研究負債（Research Debt）について

「ソフトウェアエンジニアリングで言う『技術的負債』と似ていますね——速く進みたいがために汚いコードを書き、あとから他の人が積み上げにくくなる。科学においてもこれと同じような『研究負債』が蔓延していると思います。」

（原文："One analogy that I like is sometimes in software engineering, people talk about technical debt, which is you move really fast to get to that point where you can ship some feature or something like this, and in the process, you write lots of bad code, and it's really messy and gross… I think something analogous, a kind of research debt, is endemic in science."）^[2]

主な論文・著作

Mordvintsev, Alexander; Olah, Christopher; Tyka, Mike. "Inceptionism: Going Deeper into Neural Networks". Google Research Blog. 2015年6月.（DeepDreamの元になったブログ記事）
Amodei, Dario; Olah, Chris; Steinhardt, Jacob; Christiano, Paul; Schulman, John; Mané, Dan. "Concrete Problems in AI Safety". arXiv:1606.06565. 2016年6月. https://arxiv.org/abs/1606.06565
Olah, Chris; Carter, Shan. "Research Debt". Distill. 2017年. DOI: 10.23915/distill.00005. https://distill.pub/2017/research-debt/
Olah, Chris; Mordvintsev, Alexander; Schubert, Ludwig. "Feature Visualization". Distill. 2017年11月. https://distill.pub/2017/feature-visualization/
Olah, Chris; Satyanarayan, Arvind; Johnson, Ian; Carter, Shan; Schubert, Ludwig; Ye, Katherine; Mordvintsev, Alexander. "The Building Blocks of Interpretability". Distill. 2018年3月. https://distill.pub/2018/building-blocks/
Olah, Chris et al. "Zoom In: An Introduction to Circuits". Distill. 2020年3月. https://distill.pub/2020/circuits/zoom-in/
Olah, Chris. "Mechanistic Interpretability, Variables, and the Importance of Interpretable Bases". transformer-circuits.pub. 2022年6月. https://transformer-circuits.pub/2022/mech-interp-essay
Olah, Chris. "Interpretability Dreams". transformer-circuits.pub. 2023年5月. https://transformer-circuits.pub/2023/interpretability-dreams/index.html