ディープ・ガングリ

From Wikipedia, the free encyclopedia

ディープ・ガングリ
Deep Ganguli
国籍 アメリカ合衆国の旗 アメリカ合衆国
出身校 カリフォルニア大学バークレー校(BS)
ニューヨーク大学(PhD)
職業 研究科学者
テンプレートを表示

ディープ・ガングリ (Deep Ganguli) は、アメリカ人工知能研究者。Anthropicの研究科学者(Research Scientist)であり、同社における「社会的影響チーム」 (Societal Impacts Team) の創設者・リーダーを務める[1]。専門は大規模言語モデルの安全性・公平性・社会的インパクトの評価であり、計算論的神経科学にも素養を持つ。

カリフォルニア大学バークレー校にて電気工学・コンピュータサイエンス(EECS)の学士号(BS)を取得。その後、ニューヨーク大学(NYU)の神経科学センター(Center for Neural Science)にて計算論的神経科学の博士号(PhD)を取得した[2]

博士課程修了後、データ解析スタートアップ企業であるMetamarketsにてエンジニアリング職を経験した[3]

その後、スタンフォード大学 人間中心AI研究所(Stanford Institute for Human Centered AI、HAI)の初代リサーチ・ディレクター(Founding Research Director)として参画した[4]

2022年より、Anthropicに研究科学者として加入。同社で「社会的影響チーム」を自ら立ち上げ、以降そのリーダーとして活動している[5]

プライベートでは双子の子を持ち、サーフィン、バンドでのベース演奏、人文・社会科学分野の読書を趣味としている[6]

研究と主な考え方

ガングリの研究は、大規模生成AIシステムが現実社会にどのような影響を与えるかを実証的・定量的に明らかにすることを目指している。以下に彼の主要な研究テーマと考え方を示す。

予測可能性と驚き(Predictability and Surprise):
大規模生成モデルは訓練損失が規則的に改善するという「スケーリング則 (AI)」の観点からは予測可能だが、個々の能力が突然・予期せず出現するという「驚き」を内包する。この逆説的な性質が、AIの安全性評価や政策立案を著しく困難にすると論じた。
ガングリは、「私たちは社会に大きな影響を与えうる経済的価値のあるAIモデルを構築しているが、それがどのように機能するかをまったく理解していない」と述べており、有益・有害の両面で予期せぬ能力が突然現れることを「普通でないし、少し不気味だ」と表現している[7][8]
レッドチーミング:
AIシステムを実際に有害な出力へ誘導しようとする試みを体系化・計測する手法「レッドチーミング(Red Teaming)」について、ガングリは大規模かつ定量的な研究を主導した。RLHFで訓練されたモデルはスケールアップにつれてレッドチーミングへの耐性が向上することを示し、3万8961件のレッドチーム攻撃データセットを公開してコミュニティへ貢献した[9]
道徳的自己修正:
RLHFで訓練された大規模言語モデルは、偏見・差別・ステレオタイプを避けるよう自然言語で指示された場合にそれに従う能力(道徳的自己修正)(Moral Self-Correction)を持つという仮説を検証した。この能力は220億パラメータ以上のモデルで現れ、モデルサイズとRLHF訓練の進展とともに向上することが示された[10]
AI評価の科学:
ガングリは、AIシステムの安全性や能力を評価することの困難さを体系的に論じた。MMLU・BBQ等の評価指標が持つ限界、クラウドワーカーを用いた人間評価の主観性、レッドチーミングの未標準化、モデル生成評価の循環論的危険性など、AI評価の実践における複数の課題を詳細に分析した[11]
集団憲法AI:
AIシステムの価値観を、少数の開発者だけでなく広く公衆の意見を反映したものにするための手法「集団憲法AI(Collective Constitutional AI)」を開発した。市民参加型の審議プロセスを通じて言語モデルのAIアライメントを行う可能性を示し、AIの民主的ガバナンスへの貢献を意図している[12]
Clioとリアルワールドでの使用調査:
プライバシーを保護しながらClaudeの実際の使われ方を大規模に把握するシステム「Clio」を開発した。さらに「Anthropic経済指標」(Anthropic Economic Index)を通じ、数百万件の会話データからAIが経済・労働にどのような影響を与えているかを実証的に分析している[13][14]

発言

ガングリの思想の理解を助けるため、彼自身の発言を引用する。

AIの予測不可能性と社会的リスクについて

AIモデルの理解不能性と突然の能力出現
「私たちは社会的に経済的な価値を持ち、社会を変える力を持つAIモデルを構築しています。でも、それがどのように機能するかを、私たちはまったく理解できていないのです。そして、あらかじめ予測することも、予期することもできない能力が、有益なものも有害なものも含め、突然出現することがあります。これは普通ではないし、少し不気味でもあります。」
(原文:“We’re building AI models that are economically valuable and have the ability to alter society, but we don’t even remotely understand how they work. And sometimes these models suddenly acquire capabilities (both beneficial and harmful) that we did not and cannot anticipate in advance. This is unusual and also kind of freaky.”)[15]
AIモデルの人格化について
「言語を話すモデルを擬人化してしまうことはよくわかります。モデルは言語を使いますし、ある意味で流暢です。こうした人工的なシステムが言語を駆使できるようになったのは史上初めてのことです。言語は人間固有のものですから、擬人化してしまいやすい。でも同時に、擬人化するなという強い反発もあります。」
(原文:“I get it—the models speak in language. They’re fluent, in a way. And we’ve never had artificial systems ever that were able to do this. And so it’s very easy to anthropomorphize them because language is sort of unique to humans. But there’s a lot of pushback on that, too—Don’t anthropomorphize them.”)[16]

AI評価の困難さについて

AI評価に関する二つの主要テーゼ
「堅牢な評価を開発・実施することはきわめて難しく、効果的なAIガバナンスはAIシステムを有意義に評価できるかどうかにかかっています。」
(原文:“robust evaluations are extremely difficult to develop and implement, and effective AI governance depends on our ability to meaningfully evaluate AI systems.”)[17]

主要論文

外部リンク

脚注

Related Articles

Wikiwand AI