サンディパン・クンドゥ

From Wikipedia, the free encyclopedia

生誕 インド
国籍 インド
サンディパン・クンドゥ
人物情報
生誕 インド
国籍 インド
出身校 テキサス大学オースティン校
学問
研究分野 理論物理学AIアライメント
研究機関 Anthropic
主な業績 Constitutional AI
影響を受けた人物 ジャリッド・カプラン
テンプレートを表示

サンディパン・クンドゥ(Sandipan Kundu)は、インド出身のAIセーフティ研究者・理論物理学者である。Anthropicに所属する。 理論物理学者としてのキャリアからAI研究に転じた経歴を持ち、Constitutional AI(憲法 AI)の開発への貢献で知られる。Anthropicの研究・開発部門でメンバーとして活動し、大規模言語モデルの整合性(AIアライメント)、有害行動の抑制、スケーリング則といったテーマで多くの論文を執筆している。

教育

  • 2003年から2006年まで、インド・コルカタのプレジデンシー大学(旧プレジデンシー・カレッジ)にて物理学を専攻し理学士号取得。同大学物理学科の学部最高成績を記録し、カルカッタ大学より名誉証書を授与された[1]
  • 2006年から2008年まで、インド工科大学カンプール校(IIT Kanpur)にて物理学の修士課程を修了した[2]
  • 2008年から2014年まで、テキサス大学オースティン校にて理論物理学の博士課程を修了(Ph.D.取得)した[2]

学術キャリア(物理学)

  • 2014年から2016年ごろ、コーネル大学 素粒子物理学実験室(Laboratory for Elementary Particle Physics)にてポスドク研究員として勤務[2]
  • その後、ジョンズ・ホプキンス大学物理天文学科においてポスドク研究員を務め[3]、共形場理論、ホログラフィー原理、因果律制約などの理論物理学研究に従事した。

Anthropicにおけるキャリア

Anthropic入社後、クンドゥはConstitutional AI(憲法 AI)の開発に携わり、AIアライメント研究部門で中心的な研究者として活動している[4]。特にConstitutional AIの具体的な原則設計、スケーリング則 (AI)研究、安全性評価の改善などに貢献している。XのプロフィールではAnthropicを「理論物理学者からAI研究者へ」と紹介している[5]

研究

理論物理学における研究

クンドゥは物理学者時代、AdS/CFT対応ホログラフィー・因果律制約を中核テーマとして研究した。代表的な業績として、共形場理論(CFT)の大きな中心電荷・スパーススペクトラムを持つ理論において、因果律が演算子積展開(OPE)係数に課す制約を定式化する「共形コライダー型実験」の手法を開発した[6]。またアインシュタイン重力の3点関数をCFT計算から直接導出することに成功し、高スピン演算子ギャップとアインシュタイン重力の普遍的な関係を示した[7]

2016年には論文「Physical effects of the gravitational Θ-parameter」(共著:ウィリー・フィッシュラー)が重力研究財団(Gravity Research Foundation)エッセイ賞において名誉賞(Honorable Mention)を受賞した[8]

AIセーフティ・アライメント研究

Anthropicに参加後、クンドゥはAIの有害行動抑制とConstitutional AIの研究に注力している。

Constitutional AIと汎用原則

クンドゥの中心的な研究関心は、AIモデルが単純な原則から倫理的行動を一般化できるかどうかという問いにある。人間フィードバック(RLHF)がモデルの明示的に有害な発話を防ぐ一方、権力欲求・自己保存欲求のような微妙な問題行動に対処できない可能性があることを問題視した。Constitutional AIはこの課題に対処するため、人間のフィードバックの代わりに、書かれた原則リストのみに基づくAIモデルのフィードバックを用いる。クンドゥが筆頭著者として主導した2023年の研究「Specific versus General Principles for Constitutional AI」では、「人類にとって最善のことをせよ」という単一の汎用原則のみから訓練した大規模対話モデルが、権力欲求のような有害な行動特性を効果的に抑制できることを実証した。また具体的な原則リストと汎用原則の双方に価値があることを示し、両者の組み合わせを推奨している[9]

Constitutional AI: Harmlessness from AI Feedback

クンドゥはConstitutional AIの基礎論文「Constitutional AI: Harmlessness from AI Feedback」(2022年、Bai et al.)の共著者でもある。この論文は、人間による有害出力の識別なしにAIが自己改善によって無害なアシスタントになれる方法論を提示したものであり、AIアライメント研究に広く引用されている[4]

AIモデルの自動評価

また「Discovering Language Model Behaviors with Model-Written Evaluations」(Perez et al., 2022)にも共著者として参加し、言語モデルの潜在的に危険な行動(権力志向・阿諛追従など)をモデル生成による評価で自動発見する手法を開発した[10]

Constitutional Classifiers(安全分類器)

さらに「Constitutional Classifiers: Defending against Universal Jailbreaks」(2025年)にも共著者として参加し、普遍的なジェイルブレイク攻撃からLLMを防御するための安全分類器設計に携わった[11]

Loss-to-Loss予測研究

スケーリング則の分野においても活動を続けており、言語モデルの能力に関する「Loss-to-Loss予測」研究を発表。異なる評価タスク間での損失値の関係に驚くほど単純な法則性があることを発見した[1]

受賞・名誉

  • 2006年、カルカッタ大学より理学部物理学科の学部最高成績として名誉証書受賞(新記録樹立)[1]
  • 2016年、重力研究財団(Gravity Research Foundation)エッセイ賞 名誉賞(Willy Fischlerとの共著「Physical effects of the gravitational Θ-parameter」)[8]

思想・考え方

クンドゥの研究は、AIモデルの安全な訓練のために「原則」がどのように機能するかという問いを核心においている。特に以下の点が特徴的な立場である。

潜在的な問題行動
人間フィードバックだけでは捉えにくい「潜在的な問題行動」(権力志向・自己保存欲求・阿諛追従など)を、AI自身によるフィードバックと原則ベースの訓練によって抑制できると主張する。ここには、人間の監視が及ばない微妙な危険を技術的な仕組みで対処しようとする問題意識がある[9]
汎用原則と具体的原則リスト
「汎用原則」(例:「人類にとって最善のことをせよ」)と「具体的原則リスト」の双方が安全なAI誘導に有効であると考えており、一方だけで十分とは見ていない。汎用原則は大規模モデルにおいて倫理的な一般化を可能にする一方、詳細な原則は特定の有害行動に対する細粒度の制御を提供する[9]
数理的・論理的な厳密さ
理論物理学者としての背景を持つクンドゥは、AI研究において数理的・論理的な厳密さを持ち込んでいる。因果律制約やスケーリング則など物理学的思考様式を応用する姿勢は、彼の研究スタイル全般に反映されている。

発言

前節のクンドゥの思想・考え方の理解を助けるため、彼の発言を次に引用する。

Constitutional AIにおける原則設計について
「人間によるフィードバックは、会話モデルにおける明らかに有害な発話を防ぐことはできますが、自己保存権力への欲求のような、微妙な問題行動を自動的に緩和するとは限りません。Constitutional AIは、書かれた原則のリストのみを条件とするAIモデルからのフィードバックに置き換えることで、これに代わるアプローチを提供します。」
(原文:"Human feedback can prevent overtly harmful utterances in conversational models, but may not automatically mitigate subtle problematic behaviors such as a stated desire for self-preservation or power. Constitutional AI offers an alternative, replacing human feedback with feedback from AI models conditioned only on a list of written principles.")[9]
汎用原則の可能性について
「最大規模の対話モデルは、この短いコンスティテューションから汎化することができ、その結果、権力のような特定の動機に対して関心を示さない、無害なアシスタントが生まれます。したがって、汎用的な原則は、潜在的に有害な行動を対象とした長い原則リストの必要性を、ある程度回避できる可能性があります。」
(原文:"We find that the largest dialogue models can generalize from this short constitution, resulting in harmless assistants with no stated interest in specific motivations like power. A general principle may thus partially avoid the need for a long list of constitutions targeting potentially harmful behaviors.")[9]
具体的原則と汎用原則の相補性について
「とはいえ、より詳細なコンスティテューションは、特定のタイプの有害行動に対してより細粒度な制御を向上させます。このことは、汎用原則と具体的原則の双方が、AIを安全に誘導する上で価値を持つことを示唆しています。」
(原文:"However, more detailed constitutions still improve fine-grained control over specific types of harms. This suggests both general and specific principles have value for steering AI safely.")[9]
AIモデルの汎用的な倫理行動の学習について
「GfH(Good for Humanity)PMは、追加のデータや監視を一切必要とせず、また有益性・誠実性・無害性の複合指標を維持しながら、『人類にとって最善のことをせよ』という指示から倫理的行動を直接学習し、従来のHH-RLHFモデルをも超える通常の有害性検知能力を示しました。」
(原文:"GfH PMs learn general ethical behaviors directly from 'do what's best for humanity' instructions, surpassing even the HH-RLHF PM at detecting conventional harmlessness, without requiring any additional data or supervision and while preserving combined helpfulness, honesty, and harmlessness measures.")[9]

主要論文

脚注

外部リンク

Related Articles

Wikiwand AI