Gemini (言語モデル)

Googleが開発した大規模言語モデル From Wikipedia, the free encyclopedia

Gemini(ジェミニ[1][2])は、Google子会社であるGoogle DeepMindが開発したマルチモーダル英語版大規模言語モデルおよび小規模言語モデルのファミリー。LaMDAおよびPaLM2の後継モデルとして2023年12月6日米国時間)に最初のGemini 1.0が発表された。GoogleはGeminiをOpenAIGPTのライバルとして位置付けている。

初版 2023年12月6日 (2年前) (2023-12-06)
概要 開発元, 初版 ...
閉じる

Geminiは、Google DeepMindとして同年4月に統合されたGoogleの2部門である、DeepMindとGoogle Brain英語版コラボレーションとして開発された[3]。"Gemini" は双子座あるいは双子を意味するが、その名称は2部門が共同で開発したことに由来し、またNASAアポロ計画の前に実施したジェミニ計画をリスペクトして命名された[4][5]

歴史

開発

Googleは、2023年5月10日Google I/O基調講演の期間中に、Google DeepMindが開発した大規模言語モデル (LLM) のGeminiを発表した。GoogleのCEOサンダー・ピチャイは「Geminiはまだ初期の開発段階にある」と述べたものの、PaLM2のより強力な後継として位置付けられていた[6][7]。他のLLMとは異なり、Geminiはテキスト・コーパスのみでトレーニングされておらず、テキスト、画像、音声、映像、そしてコンピュータ・コードを含む、異なる種類のデータを同時に処理できることを意味するマルチモーダル英語版になるように設計されている[8][9]

DeepMindのCEOデミス・ハサビスは『WIRED』のインタビューで、OpenAIGPT-4で動くChatGPTの人気が、GoogleにLaMDABardを使ったアグレッシブな挑戦を促してきたこと、OpenAIを自社のアルゴリズムで打ち負かすことが可能であると、自信を持ってGeminiの高度な能力をアピールした。ハザビスは(2016年に囲碁チャンピオンのイ・セドルに勝利して世界中の注目を得た)DeepMindのAlphaGoプログラムの能力を強調し、GeminiはAlphaGoとその他のGoogle=DeepMind製LLMの力を組み合わせるだろうと述べた[10]

The Information英語版」は2023年8月、GeminiについてGoogleのロードマップを要約したレポートを発表し、同社が2023年後半のローンチを目標にしていることを明らかにした。レポートによれば、GoogleはたいていのLLMに備わっている会話型テキスト能力を人工知能を駆使した画像生成と組み合わせ、コンテキストに応じた画像作成を可能にし、より広範囲のユースケースに適応されることで、OpenAIなどの競合他社を凌駕したいと望んでいた[11]。Bardと同様に[12]、Googleの共同創設者であるセルゲイ・ブリンも、Google Brain英語版とDeepMindのその他何百人ものエンジニアとともに、Geminiの開発を支援するためにセミリタイア生活から召喚された[11][13]。GeminiはYouTubeの動画のトランスクリプト(文字起こし)でも訓練を受けていたため、潜在的に著作権保護されたすべての素材を排除するため弁護士も呼ばれた[11]

Geminiのローンチが迫っているというニュースを受け、OpenAIはGPT4をGeminiと同様のマルチモーダル機能と統合する作業を急がせた[14]。2023年9月の「The Information」の報道によれば、Google CloudのVertex AIサービス経由で、Googleがクライアントに利用可能にさせることを企図していたLLMの「初期バージョン」への早期アクセスを数社が許諾されていた。この報道では、GPT-4とマイクロソフトGitHub Copilotの両者を打ち負かすため、GoogleがGeminiを武装させていることにも言及していた[15][16]

「The Information」は2023年12月2日、Googleは英語以外のプロンプトに問題があるため、Geminiのローンチを翌週から2024年1月に延期したこと、また3つのローンチ・イベントが、ニューヨークワシントンD.C.カリフォルニアで計画されていたことを報じた[17][18]

ローンチ

2023年12月6日、ピチャイとハサビスはバーチャル記者会見で「Gemini 1.0」を発表した[19][20]。「非常に複雑なタスク」向けに設計されたGemini Ultraと「幅広いタスク」向けに設計されたGemini Pro、そして「オン=デバイス・タスク」用に設計された、Gemini Nanoの3つのモデルが発表された。ローンチ時に、Gemini ProとGemini Nanoは、BardとPixel 8 Proスマートフォンにそれぞれ統合されたが、Gemini Ultraは「Bard Advanced」を強化し、2024年初めにソフトウェア開発者が利用可能になった。GoogleがGeminiを組み込むことを企図していたその他の製品には、検索広告ChromeGoogle Workspace上のDuet AI、そしてAlphaCode2英語版が含まれていた[21][20]。それらは英語版のみ利用可能であった[20][22]

Googleは、Geminiを「最大かつ最も有能なAIモデル」として積極的に売り出し、人間の行動をエミュレートするよう設計した[23][20][24]。Geminiは、Googleのテンソル・プロセッシング・ユニット (TPU) でトレーニングされ駆動されている[19][22]。Googleは、Gemini1.0には「広範囲にわたる安全性のテスト」の必要性があるため、翌2024年までは幅広く利用できるようにはならないだろうと述べた[19]

Gemini1.0のフラッグシップモデルであるGemini Ultraは、様々な業界ベンチマークでOpenAIのGPT-3.5とGPT-4、AnthropicClaude2Inflection AI英語版のInflection2、MetaLLaMA2xAIGrok1より、高いパフォーマンスを示したとされる[25][19][9]。またGemini Ultraは、57科目の大規模マルチタスク言語理解 (MMLU) テストで人間の専門家を上回り、90パーセントのスコアを獲得した最初の言語モデルとなった[9][4]

2023年12月13日、Gemini ProはAI StudioとVertex AIでGoogle Cloudの顧客が利用できるようになり、Gemini NanoはAndroid開発者も利用できるようになった[26][27][28]

ハサビスはさらに、DeepMindがGeminiを「ロボット工学と組み合わせて世界と物理的に対話する」方法を模索していることを明らかにした[29]。同年10月にジョー・バイデン大統領が署名した大統領令14110英語版に従い、GoogleはGemini Ultraのテスト結果をアメリカ合衆国連邦政府と共有すると述べた。またGoogleは、同年11月にブレッチリー・パークで開催されたAI安全サミット英語版で定められた原則を遵守するため、イギリス政府との協議に取り組んだ[9]

レセプション

Geminiのローンチは、「MITテクノロジーレビュー」が「AIの誇大広告」と揶揄した、数か月にわたる激しい憶測と期待によって予期されていた[30][25]。2023年8月、調査会社セミアナリシス (SemiAnalysis) のディラン・パテル (Dylan Patel) とダニエル・ニッシュボール (Daniel Nishball) が「Geminiのリリースが世界を食い尽くし、そしてGPT-4を追い落とす (outclass) 」と宣言するブログ投稿を書き、OpenAIのCEOサム・アルトマンが、自身のXアカウントででこの2人を即座に嘲笑した[31][32]。OpenAIの共同創設者であるイーロン・マスクも加勢して「数字は間違っているのか? ("Are the numbers wrong?") 」と尋ねた[33]。「Business Insider」のヒュー・ラングレー (Hugh Langley) は、GoogleにとってGeminiは運命を左右する瞬間になるだろうと述べ、「もしGeminiが眩惑するなら(原文「dazzles」、星座に掛けた駄洒落)、それはGoogleがMicrosoftとOpenAIによって盲点を突かれたという物語を変えるのに役立つだろう。逆にそれが期待外れだったら、Googleは遅れを取っているという批判家たちを勢い付かせることになるだろう」と書いた[34]

2023年12月のローンチに際して、ワシントン大学オーレン・エツィオーニ英語版名誉教授は、GoogleとOpenAI間の「軍拡競争の応酬」を予測した。カリフォルニア大学バークレー校教授のアレクセイ・エフロス英語版は、Geminiのマルチモーダルなアプローチの可能性を賞賛し[4]サンタフェ研究所の科学者メラニー・ミッチェル英語版はGeminiを「非常に洗練されている」と評した。ワシントン大学のチラグ・シャー (Chirag Shah) 教授は、GeminiのローンチをApple毎年発表する新しいiPhoneに喩え、それほど感銘を受けなかったと述べた。スタンフォード大学のパーシー・リアン (Percy Liang) と、ワシントン大学のエミリー・ベンダー英語版は「使用されたトレーニングデータについての洞察がなければ、ベンチマークスコアを解釈するのは難しい」と警告した[30]

提供地域と言語の拡大

2024年2月2日日本時間)、Gemini Proが日本語を含む40以上の言語・230以上の国と地域で利用できるようになった[35]

Nano Banana

GeminiのNano Banana 2で作成されたAI生成の抽象芸術
GeminiのNano Banana 2で作成されたAI生成の抽象芸術

Nano Banana(ナノ バナナ)は、画像生成AIおよび画像編集AIのシリーズ名[36]

各モデルの正式名称は以下のとおり。

  • Nano Banana - Gemini 2.5 Flash Image
  • Nano Banana Pro - Gemini 3 Pro Image
  • Nano Banana 2 - Gemini 3.1 Flash Image

2025年8月12日、クラウドソーシングによるAI評価プラットフォーム「Arena」で、匿名モデルとして初めて公に登場。同年8月26日には、Geminiアプリおよび関連するGoogle AIサービスを通じて一般公開された。

「Nano Banana」は、クラウドソーシングによるAI評価プラットフォーム「Arena」で秘密裏の公開テストを受けていた際に使用されていたコードネームである。「Nano Banana」の愛称は、Google DeepMindのプロダクトマネージャーであるNaina Raisinghaniにつけられたニックネームに由来する[37]

Googleは「Nano Banana」の一般公開時に、その正体が「Gemini 2.5 Flash Image」であることを公式発表した[38][39]

2025年11月20日、DeepMindは、テキストレンダリングと世界知識を向上させた「Nano Banana Pro」をリリースした[40][41][42][39]

「Nano Banana」はリリース後、Geminiアプリ、Google AI Studio、Vertex AIを通じて利用可能となった。Googleによれば、リリースから数週間でGeminiアプリに1,000万人以上の新規ユーザーを引き付け、2億回以上の画像編集を促進したという[43][44]

「Nano Banana」では、ユーザーは自然言語の指示を用いて、写真を合成したり、髪型や背景を変更できる。被写体の一貫性により、画像の改変を行っても同一の人物やアイテムを認識することが可能である。さらに、出力に目に見えない電子透かしを入れてAI生成情報であることを識別するSynthID電子透かしも提供している[39][45]。画像融合機能により複数の写真をつなぎ合わせてシームレスな出力を作成でき、世界知識によってコンテキストを認識した変更を可能としている。ソーシャルメディア上では、特に写実的な3Dフィギュア画像で話題となった。人々は「Nano Banana」と、自分たちの自撮り写真をまるで玩具のような3Dフィギュアに変えるというバイラルな流行を結びつけ、この現象はInstagramXで急速に拡散した[46][47]。Xにモデルが追加されたことで、ユーザーは投稿内で直接Nano Bananaをタグ付けしてプロンプトから写真を作成できるようになり、これが人気をさらに高めることとなった[46]

2025年9月の『TechRadar』のレビューでは、Nano BananaはChatGPTの画像生成よりも写実的であり、複数のプロンプト間で一貫性があると報告された[48]。『Tom's Guide』のレビューでは、創造的で生き生きとした画像編集を処理する能力が評価された[49]。Nano Bananaは建築ビジュアライゼーションにおいて優れたパフォーマンスを示し、複雑な形状であっても正確な縮尺で画像を生成した[50][45]。一方で、『PC Gamer』の別のレビューでは、このモデルには切り抜きのような基本的な編集ツールの一部が欠けており、AIが画像の変更を適用せず元に戻ってしまうことがあると言及された[45]

2026年2月26日、Nano Banana 2がリリースされ、Geminiのチャットボット、検索AIモード、およびLensに統合された。これはGemini 3.1 Flash Image上に構築されたより高速なバージョンであり、指示への追従性とテキストのレンダリングが向上している[51]

モデル一覧

2026年5月現在[52][53]

現行モデル

Gemini 3シリーズ

Gemini 3.5
  • Gemini 3.5 Flash:2026年5月19日リリース[53]。Gemini 3.1 Proに匹敵するかそれ以上の性能を示したとされる。
Gemini 3.1
  • Gemini 3.1 Flash-Lite:2026年3月3日リリース[53]。Gemini 3シリーズ初の軽量高速化モデル。
  • Gemini 3.1 Pro:2026年2月19日リリース[53]。推論力が大幅向上。
Gemini 3.0
  • Gemini 3 Flash:2025年12月17日リリース[53]。Gemini 3 Proに近い品質を高速・低コストで提供。
  • Gemini 3 Pro:2025年11月18日リリース[53]。複雑な問題への高度な推論とマルチモーダル能力。

Gemini 2シリーズ

Gemini 2.5
  • Gemini 2.5 Flash-Lite:2025年7月22日リリース、2026年10月16日以降廃止予定。[54]速度を優先したモデル。
  • Gemini 2.5 Flash:2025年6月17日リリース、2026年10月16日以降廃止予定[53]。速度とコストを両立したモデル。
  • Gemini 2.5 Pro:2025年3月25日リリース、2026年10月16日以降廃止予定[53]。性能改善世代。Gemini 1.5 Proの後継。
Gemini 2.0
  • Gemini 2.0 Flash:2025年2月5日リリース、2026年6月1日廃止予定[53]。2.0世代の高速モデル。

廃止モデル

Gemini 1シリーズ

Gemini 1.5
  • Gemini 1.5 Flash:2024年5月14日リリース、2025年9月24日廃止[53]。Gemini 1.5 Proの軽量高速化モデル。
  • Gemini 1.5 Pro:2024年2月15日リリース、2025年9月24日廃止[53]。100万トークンのコンテキストウィンドウを初めて実現。
Gemini 1.0
  • Gemini 1.0 Pro:2023年12月13日リリース、2025年4月21日廃止[53]。開発者向けAPIなどで広く提供された初代モデル。
  • Gemini 1.0 Nano:2023年12月6日リリース、2025年4月21日廃止[53]Google Pixelなどスマートフォンでの動作を想定。
  • Gemini 1.0 Ultra:2023年12月6日リリース、2025年4月21日廃止[53]。初代フラッグシップモデル。

脚注

参考文献

関連項目

外部リンク

Related Articles

Wikiwand AI