Gemma
From Wikipedia, the free encyclopedia
| 開発元 | Google DeepMind |
|---|---|
| 初版 | 2024年2月21日 (2年前) (2024-02-21)[1] |
| 最新版 | |
| 種別 | 大規模言語モデル |
| ライセンス |
|
| 公式サイト |
ai |
| テンプレートを表示 | |
Gemmaは、Google DeepMindによって開発されたオープンソースの大規模言語モデル (LLM) シリーズである。Googleの主力商用モデルであるGeminiと同様の技術に基づいている。最初のバージョンは2024年2月にリリースされ、続いて2024年6月Gemma 2、2025年3月Gemma 3、2026年4月にGemma 4がリリースされた。Gemmaの派生モデルとして視覚言語モデルであるPaliGemmaや、医療相談トピック向けのMedGemmaなども開発されている。
2024年2月、GoogleはGeminiの軽量版として機能するフリーかつオープンソースなLLMファミリーであるGemmaを初公開した。Gemmaでは2つのサイズのモデルが公開され、パラメータ数はそれぞれ20億 (2B) と70億 (7B) である。複数のメディアはこれを、MetaなどがAIモデルをオープンソース化していることへの対応であり、AIを独自のものとして保持してきたGoogleの長年の方針からの劇的な転換であると見なした[3][4][5]。
Gemma 2は2024年6月27日[6]、Gemma 3は2025年3月12日[7][8]、Gemma 4は2026年4月2日にリリースされた[2]。
概要
Geminiシリーズのモデルと同様の技術に基づき、GemmaはGoogleによる「AIをすべての人にとって役立つものにする」というミッションを支援するものとして説明されている[9]。また、Googleは医療分析用のMedGemmaなど、特定の用途に最適化された公式のGemma派生モデルを公開している[10]。
リリース以来、Gemmaモデルのダウンロード数は1億5000万回を超え、Hugging Faceではコミュニティや個人によるファインチューニング版や量子化版を含め、7万以上のモデルが利用可能である[11]。
Gemma 3は、2億7000万、10億、40億、120億、270億 (270M, 1B, 4B, 12B, 27B) のパラメータサイズで公開され、140以上の言語をサポートしている。マルチモーダルモデルとして、270Mと1Bはテキストのみ[12]、それ以外はテキストと画像の両方の入力に対応している[13]。さらに、Googleはスマートフォン、ノートパソコン、タブレットなどのデバイスでの実行に最適化された小型モデルであるGemma 3nも公開している[14]。
Gemma 4は、E2B、E4B、26B A4B、31Bのパラメータサイズで公開され、全モデルが画像と動画の入力に対応しており、E2BとE4Bはそれらに加えて音声の入力にも対応している。[15]
アーキテクチャ
Gemma 3は、グループクエリアテンション (GQA: grouped-query attention) とSigLIPビジョンエンコーダを備えたデコーダのみのTransformerアーキテクチャに基づいている。4B、12B、27Bのコンテキスト長は128Kであるが、270M及び1Bのコンテキスト長は32Kである[16][17]。
量子化対応トレーニング (QAT: quantization-aware training) を使用してファインチューニングされた量子化バージョンも利用可能である[17]。これはメモリ使用量を大幅に改善するが、精度と正確さ (precision) に多少の悪影響を及ぼす[18]。
公式派生モデル
Googleは、医療分析やプログラミングなど、特定の目的のために設計されたGemmaの公式派生モデルを開発している。
- ShieldGemma 2 (4B): Gemma 3ファミリーに基づく、暴力的、危険、および性的に露骨な画像を識別およびフィルタリングするためのモデル[19]。
- MedGemma (4Bおよび27B): 同じくGemma 3に基づいており、画像分析などの医療アプリケーション向けのモデル。しかし、GoogleはMedGemmaが「まだ臨床レベルではない」ともしている[20]。インドのグルグラムにあるTap Healthの開発者は、MedGemmaを使用してAI支援による糖尿病管理アプリケーションを強化している[21][22]。
- DolphinGemma (約400M): ジョージア工科大学の研究者およびWild Dolphin Projectとの協力で開発された、音声分析を通じてイルカのコミュニケーションをよりよく理解することを目的としたモデル。モデルやデータは公開されていない[23][24]。
- CodeGemma (2Bおよび7B): コード補完および一般的なコーディングのために設計されたモデル群[25]。Python、Java、C++など、複数のプログラミング言語をサポートする[26]。
- TranslateGemma (4B、12B、27B): Gemma 3をベースにGeminiからの蒸留と強化学習でチューニングされた翻訳特化のモデル。TranslateGemma 12Bモデルはパラメータ数で上回るGemma 3 27Bの翻訳性能を上回る。55言語を公式サポートしている。[27]
| 世代 | リリース日 | パラメータ数 | コンテキスト長 | マルチモーダル | 備考 |
|---|---|---|---|---|---|
| Gemma 1 | 2024年2月21日 | 2B, 7B | 8192 | 非対応 | 2Bモデルは7Bから蒸留 (distilled) された物。2Bはマルチクエリアテンションを使用し、7Bはマルチヘッドアテンションを使用。 |
| CodeGemma | 2024年4月9日[28] | 2B, 7B | 8192 | 非対応 | コード生成用にファインチューニングされたGemma 1。 |
| RecurrentGemma | 2024年4月11日 | 2B, 9B | 無制限(モデル学習時は8192トークン) | 非対応 | Transformerベースではなく、Griffinベース[29]。 |
| Gemma 2 | 2024年6月27日 | 2B, 9B, 27B | 8192 | 非対応 | 27Bはウェブドキュメント、コード、科学論文から学習。Gemma 2 9Bは27Bから蒸留。Gemma 2 2Bは未リリースの7Bモデルから蒸留。グループクエリアテンション (Grouped-Query Attention) を使用[30]。 |
| PaliGemma | 2024年7月10日 | 3B | 8192 | 画像 | テキストと画像を入力として受け取り、テキストを出力する視覚言語モデル。SigLIP-So400m画像エンコーダとGemma v1.0 2Bを接続して作成[31][32]。 |
| PaliGemma 2 | 2024年12月4日 | 3B, 10B, 28B | 8192 | 画像 | SigLIP-So400mとGemma v2.0 2B、9B、および27Bを組み合わせて作成。より多くの視覚言語タスクが可能[33][34]。 |
| Gemma 3 | 2025年3月12日 | 270M, 1B, 4B, 12B, 27B | 32K(270M / 1B) / 128K | 画像 | 全モデルが蒸留により学習。事後学習は数学、コーディング、チャット、指示追従、多言語(140言語対応)に重点。関数呼び出しが可能。270M、1Bは視覚機能非対応[12][35][36]。 |
| Gemma 3n | 2025年6月26日 | E2B, E4B | 32K | 画像・音声 | スマートフォン、ノートパソコン、タブレットなどのデバイスでの実行に最適化された小型モデル。Matryoshka Transformer(MatFormer)構造を採用。PLE(Per-Layer Embedding)キャッシュや条件付きパラメータ読み込みにより、メモリ使用量と計算コストを削減可能。[14] |
| TranslateGemma | 2026年1月15日 | 4B, 12B, 27B | 2K[37] | 画像 | Gemma 3をベースにGeminiからの蒸留(SFT/RL)で構築された翻訳特化モデル。55以上の主要・低リソース言語に対応。画像内のテキスト翻訳機能も保持している。[27] |
| Gemma 4 | 2026年4月2日 | E2B, E4B, 26B A4B, 31B | 128K(E2B/E4B) / 256K | 画像・動画・音声(E2B/E4B) | 推論(思考)モードを標準搭載したマルチモーダルモデル。動画はフレームとして処理。ハイブリッドアテンション(スライディングウィンドウ+グローバル)を採用。26B A4BはMoEモデル。E2B/E4Bのみ音声入力に対応。[15] |
注:オープンウェイトモデルは、推論時にコンテキスト長を再スケーリングできる。Gemma 1、Gemma 2、PaliGemma、およびPaliGemma 2では、コスト(KVキャッシュのサイズ)は、コンテキスト長に比例して増加する。Gemma 3では、ローカルアテンションとグローバルアテンションの分離により、成長曲線が改善されている[17]。RecurrentGemmaでは、2048トークン後のメモリ使用量は変わらない[29]。
参考文献
- ↑ “Gemma: Introducing new state-of-the-art open models” (英語). The Keyword (2024年2月21日). 2026年2月19日閲覧。
- 1 2 “Gemma 4: Byte for byte, the most capable open models” (英語) (2026年4月2日). 2026年4月19日閲覧。
- ↑ Khan, Jeremy (2024年2月21日). “Google unveils new family of open-source AI models called Gemma to take on Meta and others—deciding open-source AI ain't so bad after all” (英語). Fast Company. オリジナルの2024年2月21日時点におけるアーカイブ。. https://web.archive.org/web/20240221135344/https://fortune.com/2024/02/21/google-new-family-open-source-ai-models-gemma/ 2026年2月19日閲覧。
- ↑ Alba, Davey (2024年2月21日). “Google Delves Deeper Into Open Source with Launch of Gemma AI Model” (英語). Bloomberg News. オリジナルの2024年2月21日時点におけるアーカイブ。. https://web.archive.org/web/20240221131813/https://www.bloomberg.com/news/articles/2024-02-21/google-releases-gemma-ai-model-for-open-source-developers 2026年2月19日閲覧。
- ↑ Metz, Cade; Grant, Nico (2024年2月21日). “Google Is Giving Away Some of the A.I. That Powers Chatbots” (英語). The New York Times. オリジナルの2024年2月21日時点におけるアーカイブ。. https://web.archive.org/web/20240221140434/https://www.nytimes.com/2024/02/21/technology/google-open-source-ai.html 2026年2月19日閲覧。
- ↑ “Gemma 2 is now available to researchers and developers” (英語). Google (2024年6月27日). 2026年2月19日閲覧。
- ↑ “Introducing Gemma 3: The most capable model you can run on a single GPU or TPU” (英語). The Keyword (2025年3月12日). 2026年2月19日閲覧。
- ↑ “Welcome Gemma 3: Google's all new multimodal, multilingual, long context open LLM” (英語). Hugging Face (2025年3月12日). 2026年2月19日閲覧。
- ↑ “Gemma: Introducing new state-of-the-art open models” (英語). The Keyword (2024年2月21日). 2026年2月19日閲覧。
- ↑ “Gemma - Google DeepMind” (英語). Google DeepMind. 2026年2月19日閲覧。
- ↑ “Google's Gemma AI models surpass 150M downloads” (英語). TechCrunch (2025年5月12日). 2026年2月19日閲覧。
- 1 2 “Gemma 3 - How to Run Guide” (英語). Unsloth. 2026年4月19日閲覧。
- ↑ “Welcome Gemma 3: Google's all new multimodal, multilingual, long context open LLM” (英語). Hugging Face (2025年3月12日). 2026年2月19日閲覧。
- 1 2 “Gemma 3n モデルの概要”. Google AI for Developers. 2026年2月19日閲覧。
- 1 2 “Gemma 4 モデルカード”. Google AI for Developers. 2026年4月19日閲覧。
- ↑ “google/gemma-3-270m · Hugging Face” (英語). Hugging Face. 2026年4月19日閲覧。
- 1 2 3 Gemma Team (2025年). “Gemma 3 Technical Report” (英語). arXiv. 2026年2月19日閲覧。
- ↑ “What is quantization aware training?” (英語). IBM (2025年5月15日). 2026年2月19日閲覧。
- ↑ “ShieldGemma 2: Robust and Tractable Image Content Moderation” (英語) (2025年). 2026年2月19日閲覧。
- ↑ “MedGemma” (英語). Google Health AI Developer Foundations. 2026年2月19日閲覧。
- ↑ “MedGemma: Our most capable open models for health AI development” (英語). Google Research Blog (2025年10月28日). 2026年2月19日閲覧。
- ↑ “Tap Health: AI Diabetes Management Program” (英語). Tap Health (2026年2月19日). 2026年2月19日閲覧。
- ↑ “DolphinGemma: How Google AI is helping decode dolphin communication” (英語). Georgia Tech. 2026年2月19日閲覧。
- ↑ “DolphinGemma: How Google AI is helping decode dolphin communication” (英語). The Keyword (2025年4月14日). 2026年2月19日閲覧。
- ↑ “Google Launches Coding AIs That Could Rival Microsoft's GitHub Copilot” (英語). PCMag (2024年4月10日). 2026年2月19日閲覧。
- ↑ “CodeGemma”. Google AI for Developers. 2026年2月19日閲覧。
- 1 2 “TranslateGemma: A new suite of open translation models” (英語) (2026年1月15日). 2026年3月22日閲覧。
- ↑ “Gemmaのリリース”. Google AI for Developers (2024年4月9日). 2026年2月19日閲覧。
- 1 2 “RecurrentGemma: Moving Past Transformers for Efficient Open Language Models” (英語) (2024年). 2026年2月19日閲覧。
- ↑ “Gemma 2: Improving Open Language Models at a Practical Size” (英語) (2024年8月2日). 2026年2月19日閲覧。
- ↑ “PaLI: Scaling Language-Image Learning in 100+ Languages” (英語). research.google. 2026年2月19日閲覧。
- ↑ “PaliGemma: A versatile 3B VLM for transfer” (英語) (2024年7月10日). 2026年2月19日閲覧。
- ↑ “Introducing PaliGemma 2 mix: A vision-language model for multiple tasks- Google Developers Blog” (英語). developers.googleblog.com. 2026年2月19日閲覧。
- ↑ “PaliGemma 2: A Family of Versatile VLMs for Transfer” (英語) (2024年). 2026年2月19日閲覧。
- ↑ “Gemma 3 Technical Report” (英語) (2025年). 2026年2月19日閲覧。
- ↑ “Gemma 3 モデルの概要”. ai.google.dev. 2026年2月19日閲覧。
- ↑ “google/translategemma-27b-it · Hugging Face” (英語). Hugging Face. 2026年4月19日閲覧。
外部リンク
| 概念 | |||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| モデル |
| ||||||||||||
| エージェント | |||||||||||||
| 関連企業の一覧 |
| ||||||||||||
|
| |||||||||||||