Gemma

初版 2024年2月21日 (2年前)^[1]

Gemma
開発元	Google DeepMind
初版	2024年2月21日 (2年前) (2024-02-21)^[1]

最新版	Gemma 4 / 2026年4月2日 (17日前) (2026-04-02)^[2]
種別	大規模言語モデル
ライセンス	Gemma 4:Apache 2.0 Gemma 3まで:Gemma License
公式サイト	ai.google.dev/gemma
テンプレートを表示

概要

Geminiシリーズのモデルと同様の技術に基づき、GemmaはGoogleによる「AIをすべての人にとって役立つものにする」というミッションを支援するものとして説明されている^[9]。また、Googleは医療分析用のMedGemmaなど、特定の用途に最適化された公式のGemma派生モデルを公開している^[10]。

リリース以来、Gemmaモデルのダウンロード数は1億5000万回を超え、Hugging Faceではコミュニティや個人によるファインチューニング版や量子化版を含め、7万以上のモデルが利用可能である^[11]。

Gemma 3は、2億7000万、10億、40億、120億、270億 (270M, 1B, 4B, 12B, 27B) のパラメータサイズで公開され、140以上の言語をサポートしている。マルチモーダルモデルとして、270Mと1Bはテキストのみ^[12]、それ以外はテキストと画像の両方の入力に対応している^[13]。さらに、Googleはスマートフォン、ノートパソコン、タブレットなどのデバイスでの実行に最適化された小型モデルであるGemma 3nも公開している^[14]。

Gemma 4は、E2B、E4B、26B A4B、31Bのパラメータサイズで公開され、全モデルが画像と動画の入力に対応しており、E2BとE4Bはそれらに加えて音声の入力にも対応している。^[15]

アーキテクチャ

Gemma 3は、グループクエリアテンション (GQA: grouped-query attention) とSigLIPビジョンエンコーダを備えたデコーダのみのTransformerアーキテクチャに基づいている。4B、12B、27Bのコンテキスト長は128Kであるが、270M及び1Bのコンテキスト長は32Kである^[16]^[17]。

量子化対応トレーニング (QAT: quantization-aware training) を使用してファインチューニングされた量子化バージョンも利用可能である^[17]。これはメモリ使用量を大幅に改善するが、精度と正確さ (precision) に多少の悪影響を及ぼす^[18]。

公式派生モデル

Googleは、医療分析やプログラミングなど、特定の目的のために設計されたGemmaの公式派生モデルを開発している。

ShieldGemma 2 (4B): Gemma 3ファミリーに基づく、暴力的、危険、および性的に露骨な画像を識別およびフィルタリングするためのモデル^[19]。
MedGemma (4Bおよび27B): 同じくGemma 3に基づいており、画像分析などの医療アプリケーション向けのモデル。しかし、GoogleはMedGemmaが「まだ臨床レベルではない」ともしている^[20]。インドのグルグラムにあるTap Healthの開発者は、MedGemmaを使用してAI支援による糖尿病管理アプリケーションを強化している^[21]^[22]。
DolphinGemma (約400M): ジョージア工科大学の研究者およびWild Dolphin Projectとの協力で開発された、音声分析を通じてイルカのコミュニケーションをよりよく理解することを目的としたモデル。モデルやデータは公開されていない^[23]^[24]。
CodeGemma (2Bおよび7B): コード補完および一般的なコーディングのために設計されたモデル群^[25]。Python、Java、C++など、複数のプログラミング言語をサポートする^[26]。
TranslateGemma (4B、12B、27B): Gemma 3をベースにGeminiからの蒸留と強化学習でチューニングされた翻訳特化のモデル。TranslateGemma 12Bモデルはパラメータ数で上回るGemma 3 27Bの翻訳性能を上回る。55言語を公式サポートしている。^[27]

Gemmaモデルの技術仕様
世代	リリース日	パラメータ数	コンテキスト長	マルチモーダル	備考
Gemma 1	2024年2月21日	2B, 7B	8192	非対応	2Bモデルは7Bから蒸留 (distilled) された物。2Bはマルチクエリアテンションを使用し、7Bはマルチヘッドアテンションを使用。
CodeGemma	2024年4月9日^[28]	2B, 7B	8192	非対応	コード生成用にファインチューニングされたGemma 1。
RecurrentGemma	2024年4月11日	2B, 9B	無制限（モデル学習時は8192トークン）	非対応	Transformerベースではなく、Griffinベース^[29]。
Gemma 2	2024年6月27日	2B, 9B, 27B	8192	非対応	27Bはウェブドキュメント、コード、科学論文から学習。Gemma 2 9Bは27Bから蒸留。Gemma 2 2Bは未リリースの7Bモデルから蒸留。グループクエリアテンション (Grouped-Query Attention) を使用^[30]。
PaliGemma	2024年7月10日	3B	8192	画像	テキストと画像を入力として受け取り、テキストを出力する視覚言語モデル。SigLIP-So400m画像エンコーダとGemma v1.0 2Bを接続して作成^[31]^[32]。
PaliGemma 2	2024年12月4日	3B, 10B, 28B	8192	画像	SigLIP-So400mとGemma v2.0 2B、9B、および27Bを組み合わせて作成。より多くの視覚言語タスクが可能^[33]^[34]。
Gemma 3	2025年3月12日	270M, 1B, 4B, 12B, 27B	32K(270M / 1B) / 128K	画像	全モデルが蒸留により学習。事後学習は数学、コーディング、チャット、指示追従、多言語（140言語対応）に重点。関数呼び出しが可能。270M、1Bは視覚機能非対応^[12]^[35]^[36]。
Gemma 3n	2025年6月26日	E2B, E4B	32K	画像・音声	スマートフォン、ノートパソコン、タブレットなどのデバイスでの実行に最適化された小型モデル。Matryoshka Transformer（MatFormer）構造を採用。PLE（Per-Layer Embedding）キャッシュや条件付きパラメータ読み込みにより、メモリ使用量と計算コストを削減可能。^[14]
TranslateGemma	2026年1月15日	4B, 12B, 27B	2K^[37]	画像	Gemma 3をベースにGeminiからの蒸留（SFT/RL）で構築された翻訳特化モデル。55以上の主要・低リソース言語に対応。画像内のテキスト翻訳機能も保持している。^[27]
Gemma 4	2026年4月2日	E2B, E4B, 26B A4B, 31B	128K(E2B/E4B) / 256K	画像・動画・音声(E2B/E4B)	推論（思考）モードを標準搭載したマルチモーダルモデル。動画はフレームとして処理。ハイブリッドアテンション（スライディングウィンドウ＋グローバル）を採用。26B A4BはMoEモデル。E2B/E4Bのみ音声入力に対応。^[15]

注：オープンウェイトモデルは、推論時にコンテキスト長を再スケーリングできる。Gemma 1、Gemma 2、PaliGemma、およびPaliGemma 2では、コスト（KVキャッシュのサイズ）は、コンテキスト長に比例して増加する。Gemma 3では、ローカルアテンションとグローバルアテンションの分離により、成長曲線が改善されている^[17]。RecurrentGemmaでは、2048トークン後のメモリ使用量は変わらない^[29]。

概要

アーキテクチャ

公式派生モデル

参考文献

外部リンク

Related Articles