Llama
Metaが開発した大規模言語モデル
From Wikipedia, the free encyclopedia
Llama(ラマ、Large Language Model Meta AI)は、Meta が開発している大規模言語モデル(LLM)および小規模言語モデル(SLM)である[4][5]。Llama は、2018年以降の言語モデリングの標準的アーキテクチャである Transformer アーキテクチャを採用している。

名称は当初はLLaMAだったが、2023年7月18日のLlama 2のリリースの際にLlamaに変更になった[6]。2025年4月5日、Llama 4がリリースされた[7]。
LLaMA (初代)
LLaMAの開発者の論文[1]によれば、LLaMAは70億パラメータ(業界の慣習でこれをBillionのBを使って「7B」と書くことがある。以下同様。)から650億パラメータ(65B)まで、いくつものサイズのモデルが作られた。LLaMA-13Bの性能は、GPT-3-175BをほとんどのNLPベンチマークで上回る。そして、LLaMA-65Bの性能は、GoogleのPaLM-540BやDeepMindのChinchilla-70Bなど、当時の最先端モデルに匹敵した。
トレーニングデータ
LLaMAの開発者は、パラメータの数ではなく、トレーニングデータの量を増やすことで、モデルの性能を上げることに注力した。 これは、トレーニングプロセスの計算コストより、トレーニング済みモデルによる推論のコストの方が支配的であるためである。
初代のLLaMAは、下記のような公開データソースから抽出した1.4兆個のトークンで学習した。
- コモン・クロールでスクレイピングしたWebページ
- GitHub のオープンソースリポジトリ
- ウィキペディア(20種類の言語)
- プロジェクト・グーテンベルクのパブリックドメインの書籍
- ArXivにアップロードされた科学論文のLaTeXソースコード
- Stack Exchangeウェブサイトの質問と回答
学習済みパラメータのリーク
LLaMAは、2023年2月24日、ブログ投稿と論文により発表された。[1]
それまでは、ほとんどの強力な大規模言語モデルは制限のある API を通じてしかアクセスできなかった。Metaは、LLaMAのモデルで学習の結果得られたパラメータを内部管理し、「世界中の学術研究者、政府・市民社会・学術機関の関係者、産業界の研究所にケースバイケースで許可」として、研究コミュニティにだけ非商用ライセンスで利用許可する方針とした。
ところが2023年3月2日、LLaMAのリリースから1週間でその学習済みパラメータが漏れ、4chan経由で拡散されてしまった[8]。
ライセンス
Llama 2のモデルのトレーニングに使用されたコードは Llama 2 Community License Agreement の下で公開されている[9]。
Llamaの公開当初より、MetaはLlama 2及び3.xをオープンソースとしていたが、月間7億アクティブ・ユーザーがいる企業の場合はMetaの利用許可の取得が必要とする[10]などの条項があるため、実態としてはソースアベイラブルである[11]。これに対しOpen Source Initiativeは「オープンソースを誤解している」として批判し、オープンソース表記を取りやめるよう求めている[12][13]。2025年11月時点では、MetaはLlamaのライセンスを「独自の商業ライセンス」と回答している[14]。
バージョン
| 名称 | リリース日 | パラメータ | 学習コスト (ペタFLOP日) | コンテキスト長 (トークン) | コーパスサイズ (トークン) | 商業利用 |
|---|---|---|---|---|---|---|
| LLaMA | 2023年2月24日 |
|
6,300[15] | 2048 | 1–1.4T | No |
| Llama 2 | 2023年7月18日[16] |
|
21,000[17] | 4096 | 2T | 部分的(制限あり) |
| Code Llama | 2023年8月24日[18] |
|
||||
| Llama 3 | 2024年4月18日[19] |
|
100,000[20][21] | 8192 | 15T | |
| Llama 3.1 | 2024年7月23日[22] |
|
440,000[23] | 128,000 | ||
| Llama 3.2 | 2024年9月25日[24] | 128,000[27] | 9T | |||
| Llama 3.3 | 2024年12月7日 |
|
128,000 | 15T | ||
| Llama 4 | 2025年4月5日[7] |
派生モデル
Llamaの派生モデルは多数あり、Hugging Faceなどでその学習済みパラメータが公開されている。
Alpaca
スタンフォード大学の基盤モデル研究センター(Center for Research on Foundation Models, CRFM)は、2023年3月13日、初代のLLaMA-7Bをファイン・チューニングした、Alpaca をリリースした[28]。Alpaca は OpenAI GPT-3.5シリーズの text-davinci-003モデルに匹敵する性能を獲得した[29]。
訓練手法は、まず175個の入出力のペアのデータを作成し、OpenAIに$500支払い text-davinci-003 を使用して52,000個の訓練データに増やし、クラウドのGPUに$100支払いファインチューニングした。これにより text-davinci-003 と同程度の性能となった。なお、OpenAIはOpenAIのモデルを使用して訓練させることを禁止している。[28]
Stability AI
Stability AIは、2023年7月21日にLLaMA-65BをファインチューニングしたStable Beluga 1を、2023年7月27日にLlama 2 70BをファインチューニングしたStable Beluga 2を公開した。[30]
ELYZA LLM for JP
ELYZA(本社:東京都文京区)は、2023年8月29日、Llama 2 7Bをベースに日本語性能を強化したELYZA-japanese-Llama-2-7bを公開[31]。2024年6月26日、Llama-3-ELYZA-JP(8Bおよび70B)を公開[32]。2024年10月25日、Llama-3.1-ELYZA-JP-70Bを公開[33]。
サイバーエージェント
サイバーエージェントは、2024年7月26日、Llama 3.1 70BをファインチューニングしたLlama-3.1-70B-Japanese-Instruct-2407を公開した[34]。