Veo (動画生成モデル)
From Wikipedia, the free encyclopedia
|
Veo 3によって生成されたフクロウとアナグマの動画 | |
| 開発元 | Google DeepMind |
|---|---|
| 初版 | 2024年5月 |
| 最新版 |
Veo 3.1
/ 2025年10月15日 |
| 種別 | Text-to-videoモデル |
| 公式サイト |
deepmind |
| 人工知能 |
|---|
|
|
Veo(またはGoogle Veo)は、Google DeepMindによって開発され、2024年5月に発表されたText-to-videoモデルである。生成AIモデルとして、ユーザーのプロンプトに基づいて動画を作成する。2025年5月にリリースされたVeo 3は、付随する音声も生成することができる。
2024年5月、Google I/O 2024にてVeoと呼ばれるマルチモーダル動画生成モデルが発表された[1]。Googleは、1分以上の1080p動画を生成できると主張した[1]。2024年12月、GoogleはVideoFX経由で利用可能なVeo 2をリリースした。4K解像度の動画生成をサポートし、物理学の理解が向上している[2]。2025年4月、GoogleはGeminiアプリの高度なユーザー向けにVeo 2が利用可能になったと発表した[3]。
2025年5月、Googleは動画を生成するだけでなく、映像に合わせて台詞、効果音、環境音などの同期した音声も作成するVeo 3をリリースした[4]。Googleはまた、VeoとImagenを搭載した動画作成ツールであるFlowも発表した[5][6]。Google DeepMindのCEOであるデミス・ハサビスは、このリリースをAI動画生成がサイレント映画の時代を脱した瞬間であると説明した[6]。
機能と制限
Google Veoは、複数のサブスクリプション階層やGoogleの「AIクレジット」を通じて購入できる。ソフトウェア自体は、Google GeminiとGoogle Flowの2つの異なるコンソールで実行できる。GeminiはGemini AIチャットモデルを使用した、より短く、より素早いプロジェクト向けであるのに対し、Google Flowは実質的に動画エディタであり、同じキャラクターや俳優を使用して連続性のある長時間のプロジェクトを作成できる。ユーザーはクリップあたり最大8秒まで作成可能である[7]。さらに、Google Labsプラットフォーム内のWhiskを使用して動画コンテンツを作成することもできる[8][9]。
Google Veoはシンプルなインターフェースとダッシュボードを備えている。しかし、文字起こしや映画制作の経験がほとんどないユーザーは、プロンプトを作成する際に問題に直面する可能性があり、ソフトウェアがユーザーの意図を誤解することがある。そのため、ソフトウェアの最前線であるプロンプトは、明確であるだけでなく具体的である必要がある。人物モデルに関しては、Veoは複数の民族や体型を生成することができる。また、スタンダップコメディのルーティン、ミュージック・ビデオ、動物、漫画、アニメーションを生成することも可能である。プロンプトには、各シーンの場所、人物、事物に加えて、パンやズームなどの映画やカメラの用語、およびカメラアングルに関する知識が必要となる[10]。
しかし、Veoのソフトウェアには厳格なガイドラインと制限が設けられている。クリップが生成される前にアルゴリズムのコンピュータソフトウェアがそれを審査し、以下のいずれかに該当する場合、クリップは生成されない。
- 不適切である
- 露骨に性的すぎる
- 違法である
- 露骨な虐待、暴行、または戦闘(プロンプトで架空の格闘技シーンなどであると指定されている場合を除く)、および著しく不快な行動を示している
- 反ユダヤ主義である
- 人種差別的である
- 同性愛嫌悪的である
- 現在の政権、暴動、血液、ゴア表現、または戦争を描写している(プロンプトで架空の時代劇であると指定されている場合など一部の例外を除く)
さらに、Google Veoは有名人や実在の人物に酷似したキャラクター俳優を生成することはできず、また生成することもない。ユーザーからの主な不満として、プロンプトがどれほど記述的で詳細であっても、Google Veoが入力内容を誤解し、全く異なる出力結果になることが挙げられている。一般的な問題としては、不正確な字幕やキャプションの模倣、最大長による複雑なシーンの不完全な生成、文字化けした意味不明な音声の生成、および外見や動きが変形したキャラクターモデルの生成などがある。また、ユーザーのプロンプトや生成されたコンテンツがガイドライン違反として誤ってフラグを立てられるという報告や、その他様々な問題や不満も寄せられている。ただし、Veoで最適な結果を得るには試行錯誤が必要となる場合がある[11]。
反響
『ギズモード』の記者はVeo 3のリリースに際し、ユーザーが街頭インタビューや商品の開封動画のような低品質なコンテンツを生成するようモデルに指示していると指摘した[12]。別のメディア評論家は、このツールが異なるプロンプトに対して同じジョークを繰り返す傾向があると報告した[13]。
評論家たちは、GoogleがYouTube動画[6]やRedditの投稿[13]でサービスを学習させたと推測した。Google自体は学習コンテンツの情報源を明かしていない[6]。
2025年7月、メディア・マターズ・フォー・アメリカは、Veo 3を使用して生成された人種差別的および反ユダヤ主義的な動画がTikTokにアップロードされていると報告した[14][15]。『Ars Technica』のライアン・ウィットワムは、「理想的な世界であれば、Veo 3はこれらの動画の作成を拒否するはずだが、プロンプトの曖昧さと、AIが人種差別的な比喩の微妙なニュアンス(例えば、一部の動画で人間の代わりに猿を使用するなど)を理解できないことにより、規則を回避することが容易になっている」とコメントした[15]。