Google Researchが発表した動画生成AIモデル「Lumiere」の革新性

Google Researchによって発表された動画生成AI「Lumiere」。
こちらも先日のOpenAIの「Sora」同様の滑らかな動きがAIの進化をまざまざと感じさえるものになっていますが、それ以外にも、これまで多くのクリエイターが多くの時間を費やしてきたであろうことを、瞬時にやってのける機能が搭載。詳しくご紹介します。

関連する記事：OpenAIが動画生成AIを発表 Soraで一気に覇権どりか？

関連する記事：進化する映像表現：SoraとGen-2の技術比較

Lumiereとは？
Lumiereはなぜできる？　スペースタイムU-Netアーキテクチャ
Lumiereのリリースはいつ？

Lumiereとは？

URL:https://lumiere-video.github.io/#section_text_to_video

ご覧ください。なんとも滑らかな動きです。先日発表された「Sora」との対比も近い楽しみです。

【できること】

Text-toVideo（文字を入れるだけで動画生成）
Image-to-Video（画像から動画生成）
　　例：絵画が笑う。手を振る。ぬいぐるみが躍る、等がおてのもの
Stylized Generation（芸術的なスタイルや特定の加工をして動画を生成）
　　例：元の画像をネオン加工、水彩画のように、等指定すると全編その通りで動く動画に
Video Stylization（既存の動画に指定したテキストの指示に基づいて動かし続ける）
　　例：元の画像に「ブロックのように、折り紙のように、花で覆われた状態」等の指示で一環した動画に
Cinemagraphs（指定したの画像の範囲だけをアニメーション化）
　　例：画像の一部だけ、動かす
Video Inpainting（かけている部分の動画を生成）
　　例：動画にない部分を動画で再生

https://youtu.be/wxLr02Dz2Sc

Image to Movieなら名画も笑顔にアレンジ可能　　Lumiere公式サイトより

Lumiereはなぜできる？　スペースタイムU-Netアーキテクチャ

Lumiereはリアルで多様かつ一貫性のある動きを持つビデオを合成することを目的として開発されています。
従来の手法では難しいとされてきた、ビデオ全体の時間的一貫性を実現するために、スペースタイムU-Netアーキテクチャが導入されています。
この「スペースタイムU-Netアーキテクチャ」が鍵です。
このアーキテクチャは、ビデオ生成や動画処理における深層学習モデルの一種です。このアーキテクチャは、2次元的な空間情報と1次元的な時間情報を同時に扱うことができるように設計されています。

通常のU-Netアーキテクチャに時間的な次元を組み込んだものであり、ビデオ内の時間的な変化や動きを考慮することができます。

U-Netは、セグメンテーションや画像生成などのタスクで使用される有名なディープラーニングアーキテクチャです。U-Netは、エンコーダーとデコーダーから構成され、エンコーダーで特徴を抽出し、デコーダーでそれらの特徴を元の画像サイズにデコードします。

スペースタイムU-Netでは、U-Netのこの構造に加えて、各フレームごとに時間軸方向に情報を伝播させることができます。
これにより、ビデオ内の動きや変化を捉えることが可能となり、ビデオ全体の時間的な一貫性を保ちながら動画を生成することができます。
このアーキテクチャは、動画合成や動画修復などのタスクにおいて、より自然で一貫性のある結果を得るのに役立っています。

Lumiereのリリースはいつ？

2024年2月22日時点では、リリースの予定は明言されていません。

Google Researchは、公式サイトで下記のように発信しています。
「社会的影響としては、初心者ユーザーが創造的かつ柔軟に視覚コンテンツを生成できるようにすることが主な目標ですが、偽造や有害なコンテンツの作成に悪用されるリスクがあり、バイアスや悪意のある使用を検出するツールの開発と適用が重要であると考えています。
これにより、安全で公正な使用を保証することを目指しています。」としています。

今後の情報が期待されます。