SoraとGen-2どちらがいい？映像を徹底比較してみた

AI技術の進化は目覚ましく、特に動画生成の分野では、より自然でリアルな動きや表現が可能になっています。SoraはOpenAIによって開発され、これまでにないレベルの動画生成を実現。これまでGen-2で十分、動画生成AIの進化を体感していたと持ったら、Soraの進化は別次元での進化のような破壊力とインパクト。
この記事では、最新の動画生成AI「Sora」と従来の「Gen-2」を比較し、両者の技術的な違い、生成される動画の質、そして将来の応用可能性について深掘りしていきます。

GEN2 vs SORA
なぜSoraの生成する動画はこんなに滑らかなのか
1. 「拡散モデル」と「トランスフォーマーネットワーク」とは？
Soraの今後への期待・課題

GEN2 vs SORA

多くの説明は不要ですね。まずは御覧ください。
同じプロンプトをGen-2、Soraのそれぞれに入れ生成された動画をご紹介します。

プロンプト: 空の一片の雲の上に座る２０代の若者が、本を読んでいます。

プロンプト:

コーヒーカップの中を航行し、互いに戦う２隻の海賊船の写実的なクローズアップ

プロンプト:
数匹の巨大な毛むくじゃらのマンモスが、雪の積もった草原を歩いて近づいてきます。歩くと長い毛むくじゃらの毛が風になびき、遠くには雪で覆われた木々と劇的な雪をかぶった山々。午後の中ごろの光には細い雲と高い太陽があり、暖かい輝きを生み出します。低いカメラのアングル。大きな毛むくじゃらの哺乳動物と大地の深みを美しく捉える。

プロンプト：
輝くネオンときらめく看板で満たされた東京の通りを、スタイリッシュな女性が歩いています。彼女は黒のレザージャケット、長い赤いドレス、黒のブーツを着用し、黒いハンドバッグを持っています。彼女はサングラスと赤の口紅を身に着けています。彼女は自信を持って堂々と歩いています。道路は湿っており、反射しているため、カラフルなライトの鏡のような効果を生み出しています。多くの歩行者が歩いています。

プロンプト: マジックアワーの間に立つ２４歳の女性の目の極端なクローズアップ、マラケシュで撮影されたシネマティックな７０ｍｍフィルム、被写界深度、鮮やかな色、シネマティック。

このように、Gen-2も自然であると思っていたのが、それ以上に自然なSoraの動画。また、Gen-2同様、プロンプトが詳細な場合、生成される動画もストーリー性が高くなるようです。

なぜSoraの生成する動画はこんなに滑らかなのか

Soraは、絵を描くAI「DALL-E 3」の技術をベースにしています。
動画を作る時、動画の各フレームを「単語」のように扱って、それぞれのフレームを繋げていくことで、自然な動きのある動画を生成します。
これまでの動画生成AIと違って、Soraは「拡散モデル」と「トランスフォーマーネットワーク」を組み合わせています。これにより、より多様な解像度や長さの動画を作ることができ、動きも自然になります。

「拡散モデル」と「トランスフォーマーネットワーク」とは？

拡散モデル

拡散モデルは、生成モデルの一種で、ランダムなノイズから始めて、徐々にそのノイズをデータの分布に従う画像や動画などに変換していく方法です。
このプロセスは、ノイズを段階的に減少させることにより、最終的には意味のある画像や動画を生成します。
このモデルは、高品質な画像や動画を生成する能力があり、特に細部までリアルなテクスチャやパターンを再現するのに優れています。

トランスフォーマーネットワーク

トランスフォーマーネットワークは、自然言語処理（NLP）に革命をもたらした深層学習のアーキテクチャです。
このモデルは「アテンション機構」を用いて、入力されたデータの中から関連性の高い情報を抽出し、それを元に次の出力を生成します。トランスフォーマーは、文の中の各単語（またはデータの各部分）が他の部分とどのように関連しているかを学習することができ、これにより、文脈を理解しやすくなります。
尚、「アテンション機構」とは、AIが情報を処理する際に、特に重要な部分に集中する仕組みのことです。人間が文章を読むとき、すべての単語に同じくらいの注意を払うわけではなく、意味を理解するのに重要なキーワードに目が行くように、アテンション機構もAIにその能力を与えます。
これにより、AIは大量の情報の中から重要な部分を見つけ出し、タスクに応じて最適な反応をすることができるようになります。
アテンション機構により、モデルはより人間に近い方法で情報を処理し、理解することが可能になり、結果として、より自然な言語の生成や理解、画像認識などが実現しています。

Soraでの応用

Soraでは、これら二つの技術を組み合わせることで、テキストから自然な動きを持つ高品質な動画を生成することが可能になります。
拡散モデルが画像や動画の細部をリアルに再現する能力を提供し、トランスフォーマーネットワークが動画全体のコヒーレンスと文脈の理解を深めます。
この組み合わせにより、従来の動画生成AIに比べて、より自然でリアルな動画を生成することが可能になり、新たな創造的な表現の幅を広げています。

Soraの今後への期待・課題

衝撃的な自然さのSoraは、映像作成におけるクリエイティブな可能性を広げると期待されています。テキストからの高品質なビデオ生成能力により、教育コンテンツの作成、マーケティングビデオの制作、エンターテインメント分野での新しい表現方法など、さまざまな用途での活用が想定されています。
一方で、フェイクビデオの潜在的な乱用に対する懸念もあり、OpenAIは安全対策を強化しています。また現時点では安定していない為、リリースについては未定です。
リリースまでには時間がかかる、またあえてGen-2の表現を好むという方も、現時点ではSoraを待ち、Gen-2と向き合うという事になりそうです。