はじめに
OpenAIが開発した動画生成AI「Sora」は、2024年2月15日にOpenAI社が公開したText-To-Videoモデルです。例えば、「柴犬が歩いている動画を作成してください。」と指示すると、動画を作成してくれます。「Sora」は最長1分間の動画を作成可能です。
Soraの技術的背景
Soraは「Diffusion Transformer」モデルをベースに構築されています。このモデルは、視覚データをパッチに変換し、ビデオ圧縮ネットワークを介して時空間潜在パッチを生成し、トランスフォーマースケーリングを用いてビデオを生成します。また、DALL-E3と組み合わせることで、よりリッチなビデオキャプショニングが可能になります (Romptn)。
Soraが可能にすること
テキストからのビデオ生成:
Soraはテキストプロンプトからリアルな動画を生成することができます。例えば、以下のプロンプトですごいクオリティの動画を作成してくれます!
A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.
Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq
— OpenAI (@OpenAI) February 15, 2024
画像や動画からのビデオ生成:
Soraは画像や既存のビデオを基にして、新しいビデオを生成することもできます。これにより、アニメーション作品の制作など、幅が大きく広がります。
DALL-Eで生成した画像で動画生成:
DALL-E3で生成した画像を用いて、それをベースにした動画を生成することも可能です。
公開前の安全性検証と将来性
現在、Soraは一般公開されていません。その理由の一つは、OpenAIのレッドチームによる安全性の検証が進行中であるためです。写実的なフェイク動画の悪用の可能性が懸念されていますが、将来の製品化に向けた準備も進められています。一部のクリエイターや芸術家にはすでにアクセスが許可されており、広範なフィードバックを得ることで、より安全で有用なツールへと進化させています (Romptn) (MITテクノロジーレビュー)。
まとめと未来への展望
OpenAIのSoraは、映像生成の領域において大きな飛躍を遂げようとしています。テキスト、画像、既存のビデオからリアルな動画を生成するこの革新的なAIは、クリエイティブな世界に無限の可能性をもたらすことでしょう。今後の発展とともに、Soraが映像制作の未来をどのように形作っていくのか、大きな期待が寄せられています。