Video: OpenAI via X

OpenAIが新たなAIツール「Sora」を発表しました。

Soraは、文章入力で動画を作成できるAIツールです。発表と同時に、Soraで生成されたサンプル動画がたくさん公開されていますが…これは世の中がすんごいことになる…。

非常にリアルな動画があがっており、驚き、感嘆、脅威、いろんな感情がグルグルしてしまう出来栄えです。

Soraとは?

Soraは、ユーザーがどんな動画が欲しいのか、テキストで伝えることで動画を生成します。つまり、動画の素材をこちらが準備する必要がないということ。出力される映像は、アニメか実写かスタイルを選ぶことができます。

今すぐ試してみたいSoraですが、現在はまだ一般公開前。一部のリサーチャーやクリエイターのみに先行公開されています。Soraがいつ一般公開になるかは明かされていません。

OpenAIのブログではこう解説されています。

「Soraは、複数のキャラクター、特定の動き、背景の正確なディテールを含む複雑なシーンを生成することができます」

「(AI)モデルは、ユーザーがプロンプトから何を欲しているのかだけでなく、物理世界にそれがどう存在するのかも理解することができるのです」

OpenAIといえば、ChatGPTやDall-Eで知られていますが、AI動画生成ツールは今回が初めて。

Sora生成動画が続々公開

百聞は一見にしかず。これがSora映像です。

OpenAIのウェブサイト・公式Xアカウントで、生成動画事例と一緒にプロンプトも公開されています。

雪山を歩くマンモス

塩砂漠を歩く宇宙飛行士、35フィルム調

キャンドルを興味津々に見つめるフワモコモンスター、3Dアニメ調

東京のネオン街をあるく黒いレザージャケットの女

事例は他にもまだまだたくさん。

苦手なこともある

事例動画を見ると鳥肌がたつ出来栄えですが、Soraには弱点もあります。

OpenAIいわく、Soraは原因と結果、つまり物事の前後を理解することができません。その結果、例えば女の子がクッキーを食べるシーンで、“かじったあとのクッキーも歯形なしのまんまる状態”というブレが発生する可能性があります。また、空間を認識するのも苦手で、上下左右を表現するのが難しいのだとか。

今回、事例としてあがっているのは、アーリーアクセスしている“手慣れた人々”が制作したものだということも忘れてはいけません。すごくいいプロンプトのもと出来上がったやつってことですね。Xで公開されているプロンプトがそもそも達者ですもん。

アーリーアクセスで生成されたもの中には、以下のように惜しいなってものもあります。

砂漠からプラスチックの椅子を発掘する考古学者たち

人間の描写は素晴らしいのですが、椅子を発掘するという謎シーンに戸惑ったのかな。

拡散モデル型のSora

NvidiaのシニアリサーチャーJim Fan氏は、「Soraは、Dall-Eのような画像生成とは一線を画す」とXで解説。いわく、データドリブンな物理エンジンであり、ユーザーのリクエスト状況での物理的現象を理解、計算し、動画をレンダリングしているのだといいます。

Soraは、拡散モデルを採用しています。これ、MidjourneyやStable Diffusionの画像・動画生成と同じ手法で、静止画をたくさん詰め込んだボヤーっとした映像をどんどん洗練させていくというもの。

ただ、同じ手法といっても、Soraの能力はライバルたちよりかなり高いようです。生成される動画は尺が長く、ダイナミック、かつスムーズです。

リアルすぎる映像に懸念

こんなにリアルにできちゃったら、もう何が本物で何が偽物かわからなくなるな…って誰もが思いますよね。OpenAIもそこは理解しています。

一般公開をする前に、ヘイトや誤情報コンテンツの専門家と協力し、対策をこうじていくといいます。Sora生成コンテンツの識別ツールも開発中。

去年は、トランプ前大統領の逮捕シーンやローマ教皇の白ダウンジャケットの偽画像がおおいに話題になりました。今年もすでに、テイラー・スウィフトさんのAI生成エロ画像に、バイデン大統領の偽音声コールと、ディープフェイクによる問題はつきません。

Soraの能力に感動するとともに、OpenAIのディープフェイク対策も注目されるべきでしょう。