テキスト単体、あるいはテキスト+画像で5秒の動画を作成できるAIモデル「Ovi」が誕生しました。オープンソースで公開されており、自分で環境を構築すれば無料で使用することができます。

GitHub - character-ai/Ovi

https://github.com/character-ai/Ovi



Oviで生成された動画は、以下のリンク先から確認できます。

Ovi/example_prompts at main · character-ai/Ovi · GitHub

https://github.com/character-ai/Ovi?tab=readme-ov-file

生成される動画は5秒間で、フレームレートは24fps。基本解像度は最大720×720ですが、より高い解像度の動画を生成できるアップスケーリング機能も搭載されています。

オープンソースで公開されており、自分で環境を構築することで無料で使用できるのが特徴。GPUの最小メモリ要件は32GBで、FP8に量子化したモデルなら24GBのメモリで動作します。121フレーム、720x720のビデオ生成を50段階のノイズ除去で実行した場合にかかる時間(End-to-End Time)は、早くて40秒未満です。



wavespeed.aiやHuggingFaceでも試すことができますが、各サイトの有料クレジットが必要です。

実際に試した人は「1週間ほど使っているが本当に素晴らしい。他のAI生成ツールと同様に、スロットマシンのようなもので、良い入力をしても悪い出力が出ることもあるが、十分に時間をかければ良い、あるいは使えるものが得られる。テキストから動画、テキストと画像から動画の両方で見た目も音もリアルなものをたくさん作った。テキストのみだと90年代のテレビのような画質になることもあるが、だからこそリアルに感じられる。RTX 5090を使うと5秒の動画を生成するのに約4分〜5分かかる」と話しています。

Oviは、キャラクターAIと会話できるサービスなどを提供する「character-ai」が開発したモデルです。自社開発の音声データセットを用いて5B(50億)パラメーター規模の音声ブランチをゼロから設計・事前学習し、音声生成を実現しています。

今後、より高い解像度のデータを使用して微調整し、さらに長い動画を生成できるよう取り組むとのことです。