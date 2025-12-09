AI generated image of the author © Sora

おもしろ動画にこれだけの電力を使っているとは。

最近ちょっと時間ができた時に一番にしたこと、それはSoraアプリのダウンロードでした。大好きな子どもや妻と話す時の優しい自分の声をアップロードして、Soraのプロフィールに追加しました。SoraのCameo機能で、老人ホームで暮らす高齢者100人にペイントボールで撃たれる自分という、くだらない動画を作りたかったからです。自分は一体なにをしてるんだって思いつつも。

動画はこちら

SoraアプリはSora 2というAIモデルで動作していて、正直な感想を言うとかなり衝撃的。動画の質は平凡なものから恐怖系まで、ありとあらゆる種類の動画を生成できます。膨大なエネルギーとデータを吸い込むブラックホールのようなものであると同時に、疑わしいコンテンツを生み出す場所でもあります。最近のいろいろなAIと同じように、Soraを使うときなんとなく後ろめたい気持ちになってしまうんです。それがなぜなのか自分でもよくわからないのですが。

もしこれからSoraで動画を作ってみようかなと思っている方には申し訳ないのですが、これからお伝えする内容はすべてよくない内容になってきます。この記事を読むと、たぶん少し気まずく、そして罪悪感を抱いてしまうかもしれないです...。

Soraで使う電力量

CNETによると、Soraで動画を1本生成するのに使われる電力はおよそ90Whだとされています。この数値はAI分野のGitHubとも呼ばれるHugging Faceが実施したGPUのエネルギー使用に関する研究を基にした値となっています。

OpenAIはこの研究に必要な具体的な数字を公表していないので、Soraの電力消費は類似モデルから推測するしかありません。なお、この研究をおこなったHugging Faceの研究者Sasha Luccioni氏はMIT Technology Reviewの取材に対して、「噂に基づいた数字を逆算しようとするのはやめるべきだ」と述べ、OpenAIなどの企業に正確なデータを公開するよう圧力をかけるべきだと話しています。

いずれにせよ、ジャーナリストによって値は異なってきます。たとえばですが、ウォール・ストリート・ジャーナルは20〜100Whとしています。

CNETは90Whというのは、65インチのテレビを37分つけておくのと同じとしていて、ウォール・ストリート・ジャーナルは、屋外用電気グリルでステーキを生からレアに調理するのと同じだとしています（屋外用電気グリルってあるんだ...）。

これを説明するとちょっと嫌な気分になってしまうかもしれませんが、まずここで述べているのは、入力されたプロンプトに応じてモデルを「動かす」ための電力消費だけだということです。Soraモデルを学習させるには、どれだけ電気を使ったのかは不明ですが、間違いなくとんでもない量の電力が必要だったはずです。たとえばGPT-4は5万メガWhを要したと推定されています。これは大都市サンフランシスコ全体を72時間稼働させるのと同じ電力だと言われています。動画モデルのSoraの学習はそれ以上だったはずですが、正確な数値は不明です。

ちょっと見方を変えると、動画を生成する以前にもうすでにモデルの学習にかかるコストの一部を私たちが引き受けているとも言えます。

また、AIが使う電力のことを考えるなら、「学習に使われた電力」と「あなたが動画を作るときに使われる電力」を分けて考える必要があります。高いエネルギーコストを使う学習の部分はすでに起こってしまったことです。これは、今注文したハンバーガーのために牛が数週間前にすでに屠殺されていて、注文した後で植物肉に変えても生き返らないのと同じ。つまり、AIを動かすのは、すでに時間もお金もかけて仕込んだ料理に、あなたが「じゃあ仕上げお願いします」と言うようなものです。仕込みのコスト（学習）はもうどうにもなりませんが、仕上げの工程（動画生成）は、今まさに追加の手間とエネルギーをかけさせている、というわけです。

では、その動画生成の部分の話をします。データセンターは冷却のために大量の水を使用します。閉ループ方式の場合もあれば、蒸発させる方式の場合もあります。あなたが「友達をアメリカン・アイドルのコンテストである楽曲をおならで演奏する人にする動画」を作っても、どのデータセンターが使われたのかはわかりません。

Soraで使う水量

ですが、おそらくみなさんが想像するよりもかなり多くの水が使われているのは間違いありません。OpenAIのサム・アルトマンは、「ChatGPTのテキスト問い合わせ1回でおよそ小さじ1/15の水を使う」と述べています。そしてCNETは、動画生成はテキスト生成の2000倍のエネルギーコストがかかると説明しています。単純計算すると、644ミリリットル、つまりコーラのペットボトル1本分より少し多いくらいの量になります。

もちろん、これはアルトマンの数字をそのまま信じた場合の話で、実際にはもっと多い可能性があります。また、エネルギーの場合と同様、学習にかかった水と動画生成にかかる水は別物です。つまり、Soraを使うことは水資源にかなりのダメージを与えているということになります。

悪意のあるディープフェイクが作られる可能性

Soraのカメオのプライバシー設定は強力です。それをしっかり把握して、適切に設定していれば、です。「これを利用できる人物」の設定を「全員」にすると、あなたの顔は誰にでも自由に使われてしまうことになります。

また、「カメオの設定」で、動画内で他人にどう見えるようにしたいかを言葉で指定することもできます。「引き締まった筋肉質」「常に鼻をほじっている」など、好きなように設定できます。さらに、絶対に見せたくない姿や行動も指定できます。ベジタリアンの人なら、「ベーコンを食べる姿は見せない」と書くことも可能です。

他人に使わせない設定にしていても、自分のカメオ生成の際に自分で追加の設定ができるのは少し安心材料になりますね。

一方で、Sora全体のコンテンツガードレールは完璧ではありません。OpenAIが公開しているSoraのモデルカードによると、強引なプロンプトによって不快な動画が生成されてしまうこともあるみたいです。

モデルカードには、各種コンテンツフィルターの成功率が95〜98%とあります。しかしこれは裏返せば、性的ディープフェイクが1.6%、暴力・流血が4.9%、政治的操作が4.48%、極端主義やヘイトが3.18%の確率で生成される可能性があるということになります。これは、ルール破りのプロンプトでガードレールを破ろうとする「敵対的プロンプト」で算出されています。

つまり、性的・暴力的なディープフェイクを作られる可能性は低いとはいえ、OpenAIは決してゼロだとは言っていないということです。

あなたがウンチを触っている動画を作られるかもしれない

私がやってみたテストでは、Soraのコンテンツフィルターはほとんど謳われているとおりに機能していました。モデルカードに書かれているような失敗もありませんでした。100回くらいプロンプトを工夫して性的コンテンツを生成させるよう仕向けたなんてこともしていません。裸のカメオを作ろうとすると「コンテンツ違反」と表示されて、動画は生成されませんでした。

しかし、もっと弱いフィルタリングでほぼ無制限に生成されてしまう種類の不快なコンテンツもありました。具体的には、Soraはスカトロ系の内容のフィルターにとても弱いようで、性やヌード関連の方針に抵触しない限り、スカトロ系の動画を普通に生成してしまいます。

そうなんです、実際に私がSoraで人間がウンチと戯れるカメオ動画を依頼したところ、簡単に生成できてしまいました。素手で便器からウンチをすくい上げるような動画です。もちろんここにアップなんかしませんが、興味があれば試してみてください。何の工夫もいりません、すぐにできてしまいます。

過去の画像生成AIでは、これを防ぐフィルターがあったんです。たとえば、Bing版DALL·Eにはちゃんとあったんですが、Soraはそのフィルターがないようです。これが大問題かと言われればそうではありませんが、まぁ正直、気持ちのいいものじゃないですよね。

あなたのおもしろ動画が誰かのバズりフェイク動画になる

Sora 2は、フェイク動画を無限に作ることができます。もう何が本物で何がフェイクなのか、ネットリテラシーが高い人でもよくわからなくなってきているのが現状です。この動画はホワイトハウスの外から撮影されたように見える映像で、AI生成のトランプ大統領が電話越しに「エプスタインファイルを公開するな」「もし俺が落ちるならお前たち全員を道連れにする」と叫んでいます。

コメントを見る限り、これを本物だと信じた人も多くいるようです。この動画の作者はSnopesの取材に「完全にAI生成であり、芸術的実験と社会的風刺のために作っただけ」と述べています。もっともらしい理由を言っていますが、実際はSNSで注目を集めるために作ったものでしょうね。

Soraでは動画を公開すると、他のユーザーもあなたの作った動画をダウンロードできます。そして好き勝手に使えるのです。あたかも本物の映像のように他のSNSに投稿することもできます。OpenAIはSoraを、ユーザーが無限にスクロールできる場所として意図的に設計しているのです。そういう場にコンテンツを置いた瞬間、文脈は失われ、その動画がどう扱われるのか一切コントロールできなくなってしまうのです。

Source: CNET, AI Energy Score, MIT Technology Review, OpenAI, Snopes