OpenAIは多様なAI機能をAPIを介して展開しており、音声データを文字起こししてテキストデータとして出力するAPIも提供しています。この文字起こしAPIについて、ソフトウェアエンジニアのジョージ・マンディス氏が「音声データを2倍速か3倍速にすると、品質を損なうことなくコストを抑えられる」と報告しています。

OpenAI Charges by the Minute, So Make the Minutes Shorter • George Mandis

https://george.mand.is/2025/06/openai-charges-by-the-minute-so-make-the-minutes-shorter/

OpenAIの文字起こしAPIの利用料金は以下の通り。入力トークン数100万ごとの料金は高性能な「gpt-4o-transcribe」が6ドル(約864円)で、控えめな性能の「gpt-4o-mini-transcribe」は3ドル(約432円)です。また、音声データ1分当たりの推定コストは「gpt-4o-transcribe」が0.006ドル(約0.86円)で、「gpt-4o-mini-transcribe」は0.003ドル(約0.43円)です。つまり、OpenAIの文字起こしAPIは音声データの再生時間を短くしてトークンを少なくするほど安く使えるというわけです。



Whisperの場合、トークンごとではなく時間ごとに料金が設定されており、音声データ1分ごとに0.006ドル(約0.86円)で使えます。Whisperも再生時間を短くするほど安く利用可能です。



音声データに含まれる内容を保ったまま再生時間を短くするには、「発言ごとの間などの不要部分をトリミングする」という方法もありますが、マンディス氏は「トリミングせず2倍速や3倍速に加工する」という方法で文字起こし品質を損なわずにコストを削減することに成功しました。

マンディス氏はもともと「約40分間の講演の音声データ」を文字起こしするつもりでしたが、1倍速の状態ではトークン数が多すぎて文字起こしできなかったとのこと。そこでffmpegを使って音声データを2倍速に加工して文字起こしした結果、安価かつ高品質な文字起こしが可能であることに気付いたそうです。

「約40分間の講演の音声データ」を2倍速や3倍速に加工した際のトークン数と料金をまとめた表が以下。

○倍速再生時間トークン数入力コスト出力コスト1倍速2372秒入力不可入力不可入力不可2倍速1186秒1万18560.07ドル(約10.09円)0.02ドル(約2.88円)3倍速791秒79040.04ドル(約5.76円)0.02ドル(約2.88円)

2倍速と3倍速では品質を損なわずに文字起こしが可能でしたが、4倍速に加工して文字起こしすると品質が急激に悪化し、同じフレーズを何度も繰り返し出力するようになってしまいました。



上記の検証結果から、マンディス氏は「OpenAIの文字起こしAPIを使う際は、音声データを2倍速か3倍速に加工するとコストを抑えられる」と結論付けています。