AIを使った音声圧縮で従来の圧縮を超えた圧縮率と圧縮速度を「Encodec」が実現
ガブリエル・シナエーブ氏らによるMeta AIの研究チームが、インターネットにおける音声の「圧縮」に対してAIを用いることで従来の圧縮よりもさらなる圧縮が可能である、という研究を発表しました。AIを用いた圧縮により、豊かなマルチメディア体験を楽しむことができると説明しています。
Using AI to compress audio files for quick and easy sharing
今日のインターネットにおいて「圧縮」はなくてはならない要素で、圧縮により、高品質な画像やストリーミングが可能になります。しかし、現状の圧縮技術には高速なインターネット接続と十分なストレージ容量が必要になり、高品質で中断のないインターネットは一部の人しか体験できません。
そこでMeta AIの研究チームは、AIを用いてオーディオデータを圧縮することを研究しています。AIを用いたアプローチでは、リアルタイムで音声を圧縮・伸長させ、最先端のサイズ縮小を実現することができると発表しました。今回の研究では64kbpsのMP3と比較して、約10倍の圧縮率をCD品質である48kHzサンプリングのステレオ音声で品質を落とすことなく実用化しています。
今回Meta AIが学習させ、作成した「Encodec」とよばれるAIを活用した圧縮は3つの部分から構成されています。
◆1:エンコーダー
非圧縮のデータを従来より高次元の低フレームでの表現に変換するもの。
◆2:量子化器
エンコーダーから受け取ったデータを目標とするサイズに圧縮するもの。Encodecでは、元の信号を再構築するために最も重要な情報を保持しつつ、望むサイズで出力するように訓練されているとのこと。
◆3:デコーダー
量子化器によって圧縮された信号を元の信号にできるだけ近い波形に戻すもの。Encodecでは、人間が知覚できないような変化を識別し、低ビットレートでの非可逆圧縮を可能にしているとのこと。
Encodecを用いた音声の圧縮により、1.5kbpsから12kbpsといった低ビットレート音声圧縮において最先端の結果を達成し、シングルCPUコアでリアルタイムな音声のエンコードとデコードを可能にしたと発表しています。
今後の研究として、品質を大幅に劣化させることなく、音声をさらに小さなファイルサイズに圧縮し、さらに空間的な音声圧縮についても検討する予定としています。また、ビデオの分野でもAIを用いた圧縮の研究に取り組む予定で、研究の結果、「インターネット接続の速度に関係なく、世界中の人々がより豊かで高速なオンライン体験ができるようになる可能性があります」とガブリエル・シナエーブ氏らは説明しています。