Metaが既存の生成AIにあるトークン制限をはるかに上回る100万トークン超のコンテンツ生成を可能にする次世代AIアーキテクチャ「Megabyte」を発表

2023年5月25日 21時0分

MetaのAI研究チームが、100万トークンを超えるテキストや画像、オーディオ形式などのコンテンツを生成できる可能性を持つ「Megabyte(メガバイト)」のアーキテクチャを提唱しました。GPT-4やBardなどのAIモデルの基盤となっているアーキテクチャは「Transformer」ですが、MegabyteをAIモデルに採用することで、より高度で熟練したAIモデルの開発が可能になるとMetaは主張しています。

[2305.07185] MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers

https://doi.org/10.48550/arXiv.2305.07185

Meta AI Unleashes Megabyte, a Revolutionary Scalable Model Architecture - Artisana

https://www.artisana.ai/articles/meta-ai-unleashes-megabyte-a-revolutionary-scalable-model-architecture

OpenAIが開発を行うGPT-4などの高性能な生成AIモデルは、ユーザーによる複雑な入力を理解し、長い文章を生成するのに役立つTransformerアーキテクチャをベースとして開発が進められています。しかし、MetaのAI研究チームは「Transformerアーキテクチャには2つの制限がある」と指摘しています。AI研究チームの指摘する制限のひとつが、ユーザーによる入力とAIモデルによる出力が長くなるにつれて、Transformerアーキテクチャでは計算量が多くなり、「トークン量の多いシーケンスを効率的に処理することが困難になっていく」という点です。

もうひとつの制限は、言語モデルが一連の数学的演算と変換を通じて単語を理解・処理するのを助ける「フィードフォワード・ニューラルネットワーク」が、Transformerアーキテクチャでは文字のグループごとに独立して単独動作するため、結果として計算量が多くなり、トークン量の多いシーケンスの処理が困難になってしまうという点です。

これらの要因から、現状のTransformerアーキテクチャは、トークン量の多い入出力を効率的に処理するという点で限界に達している可能性が指摘されています。そこでMetaのAI研究チームは、これらの限界に対処し、コンテンツ生成の新たな可能性を引き出すことに焦点を当てたAIアーキテクチャの開発を行いました。

Metaが開発したMegabyteは、入出力に関連するシーケンスを個々のトークンではなく、「パッチ」ごとに分割する独自のシステムを採用しています。各パッチはローカルなAIモデルによって処理され、その後グローバルなAIモデルがすべてのパッチを統合して最終的な出力を行います。

Megabyteのアプローチは、現状のAIモデルが直面している課題に対処するものだとされており、単一のフィードフォワード・ニューラルネットワークが複数のトークンを含むパッチで並行して動作することで、これまでの課題を克服できると考えられています。

トークンではなくパッチベースでシステムを構築することで、計算を逐次行う従来のTransformerアーキテクチャとは異なり、Megabyteでは計算を並列して行うことが可能です。並列処理を行うことで、Megabyteを搭載したAIモデルのパラメーターが多い場合でも、TransformerアーキテクチャベースのAIモデルよりも大幅な効率化が実現できます。

研究チームが行った実験では、パラメーター数が15億だったMegabyteは、パラメータ数が3億5000万のTransformerモデルよりも約40％速くシーケンスを生成できることが示されました。

さらに、GPT-4では3万2000トークン、Anthropicのテキスト生成AI「Claude」では10万トークンが生成の上限だったのに対し、Megabyteモデルでは、120万トークンを超えるシーケンスを処理できることが明らかになりました。120万トークンを処理可能なMegabyteモデルは、コンテンツ生成の新たな可能性を開き、現在のAIモデルの限界を超えるアーキテクチャになることが期待されています。

OpenAIのリードAIエンジニアであるアンドレイ・カーパシー氏はMegabyteに対して「大規模言語モデルにおけるトークン化を廃止できるという点で、Megabyteは有望です」と述べています。さらに「ChatGPTは創造的な執筆や要約などのタスクに優れている一方、要約された文章を復元するなどのタスクを苦手とするのは、トークン化が要因です」と報告しています。

Promising. Everyone should hope that we can throw away tokenization in LLMs. Doing so naively creates (byte-level) sequences that are too long, so the devil is in the details.

Tokenization means that LLMs are not actually fully end-to-end. There is a whole separate stage with… https://t.co/t240ZPxPm7— Andrej Karpathy (@karpathy) May 15, 2023

MetaのAI研究チームは、Megabyteアーキテクチャが画期的な技術であることを認めつつも、最適化のためには他の手段がある可能性を示唆しています。テクノロジー系ニュースメディアのArtisanaは、「パッチ技術を採用したより効率的なエンコーダモデルや、シーケンスをより小さなブロックに分解するためのデコードモデルなどの分野において、従来のTransformerアーキテクチャの機能を拡張して、次世代のモデルに対応できる可能性があります」と述べています。