Microsoftは検索エンジンのBingで、これまでGoogleが開発した機械学習モデルの「Transformer」を採用してきました。しかし、Transformerに限界が訪れたとして、大規模言語モデル(LLM)と小規模言語モデル(SLM)の組み合わせに移行すると発表しています。さらに、ワークフローにNVIDIAが開発している「TensorRT-LLM」を統合することで、検索の最適化も実施すると発表しています。

Bing's Transition to LLM/SLM Models: Optimizing Search with TensorRT-LLM

https://blogs.bing.com/search-quality-insights/December-2024/Bing-s-Transition-to-LLM-SLM-Models-Optimizing-Search-with-TensorRT-LLM



文章に含まれる単語のように、連続したデータの関係を追跡することで、文脈ひいては意味を学習するニューラルネットワークが「Transformer」です。TransformerはMicrosoftのBingにも活用されてきましたが、検索クエリの複雑さが増すにつれ、より強力なモデルが必要になってきたそうです。

そこで、MicrosoftはTransformerからLLMとSLMの組み合わせに移行することを発表しました。Microsoftは「LLMは提供コストが高く、速度も遅くなる傾向があるため、効率性を向上させるために検索クエリをより正確に処理・理解できるSLMを組み合わせた」と説明しています。

これに加えて、LLMの主な課題のひとつである「レイテンシー(遅延)」と「コスト管理」の問題に対処するため、NVIDIAのTensorRT-LLMをワークフローに統合することで、SLMの推論パフォーマンスを最適化したことも発表しています。TensorRT-LLMを活用している機能のひとつが、Bingの「Deep Search」です。Deep Searchは、大規模言語モデルのGPT-4を用いてユーザーがBingに投げかけた検索クエリを拡張し、質問に関連するいくつかの答えを提供することができるという機能。Deep Searchでは、SLMを活用することでBingユーザーに可能な限り最適なウェブ検索結果を提供するそうです。

Deep Search Experience - YouTube

この体験には、ユーザーのクエリの意図を理解し、ウェブ検索結果の関連性と品質を確保するなど、いくつかのステップが含まれます。SLMは複数のステップを実行するのに時間がかかるため、できるだけ早く検索結果を表示するための高速化が必要です。Microsoftによると、TensorRT-LLMを活用することで結果の品質を犠牲にすることなく、モデルの推論時間を短縮し、結果としてエンドツーエンドのエクスペリエンスのレイテンシーを短縮することができるとのこと。

TensorRT-LLMは、NVIDIA A100でLLMをホストおよび実行しています。TensorRT-LLMによる最適化前、元のTransformerモデルの95パーセンタイルレイテンシーはバッチあたり4.76秒、インスタンスあたりのスループットは1秒あたり4.2クエリでした。なお、各バッチは20クエリで構成されます。これに対して、TensorRT-LLMを統合したところ、95パーセンタイルのレイテンシーがバッチあたり3.03秒に短縮され、インスタンスあたりのスループットが1秒あたり6.6クエリに向上しています。これにより、検索結果が速くなりユーザーエクスペリエンスが向上するだけでなく、LLMを実行するための運用コストが57%削減されることも判明しました。

TensorRT-LLMはSmoothQuantと呼ばれる方法を採用することで、ネットワークの精度を維持しながらアクティベーションと重みの両方にINT8を使用して、推論を実行するそうです。

TensorRT-LLMに移行することで得られるメリットは以下の通り。

より高速な検索結果:最適化された推論により、ユーザーはより高速な応答時間を享受でき、検索エクスペリエンスがよりシームレスかつ効率的になります。

精度の向上:SLMの機能が強化されたことで、より正確でコンテキストに沿った検索結果を提供できるようになり、ユーザーが必要な情報をより効果的に見つけられるようになりました。

コスト効率:LLMのホスティングと実行にかかるコストを削減することで、さらなる革新と改善に投資し続けることができ、Bingが検索テクノロジーの最前線に留まることが保証されます。

なお、Microsoftは今後の展望として「検索テクノロジーの革新と改良を続けながら、ユーザーに可能な限り最高のエクスペリエンスを提供することに注力しています。LLMおよびSLMへの移行と TensorRT LLMの統合は、ほんの始まりにすぎません。当社は将来の可能性に興奮しており、さらなる進歩を皆さんと共有できることを楽しみにしています」と述べました。