機械学習やAIに関するコミュニティを展開しているHugging Faceで、突然謎の大規模言語モデル(LLM)のファイルが公開されました。プロンプトの特徴から、AI企業・MistralのLLMではないかとうわさされていましたが、実際にMistralのCEOであるアーサー・メンシュ氏が、当該ファイルはMistralのものであると認めました。



Mistral CEO confirms 'leak' of new open source AI model nearing GPT-4 performance | VentureBeat

https://venturebeat.com/ai/mistral-ceo-confirms-leak-of-new-open-source-ai-model-nearing-gpt-4-performance/



2024年1月28日、「Miqu Dev」というユーザーによってHugging Faceに「miqu-1-70-b」というファイルがアップロードされました。

miqudev/miqu-1-70b · Hugging Face

https://huggingface.co/miqudev/miqu-1-70b



一連のファイルはLLMのものとみられ、有志が調査を進めたところ、プロンプトの特徴が、パリのAIベンチャー・Mistralの開発した「Mixtral 8x7b」と類似していることがわかりました。Mixtral 8x7bは「2024年1月時点で利用可能なオープンソースLLMの中で最もパフォーマンスが高い」と評されています。

無料で商用利用可能な大規模言語モデル「Mixtral 8x7B」が登場、低い推論コストでGPT-3.5と同等以上の性能を発揮可能 - GIGAZINE



「miqu-1-70b」はGPT-4を上回る可能性が指摘され、機械学習の研究者から「Mistral Quantized」(Mistral量子化版)の略称ではないかという見解も示されました。

「miqu-1-70b」の素性について注目が集まる中、Mistralのアーサー・メンシュ氏は、当該LLMがMistralのものであることを認めました。

メンシュ氏によると、Mistralがアーリーアクセスを認めている企業の熱狂的な従業員の1人が、古いモデルの量子化版を公開したものだとのこと。

Mistralでは当該モデルをMetaのLLM・Llama 2から再トレーニングし、Mistral 7Bのリリース日に事前トレーニングを終えていたそうです。

本当にオープンソースのライセンスで利用&検証できる大規模言語モデル「Mistral 7B」が登場、「Llama 2 13B」や「Llama 1 34B」を上回る性能のAI開発が可能 - GIGAZINE



その後の進捗は順調だとのことで、メンシュ氏は「乞うご期待」とコメントしています。