ネット上に流出した大規模言語モデルは自社製のものだとAI企業・MistralのCEOが確認
機械学習やAIに関するコミュニティを展開しているHugging Faceで、突然謎の大規模言語モデル(LLM)のファイルが公開されました。プロンプトの特徴から、AI企業・MistralのLLMではないかとうわさされていましたが、実際にMistralのCEOであるアーサー・メンシュ氏が、当該ファイルはMistralのものであると認めました。
An over-enthusiastic employee of one of our early access customers leaked a quantised (and watermarked) version of an old model we trained and distributed quite openly.
To quickly start working with a few selected customers, we retrained this model from Llama 2 the minute we got…— Arthur Mensch (@arthurmensch) January 31, 2024
Mistral CEO confirms 'leak' of new open source AI model nearing GPT-4 performance | VentureBeat
2024年1月28日、「Miqu Dev」というユーザーによってHugging Faceに「miqu-1-70-b」というファイルがアップロードされました。
miqudev/miqu-1-70b · Hugging Face
https://huggingface.co/miqudev/miqu-1-70b
一連のファイルはLLMのものとみられ、有志が調査を進めたところ、プロンプトの特徴が、パリのAIベンチャー・Mistralの開発した「Mixtral 8x7b」と類似していることがわかりました。Mixtral 8x7bは「2024年1月時点で利用可能なオープンソースLLMの中で最もパフォーマンスが高い」と評されています。
無料で商用利用可能な大規模言語モデル「Mixtral 8x7B」が登場、低い推論コストでGPT-3.5と同等以上の性能を発揮可能 - GIGAZINE
「miqu-1-70b」はGPT-4を上回る可能性が指摘され、機械学習の研究者から「Mistral Quantized」(Mistral量子化版)の略称ではないかという見解も示されました。
「miqu-1-70b」の素性について注目が集まる中、Mistralのアーサー・メンシュ氏は、当該LLMがMistralのものであることを認めました。
メンシュ氏によると、Mistralがアーリーアクセスを認めている企業の熱狂的な従業員の1人が、古いモデルの量子化版を公開したものだとのこと。
Mistralでは当該モデルをMetaのLLM・Llama 2から再トレーニングし、Mistral 7Bのリリース日に事前トレーニングを終えていたそうです。
本当にオープンソースのライセンスで利用&検証できる大規模言語モデル「Mistral 7B」が登場、「Llama 2 13B」や「Llama 1 34B」を上回る性能のAI開発が可能 - GIGAZINE
その後の進捗は順調だとのことで、メンシュ氏は「乞うご期待」とコメントしています。