Microsoftの研究者は2024年1月4日、公式ブログ「Splitwise improves GPU usage by splitting LLM inference phases」において、大規模言語モデル(LLM)を使用した推論においてGPUの使用効率を向上させる「Splitwise」と名付けられたシステムについて解説した。Splitwiseでは、LLM推論を2つのフェーズした上で別のマシンに割り当て、それぞれの特性に応じて利用するハードウェアが最適になるように設計することで、ハードウェアの