GPT¡¦Llama¡¦Grok¤Ê¤É¤µ¤Þ¤¶¤Þ¤ÊÂ絬ÌϸÀ¸ì¥â¥Ç¥ë¤Î¥¢¡¼¥¥Æ¥¯¥Á¥ã¤ò¿Þ¼¨¤·¤¿¡ÖLLM Architecture Gallery¡×

OpenAI¤ÎGPT¥·¥ê¡¼¥º¤äxAI¤ÎGrok¡¢Meta¤ÎLlama¤Ê¤É¤µ¤Þ¤¶¤Þ¤ÊÂ絬ÌϸÀ¸ì¥â¥Ç¥ë¤¬Â¸ºß¤·¤Þ¤¹¤¬¡¢¤³¤ì¤é¤Î¹½Â¤¤ò¿Þ¼¨¤·¤¿¡ÖLLM Architecture Gallery¡×¤¬¥ª¥ó¥é¥¤¥ó¤Ç¸ø³«¤µ¤ì¤Æ¤¤¤Þ¤¹¡£
LLM Architecture Gallery | Sebastian Raschka, PhD
https://sebastianraschka.com/llm-architecture-gallery/
https://magazine.sebastianraschka.com/p/the-big-llm-architecture-comparison
AI¸¦µæ¼Ô·ó¥¨¥ó¥¸¥Ë¥¢¤Ç¤¢¤ë¥»¥Ð¥¹¥Á¥ã¥ó¡¦¥é¥·¥å¥«»á¤Ï¡¢OpenAI¤¬2019ǯ¤Ëȯɽ¤·¤¿GPT-2¤È2025ǯ¤Ëȯɽ¤µ¤ì¤¿DeepSeek V3¤äLlama 4¤ò¸«Èæ¤Ù¤ë¤È¡¢¥â¥Ç¥ë¤Î¹½Â¤Åª¤ÊÉôʬ¤¬¤È¤Æ¤â¤è¤¯»÷¤Æ¤¤¤ë¤È»ØÅ¦¡£¡Ö¤³¤¦¤·¤¿ºÙ¤«¤Ê²þÎɤÎ΢¤Ç¡¢»ä¤¿¤Á¤ÏËÜÅö¤Ë²è´üŪ¤ÊÊѲ½¤òÌܤˤ·¤Æ¤¤¿¤Î¤Ç¤·¤ç¤¦¤«¡©¤½¤ì¤È¤âñ¤ËƱ¤¸¥¢¡¼¥¥Æ¥¯¥Á¥ã¤Î´ðÈפòË᤾夲¤Æ¤¤¤ë¤À¤±¤Ê¤Î¤Ç¤·¤ç¤¦¤«¡©¡×¤Èµ¿Ìä¤òÄ󵯤·¤Æ¤¤¤Þ¤¹¡£
Â絬ÌϸÀ¸ì¥â¥Ç¥ë¤Î¥Ñ¥Õ¥©¡¼¥Þ¥ó¥¹¤Ë±Æ¶Á¤¹¤ëÍ×ÁǤˤϥǡ¼¥¿¥»¥Ã¥È¤ä¥È¥ì¡¼¥Ë¥ó¥°¼êË¡¡¢¥Ï¥¤¥Ñ¡¼¥Ñ¥é¥á¡¼¥¿¤Ê¤É¤µ¤Þ¤¶¤Þ¤Ê¤â¤Î¤¬¤¢¤ê¤Þ¤¹¤¬¡¢¤³¤ì¤é¤ÏÂ絬ÌϸÀ¸ì¥â¥Ç¥ë¤Ë¤è¤Ã¤ÆÂ礤¯°Û¤Ê¤ê¡¢Â¿¤¯¤Î¾ì¹ç¤Ï½½Ê¬¤Ëʸ½ñ²½¤µ¤ì¤Æ¤¤¤Ê¤¤¤¿¤áÈæ³Ó¤¬º¤Æñ¤À¤È¤Î¤³¤È¡£
¤½¤Î¤¿¤á¥é¥·¥å¥«»á¤Ï¡¢Â絬ÌϸÀ¸ì¥â¥Ç¥ë¤Î³«È¯¼Ô¤¬¤É¤Î¤è¤¦¤Ê¼è¤êÁȤߤò¤·¤Æ¤¤¤ë¤Î¤«¤òÃΤë¤Ë¤Ï¡¢¥¢¡¼¥¥Æ¥¯¥Á¥ã¼«ÂΤι½Â¤ÅªÊѲ½¤ò¸¡¾Ú¤¹¤ë¤³¤È¤¬ÌòΩ¤Ä¤È¼çÄ¥¡£Â絬ÌϸÀ¸ì¥â¥Ç¥ë¤Î¥¢¡¼¥¥Æ¥¯¥Á¥ã¤ò¿Þ¼¨¤·¤¿¡ÖLLM Architecture Gallery¡×¤òºîÀ®¤·¤Þ¤·¤¿¡£
LLM Architecture Gallery¤Ë¤Ï¤µ¤Þ¤¶¤Þ¤ÊÂ絬ÌϸÀ¸ì¥â¥Ç¥ë¤¬·ÇºÜ¤µ¤ì¤Æ¤ª¤ê¡¢¥¯¥ê¥Ã¥¯¤¹¤ë¤È¿Þ¤ò¸«¤ë¤³¤È¤¬¤Ç¤¤Þ¤¹¡£µ»öºîÀ®»þÅÀ¤Ç¿Þ¤¬ºîÀ®¤µ¤ì¤Æ¤¤¤ë¤Î¤Ï°Ê²¼¤Î¥â¥Ç¥ë¤Ç¤¹¡£
¡¦Llama 3 8B
¡¦OLMo 2 7B
¡¦DeepSeek V3
¡¦DeepSeek R1
¡¦Gemma 3 27B
¡¦Mistral Small 3.1 24B
¡¦Llama 4 Maverick
¡¦Qwen3 235B-A22B
¡¦Qwen3 32B
¡¦Qwen3 4B
¡¦Qwen3 8B
¡¦SmolLM3 3B
¡¦Kimi K2
¡¦GLM-4.5 355B
¡¦GPT-OSS 120B
¡¦GPT-OSS 20B
¡¦Grok 2.5 270B
¡¦Qwen3 Next 80B-A3B
¡¦MiniMax M2 230B
¡¦Kimi Linear 48B-A3B
¡¦OLMo 3 32B
¡¦OLMo 3 7B
¡¦DeepSeek V3.2
¡¦Mistral 3 Large
¡¦Nemotron 3 Nano 30B-A3B
¡¦Xiaomi MiMo-V2-Flash 309B
¡¦GLM-4.7 355B
¡¦Arcee AI Trinity Large 400B
¡¦GLM-5 744B
¡¦Nemotron 3 Super 120B-A12B
¡¦Step 3.5 Flash 196B
¡¦Nanbeige 4.1 3B
¡¦MiniMax M2.5 230B
¡¦Tiny Aya 3.35B
¡¦Ling 2.5 1T
¡¦Qwen3.5 397B
¡¦Sarvam 105B
¡¦Sarvam 30B

¤¿¤È¤¨¤Ð¡ÖLlama 4 Maverick¡×¤ò¥¯¥ê¥Ã¥¯¤¹¤ë¤È¡¢¥¢¡¼¥¥Æ¥¯¥Á¥ã¤ò¼¨¤·¤¿¿Þ¤¬É½¼¨¤µ¤ì¤Þ¤·¤¿¡£¿Þ¤ò³ÈÂ礹¤ë¤Ë¤Ï¥¯¥ê¥Ã¥¯¡£

³ÈÂ礷¤¿¿Þ¤Ï¤³¤ó¤Ê´¶¤¸¡£²èÌ̱¦¾å¤Î¡ÖView in article¡×¤ò¥¯¥ê¥Ã¥¯¤¹¤ë¤È¡¢³Æ¥â¥Ç¥ë¤Ë¤Ä¤¤¤Æ¤Î¥é¥·¥å¥«»á¤Ë¤è¤ë²òÀâ¤òÆÉ¤à¤³¤È¤¬¤Ç¤¤Þ¤¹¡£

¥é¥·¥å¥«»á¤Ï¤µ¤Þ¤¶¤Þ¤ÊÂ絬ÌϸÀ¸ì¥â¥Ç¥ë¤Ë¤Ä¤¤¤Æ¡¢¤½¤Î¾¤Î¥â¥Ç¥ë¤ÈÈæ³Ó¤·¤Ê¤¬¤é¶¦ÄÌÅÀ¤ä°ã¤¤¤ò²òÀ⤷¤Æ¤¤¤Þ¤¹¡£

¤¿¤È¤¨¤ÐLlama 4¤ÏDeepSeek V3¤ÈÈó¾ï¤Ë¤è¤¯»÷¤¿¥¢¡¼¥¥Æ¥¯¥Á¥ã¤òºÎÍѤ·¤Æ¤ª¤ê¡¢¤¤¤º¤ì¤â¡ÖMixture-of-Experts(MoE)¡×¤È¤¤¤¦µ¡³£³Ø½¬¥¢¥×¥í¡¼¥Á¤òºÎÍѤ·¤Æ¤¤¤ë¤È¤Î¤³¤È¡£¼ç¤Ê°ã¤¤¤Ï¡¢Llama 4¤Ç¤ÏTransformer¥â¥Ç¥ë¤ÎÃí°Õ¥á¥«¥Ë¥º¥à¤Î¸úΨ¤ò¹â¤á¤ëÊýË¡¤È¤·¤ÆGrouped-Query Attention(GQA)¤òºÎÍѤ·¤Æ¤¤¤ë¤Î¤ËÂФ·¡¢DeepSeek V3¤Ç¤ÏMulti-Head Latent Attention(MLA)¤òºÎÍѤ·¤Æ¤¤¤ëÅÀ¤À¤È¤Î¤³¤È¡£

GPT-OSS¤ÈQwen3¤ÏÎà»÷¤·¤¿¥³¥ó¥Ý¡¼¥Í¥ó¥È¤ò»ÈÍѤ·¤Æ¤¤¤Þ¤¹¤¬¡¢¤µ¤Þ¤¶¤Þ¤Ê½èÍý¤ò¹Ô¤¦Transformer¥Ö¥í¥Ã¥¯¤Î¿ô¤¬GPT-OSS¤Ï24¸Ä¤Ç¤¢¤ë¤Î¤ËÂФ·Qwen3¤Ï48¸Ä¤È¤Ê¤Ã¤Æ¤¤¤ë¤Û¤«¡¢Ëä¤á¹þ¤ß¼¡¸µ¤Ê¤É¤Ë¤â°ã¤¤¤¬¤¢¤ê¤Þ¤¹¡£

Grok 2.5¤ÏÁ´ÂÎŪ¤Ë¤«¤Ê¤êɸ½àŪ¤Ê¹½Â¤¤ò¤·¤Æ¤¤¤ë¤â¤Î¤Î¡¢MoE¤ò¹½À®¤¹¤ë¸ÄÊ̤Υµ¥Ö¥Í¥Ã¥È¥ï¡¼¥¯(¥¨¥¥¹¥Ñ¡¼¥È)¤Î¿ô¤¬8¸Ä¤È¡¢Qwen3¤Î128¸Ä¤ÈÈæ¤Ù¤Æ¤«¤Ê¤ê¾¯¿ô¤À¤È¤¤¤¦ÅÀ¤¬ÆÃħ¤Ç¤¹¡£¿·¤·¤¤À߷פǤϤè¤ê¿¤¯¤Î¥¨¥¥¹¥Ñ¡¼¥È¤ò»ÈÍѤ¹¤ë¤³¤È¤¬¿ä¾©¤µ¤ì¤Æ¤¤¤ë¤¿¤á¡¢Grok¤Ï¸Å¤¤¥È¥ì¥ó¥É¤òÈ¿±Ç¤·¤Æ¤¤¤ë¤È¤Î¤³¤È¡£¤Þ¤¿¡¢Grok¤ÏÄɲäÎSwiGLU¥â¥¸¥å¡¼¥ë¤ò¾ï»þ²ÔƯ¤¹¤ë¶¦Í¥¨¥¥¹¥Ñ¡¼¥È¤È¤·¤Æ»ÈÍѤ·¤Æ¤¤¤ëÅÀ¤â¶½Ì£¿¼¤¤¤È¥é¥·¥å¥«»á¤ÏÀâÌÀ¤·¤Þ¤·¤¿¡£
