OpenAI¤¬GPT-4¤Î»×¹Í¤ò1600Ëü¸Ä¤Î²ò¼á²Äǽ¤Ê¥Ñ¥¿¡¼¥ó¤Ëʬ²ò¤Ç¤¤¿¤Èȯɽ
GPT-4¤Ê¤É¤ÎÂ絬ÌϸÀ¸ì¥â¥Ç¥ë¤ÏÈó¾ï¤Ë¹â¤¤Àǽ¤òͤ·¤Æ¤¤¤Þ¤¹¤¬¡¢³Æ¥â¥Ç¥ë¤¬¤É¤Î¤è¤¦¤Ê»×¹Í¤ò·Ð¤Æ±þÅú¤ò½ÐÎϤ·¤Æ¤¤¤ë¤Î¤«¤Ï³«È¯¼Ô¤Ç¤¹¤éÇÄ°®¤Ç¤¤Æ¤¤¤Þ¤»¤ó¡£¿·¤¿¤Ë¡¢OpenAI¤¬Â絬ÌϸÀ¸ì¥â¥Ç¥ë¤Î»×¹Í¤òÆɤ߼è¤ë¼êË¡¤ò³«È¯¤·¡¢GPT-4¤Î»×¹Í¤ò1600Ëü¸Ä¤Î²ò¼á²Äǽ¤Ê¥Ñ¥¿¡¼¥ó¤Ëʬ²ò¤Ç¤¤¿¤³¤È¤òȯɽ¤·¤Þ¤·¤¿¡£
Extracting Concepts from GPT-4 | OpenAI
Scaling and evaluating sparse autoencoders
https://cdn.openai.com/papers/sparse-autoencoders.pdf
°ìÈÌŪ¤Ê¥½¥Õ¥È¥¦¥§¥¢¤Ï¿Í´Ö¤ÎÀ߷פ˴ð¤Å¤¤¤Æ³«È¯¤µ¤ì¤Æ¤¤¤ë¤¿¤á¡¢³Æµ¡Ç½¤Î»ÅÁȤߤòÍý²ò¤·¤¿¾å¤Çµ¡Ç½¤ò½¤Àµ¤·¤¿¤ê°ÂÁ´À¤òɾ²Á¤·¤¿¤ê¤Ç¤¤Þ¤¹¡£°ìÊý¤Ç¡¢AI¤Î³«È¯¤Ç¤Ï¡¢¡Ö¥Ë¥å¡¼¥é¥ë¥Í¥Ã¥È¥ï¡¼¥¯¤Î³Ø½¬¥¢¥ë¥´¥ê¥º¥à¡×¼«ÂΤϿʹ֤¬À߷פ·¤Æ¤¤¤ë¤â¤Î¤Î¡Ö¥Ë¥å¡¼¥é¥ë¥Í¥Ã¥È¥ï¡¼¥¯¤Î³Ø½¬¡×¤Ï¼«Æ°Åª¤Ë¼Â¹Ô¤µ¤ì¤Æ¤¤¤ë¤¿¤á¡¢´°À®¤·¤¿¥Ë¥å¡¼¥é¥ë¥Í¥Ã¥È¥ï¡¼¥¯¤Î»×¹Í¤Î»ÅÁȤߤò¿Í´Ö¤¬Æɤ߲ò¤¯¤Î¤ÏÆñ¤·¤¯¡¢½¤Àµ¤äɾ²Á¤âº¤Æñ¤Ç¤¹¡£
AI¸¦µæ¼Ô¤¿¤Á¤Ï¥Ë¥å¡¼¥é¥ë¥Í¥Ã¥È¥ï¡¼¥¯¤Î»×¹Í¤òÍý²ò¤¹¤ë¼êË¡¤Î³«È¯¤Ë¼è¤êÁȤó¤Ç¤ª¤ê¡¢2023ǯ10·î¤Ë¤Ï¥Ë¥å¡¼¥é¥ë¥Í¥Ã¥È¥ï¡¼¥¯¤ò¥Ë¥å¡¼¥í¥óñ°Ì¤Ç¤Ï¤Ê¤¯¡Öfeatures (ÆÃħ)¡×¤È¤¤¤¦Ã±°Ì¤Ë¤Þ¤È¤á¼êË¡¤¬È¯É½¤µ¤ì¤Þ¤·¤¿¡£¥Ë¥å¡¼¥é¥ë¥Í¥Ã¥È¥ï¡¼¥¯¤òÆÃħ¤´¤È¤ËʬÎह¤ë¤³¤È¤Ç¡¢¡ÖˡΧʸ¾Ï¤ËÈ¿±þ¤¹¤ëÆÃħ¡×¡ÖDNAÎó¤ËÈ¿±þ¤¹¤ëÆÃħ¡×¤È¤¤¤Ã¤¿²ò¼á²Äǽ¤Ê¥Ñ¥¿¡¼¥ó¤ò¸«¤Ä¤±½Ð¤¹¤³¤È¤¬²Äǽ¤È¤Ê¤ê¡¢¥Ë¥å¡¼¥é¥ë¥Í¥Ã¥È¥ï¡¼¥¯¤Î»ÅÁȤߤÎÍý²ò¤Ë¤Ä¤Ê¤¬¤ë¤³¤È¤¬´üÂÔ¤µ¤ì¤Æ¤¤¤Þ¤¹¡£
¥Ë¥å¡¼¥é¥ë¥Í¥Ã¥È¥ï¡¼¥¯¤ÎÃæ¿È¤òʬ³ä¤·¤ÆAI¤ÎÆ°ºî¤òʬÀÏ¡¦À©¸æ¤¹¤ë»î¤ß¤¬À®¸ù¡¢¥Ë¥å¡¼¥í¥óñ°Ì¤Ç¤Ï¤Ê¤¯¡ÖÆÃħ¡×ñ°Ì¤Ë¤Þ¤È¤á¤ë¤Î¤¬¥Ý¥¤¥ó¥È - GIGAZINE
Â絬ÌϸÀ¸ì¥â¥Ç¥ë¤¬Ê¸¾ÏÆâ¤Î³Æ¥È¡¼¥¯¥ó¤òÀ¸À®¤¹¤ëºÝ¤Ë¤Ï¡¢ËÄÂç¤Ê¥Ë¥å¡¼¥é¥ë¥Í¥Ã¥È¥ï¡¼¥¯¤Î¤´¤¯°ìÉô¤Î¤ß¤¬È¯²Ð(¿®¹æ¤òÁ÷¿®)¤·¤Þ¤¹¡£¤·¤«¤·¡¢¥Ë¥å¡¼¥é¥ë¥Í¥Ã¥È¥ï¡¼¥¯¤ÎÆÃħ¤òª¤¨¤ë¤Ë¤Ï¤´¤¯°ìÉô¤À¤±¤Ç¤Ê¤¯Á´ÂΤòª¤¨¤ëɬÍפ¬¤¢¤ê¤Þ¤¹¡£¤³¤Î¡Ö¤´¤¯°ìÉô¤Îȯ²Ð¤«¤éÁ´ÂΤòª¤¨¤ÆÆÃħ¤òõ¤·½Ð¤¹¡×¤È¤¤¤¦Áàºî¤Ï¡Ö¥¹¥Ñ¡¼¥¹¥ª¡¼¥È¥¨¥ó¥³¡¼¥À¡¼¡×¤Ë¤è¤Ã¤Æ¼Â¹Ô¤µ¤ì¤ë¤Î¤Ç¤¹¤¬¡¢´û¸¤Î¥¹¥Ñ¡¼¥¹¥ª¡¼¥È¥¨¥ó¥³¡¼¥À¡¼³«È¯¼êË¡¤Ë¤Ï¡ÖµðÂç¤ÊÂ絬ÌϸÀ¸ì¥â¥Ç¥ë¤ËÂбþ¤Ç¤¤Ê¤¤¡×¤È¤¤¤¦ÌäÂ꤬¤¢¤Ã¤¿¤È¤Î¤³¤È¡£
¿·¤¿¤Ë¡¢OpenAI¤Ï¥¹¥Ñ¡¼¥¹¥ª¡¼¥È¥¨¥ó¥³¡¼¥À¡¼¤Î³«È¯¼êË¡¤ò²þÁ±¤·¡¢GPT-4¤äGPT-2 small¤ËÂбþ²Äǽ¤Ê¥¹¥Ñ¡¼¥¹¥ª¡¼¥È¥¨¥ó¥³¡¼¥À¡¼¤òºîÀ®¤¹¤ë¤³¤È¤ËÀ®¸ù¤·¤Þ¤·¤¿¡£Æäˡ¢GPT-4¤ËÂбþ¤¹¤ë¥¹¥Ñ¡¼¥¹¥ª¡¼¥È¥¨¥ó¥³¡¼¥À¡¼¤Ç¤ÏGPT-4¤Î1600Ëü¸Ä¤ÎÆÃħ¤ò¸«¤Ä¤±½Ð¤¹¤³¤È¤¬¤Ç¤¤¿¤È¤Î¤³¤È¡£OpenAI¤ÏGPT-4¤ÈGPT-2 small¤«¤é¸«¤Ä¤±½Ð¤·¤¿ÆÃħ¤ÈÂбþ¤¹¤ë³Ø½¬¥Ç¡¼¥¿¤ò°Ê²¼¤Î¥ê¥ó¥¯Àè¤Ç¸ø³«¤·¤Æ¤¤¤Þ¤¹¡£
SAE viewer
https://openaipublic.blob.core.windows.net/sparse-autoencoder/sae-viewer/index.html#/
Î㤨¤Ð¡Öhumans have flaws(¿Í´Ö¤Ë¤Ï·ç´Ù¤¬¤¢¤ë)¡×¤È¤¤¤¦ÆÃħ¤Ï¡¢°Ê²¼¤Î¤è¤¦¤Ê³Ø½¬¥Ç¡¼¥¿¤È´ØÏ¢¤·¤Æ¤¤¤Þ¤¹¡£
¤¿¤À¤·¡¢¿·³«È¯¤Î¥¹¥Ñ¡¼¥¹¥ª¡¼¥È¥¨¥ó¥³¡¼¥À¡¼¤Ç¤âGPT-4¤ÎÆ°ºîÁ´ÂΤòʬÀϤ¹¤ë¤³¤È¤Ï¤Ç¤¤Æ¤¤¤Þ¤»¤ó¡£¤Þ¤¿¡¢ÆÃħ¤Î¸¡½Ð¤Ï¥Ë¥å¡¼¥é¥ë¥Í¥Ã¥È¥ï¡¼¥¯¤òÍý²ò¤¹¤ë1¤Ä¤Î¥¹¥Æ¥Ã¥×¤Ë²á¤®¤º¡¢¤µ¤é¤Ê¤ëÍý²ò¤Î¤¿¤á¤Ë¤Ï¿¤¯¤Îºî¶È¤¬É¬ÍפȤΤ³¤È¡£OpenAI¤Ï̤²ò·è¤Î²ÝÂê¤ò²ò·è¤¹¤ë¤Ù¤¯¸¦µæ¤ò³¤±¤ë»ÑÀª¤ò¼¨¤·¤Æ¤¤¤Þ¤¹¡£
¤Ê¤ª¡¢GPT-2 small¤Î¥¹¥Ñ¡¼¥¹¥ª¡¼¥È¥¨¥ó¥³¡¼¥À¡¼¤Î¥½¡¼¥¹¥³¡¼¥É¤Ï°Ê²¼¤Î¥ê¥ó¥¯Àè¤Ç¸ø³«¤µ¤ì¤Æ¤¤¤Þ¤¹¡£
GitHub - openai/sparse_autoencoder
https://github.com/openai/sparse_autoencoder