Microsoftは2023年3月22日、「Sparks of Artificial General Intelligence: Early experiments with GPT-4(汎用人工知能のひらめき:GPT-4による初期実験)」と題して、OpenAIの大規模言語モデル(LLM)であるGPT-4に関連する154ページの論文を発表しました。しかし、発表された論文をオリジナル版と比較すると、いろいろな内容がコメントアウトされていることが指摘されています。



論文のコメントアウトの存在を指摘したのはDV(@DV2559106965076)というTwitterユーザー。なお、当該ユーザーのツイートは記事作成時点でこの一連のツイートのみで、何者なのかはまったく不明です。

DV氏らは、論文が投稿されたarXivでLaTeXのソースコードを調べて、論文からコメントアウトされた多くの情報に気付いたそうです。



DV氏によると、GPT-4は内部名が「DV-3」であるといううわさがあり、実際に論文の第3著者の位置には「Davinci 3」の名が記されていましたが、「所属が不明確」ということでコメントアウトされています。



また、実際にはテキストや音声、画像、数式などを組み合わせて処理できるマルチモーダルであるGPT-4のことを「テキストオンリー」と表現しているほか、トレーニングにかかるコストのことも把握できていない様子がみられ、DV氏は「興味深いことに、Microsoftの研究者はGPT-4についてあまり詳しくないようです」と指摘しています。



論文の第7章「Discriminative Capabilities(判断能力)」の後半にあった7.3「Toxic Content(有害コンテンツ)」および7.4「Toxicity: Generation & Detection(毒性:生成と検出)」は丸ごと消えています。この部分では「GPT-4がプロンプトなしで有害コンテンツを生成する」という話が展開されていました。DV氏は「幸運なことに、GPT-4は既存のLLMと比べて、有害コンテンツの検出に優れています」と述べています。



DV氏は、「この資料から掘り起こすべき情報はまだまだありますが、我々はOpenAIがこの強力なAIモデルの有害性を減らすために採った未知の整列手順と、このモデルが一般公開されても大丈夫なのかという点が心配になりました」とツイートを締めくくりました。



この一件には、ソーシャルニュースサイトのHacker Newsで多くのコメントが寄せられています。

Microsoft's paper on OpenAI's GPT-4 had hidden information | Hacker News

https://news.ycombinator.com/item?id=35281527



zamnos氏によれば、論文の原題は「First Contact With an AGI System(汎用人工知能システムとのファーストコンタクト)」だったとのこと。

tysam_and氏は、うわべだけの情報を用いたクリックベイト(クリックさせることを目的として扇情的なタイトルをつけている)だと指摘し、当該ツイートにアクセスしないよう呼びかけています。

なお、max_expectation氏は、こういった事態を避けるために上司はarXiv投稿前にLaTeXのコードを整理するツールを使っていたとアドバイスしています。

GitHub - google-research/arxiv-latex-cleaner: arXiv LaTeX Cleaner: Easily clean the LaTeX code of your paper to submit to arXiv

https://github.com/google-research/arxiv-latex-cleaner