言語モデルのChatGPTや画像生成AIのDALL·Eを手がけるAI研究所のOpenAIは、AI技術の悪用を防ぎ社会に友好的な形で発展させることを目的に、サム・アルトマン氏やイーロン・マスク氏らが2015年に発足させた非営利組織です。そんなOpenAIの創始メンバーに名を連ねるイルヤ・サツキヴァー氏が、AIをオープンにするという設立当初の理念は誤りだったと、IT系ニュースサイト・The Vergeのインタビューの中で語りました。

OpenAI co-founder on company’s past approach to openly sharing research: ‘We were wrong’ - The Verge

https://www.theverge.com/2023/3/15/23640180/openai-gpt-4-launch-closed-research-ilya-sutskever-interview



OpenAIは2023年3月14日に、ChatGPTに使われる言語モデルの最新版である「GPT-4」をリリースしました。司法試験上位10%の成績を収め、視覚障害者を装ってチューリングテストを突破するなど、その性能や柔軟性で早くもAIコミュニティを騒然とさせているGPT-4ですが、AIの専門家や研究者からはGPT-4に関する情報公開が不十分だという失望の声も上がっています。

AI企業・Nomic AIで情報デザイン担当ヴァイスプレジデントを務めるベン・シュミット氏によると、AIが持つバイアスや誤りを点検したり修正したりするのには、トレーニングデータの公開が必要不可欠だとのこと。

しかし、OpenAIはGPT-4の構築に用いたデータセットやトレーニング方法については非公開としており、この点についてシュミット氏は「OpenAIはGPT-4を紹介する論文で、『トレーニングセットの内容については何も開示しない』と堂々と宣言しています」と指摘しました。



シュミット氏が引用した(PDFファイル)テクニカルレポートの中で、OpenAIは「GPT-4のような大規模モデルの競争環境と安全性の両方を考慮し、このレポートにはモデルサイズを含むアーキテクチャ、ハードウェア、トレーニング計算、データセット構築、トレーニング方法、または同様のものに関する追加の詳細情報を記載しません」と記しています。

OpenAIの決定に批判が集まる中、The Vergeのインタビューに応じたOpenAIのチーフサイエンティスト兼共同創業者のイルヤ・サツキヴァー氏は、「競争」と「安全性」を理由にGPT-4のトレーニングデータを非公開にした選択は「自明だった」と説明します。

まず、AI分野での開発競争についてサツキヴァー氏は「GPT-4は、開発が容易ではありませんでした。これを作るのに、OpenAIのほぼ全員が協力して非常に長い時間をかけていますが、同じものを作りたい企業はほかにたくさんあります。それだけ、競争面でこの分野が成熟してきていると言えるでしょう」と述べました。

サツキヴァー氏はまた、安全性の観点からも「これらのモデルは非常に強力ですが、今後はさらに強力になります。いずれ、これらのAIを使って他者に多大な損害を与えることが、いとも簡単にできるようになるでしょう。このため、AIの能力が高くなるにつれて、それを公表したくないと思えるようになるのです」と話しました。



AIをクローズドなものにするというアプローチは、オープンなAI研究を目指して設立されたOpenAIにとって大きな方針転換となります。他ならぬサツキヴァー氏も、OpenAIが発足した2015年12月のブログ記事で「非営利団体としての私たちの目的は、株主ではなくすべての人のために価値を構築することです」と記しています。

AI研究を共有するという当初の姿勢を変えた理由について追及したThe Vergeに対し、サツキヴァー氏は「私たちは、完全に間違っていました。もし皆さんが、私たちと同じようにAIやAGI、つまり汎用(はんよう)人工知能が信じられないほど強力になると信じるのであれば、オープンソースにするのは無意味で悪いアイデアです。数年もすれば、AIをオープンソース化するのは賢明ではないということが、誰の目にも明らかになると思います」と答えました。

OpenAIがGPT-4の詳細を非公開にするもうひとつの理由として指摘されているのが、法的責任です。言語モデルは膨大なテキストデータでトレーニングされますが、そうしたデータのほとんどはウェブスクレイピングによりインターネットからかき集められたものであるため、著作権で保護されたものがデータセットに含まれている可能性があります。これは、言語モデルだけでなく絵画やイラストを学習した画像生成AIにも共通する問題です。

これについて問われたサツキヴァー氏は、「私の見解では、トレーニングデータはテクノロジーです。そうは見えないかもしれませんが、そうなのです。そして、トレーニングデータを公開しない理由はパラメータ数を公開しない理由とほぼ同じです」と答えました。しかし、OpenAIのトレーニングデータに著作権侵害によるものはあるかどうかという質問には、答えませんでした。

AIが急速に発展しつつある中、大手IT企業は自社製品にAIを取り込むことを急いでおり、しばしば安全や倫理に関する議論が置き去りになります。例えば、対話型AIのBing ChatはGPT-4がベースになっていることを明かしたMicrosoftは2023年3月に、AI技術に関するリスクの研究を専門としていた社内チームを解雇しています。

Microsoftが「AI技術のリスクを警告するチーム」をクビにしたことが判明 - GIGAZINE



イギリスのシンクタンク・The Centre for Long-Term ResilienceでAI政策を担当するJess Whittlestone氏は、GPT-4の詳細を共有しないというOpenAIの決定に一定の理解を示す一方、AIが中央集権化されることには懸念があるとも指摘しています。

Whittlestone氏は、The Vergeに対して「AIを公開するかどうかの選択は、個々の企業に委ねるべきではないでしょう。理想的には、独立した第三者が大きな役割を担い、モデルのリスクやそれを世界に公開することが理にかなっているかどうかを精査する必要があると考えています」と述べて、AI技術の規制には企業を超えた枠組みが必要であるとの見方を示しました。