Metaの研究者が、さまざまな疑問に対して答えを教えてくれる言語モデル「Galactica」をオープンソースとして一般公開しました。Galacticaは単に関連する話題の記事や論文のリンクを答えるのではなく、投げかけられた疑問に対する回答を生成し、その回答の生成に用いた論文の引用もしっかり提示した「オリジナルの科学記事や講義ノート」を作成することができます。

Galactica Demo

https://galactica.org/

Galactica: A Large Language Model for Science

(PDF)https://galactica.org/static/paper.pdf

GitHub - paperswithcode/galai: Model API for GALACTICA

https://github.com/paperswithcode/galai

Galacticaはさまざまな研究論文や参考資料、知識ベースなど、まさに人類の科学知識を結集させたデータセットで訓練されています。Galacticaはこのすべての知識を、80GBのメモリを持つNVIDIA A100で処理できるような1200億のパラメーターモデルに圧縮しており、入力された内容に対する回答、あるいは指示された記事を一から作成します。さらにこのGalacticaの画期的な部分は、答えを考える上で解くことができない計算に直面すると、その場でプログラムを作成し、従来のコンピューターで実行するという点です。

Galacticaに質問したらどんな答えが返ってくるのかについてはGalacticaのデモで試すことができ、以下のムービーに示されている例を見るとわかります。



Galacticaに「wiki article on Multi-Head Attention(マルチヘッドアテンションについてのWiki記事)」と入力。



すると、マルチヘッドアテンションについて解説した記事が作成されました。本文内には(Vaswani et al., 2017)というように、説明の根拠として論文が引用されています。



今度は「lecture notes on DFT(DFTについての講義ノート)」と入力。



すると、「In this lecture,(この講義では)」で始まる、本当の講義ノートのような文章が生成されました。DFTにはさまざまな意味がありますが、今回は密度汎関数理論として解釈された模様。



文章だけではなく、必要な数式も文中に表示されます。



「Jupyter NotebookでRDKitを使う方法」を質問。



回答を見ると説明文だけではなく、実際に必要となるコード例も含まれています。



あるユーザーは「カリブ海に住む金色の鼻のイルカについてWiki記事を書いて」とGalacticaに指示したところ、実際にはそんなイルカは存在しないのにもかかわらず、Galacticaは「キンイロハナイルカ(学名:Cephalorhynchus eutropia)はカリブ海で発見されたイルカの一種。Cephalorhynchus属の4種のうちの1種で、チリイルカ・コマーソンイルカ・ミナミセミクジライルカと非常に近い種である」などと、実際の科学知識を組み合わせることでまるで存在するかのようにみせかけたWiki記事を生成したそうです。