ハッカーや犯罪者が集うダークウェブのデータでトレーニングしたAI「DarkBERT」

2023年5月19日 12時0分

ChatGPTやMicrosoft Bing、Google BardなどのチャットAIはインターネット上のデータで訓練されています。こうしたAIモデルはトレーニングデータのジャンルを絞ることで「金融専門」「軍事専門」などのある分野に特化させることも可能なのですが、韓国の研究者チームが新たにクラッカーやサイバー犯罪者が集うダークウェブのデータだけで訓練したダークウェブ特化モデル「DarkBERT」を開発したことを明らかにしました。

DarkBERT: A Language Model for the Dark Side of the Internet

https://doi.org/10.48550/arXiv.2305.08596

New DarkBert AI was trained using dark web data from hackers and cybercriminals | Tom's Guide

https://www.tomsguide.com/news/new-darkbert-ai-was-trained-using-dark-web-data-from-hackers-and-cybercriminals

Dark Web ChatGPT Unleashed: Meet DarkBERT | Tom's Hardware

https://www.tomshardware.com/news/dark-web-chatgpt-unleashed-meet-darkbert

韓国科学技術院のジン・ヨンジン氏らは、ダークウェブへのアクセスによく使われるTorネットワークを介してダークウェブを16日間にわたってクロールし、ダークウェブのデータベースを作成しました。ヨンジン氏らは構築したデータをMetaの自然言語処理アーキテクチャ「RoBERTa」で処理し、ダークウェブ専門のAI「DarkBERT」を開発したとのこと。

ダークウェブのデータでトレーニングしたことで、DarkBERTはダークウェブで使われる独自の用語と高度に難読化されたメッセージを分析し、そこから有用な情報を抽出することができるとされています。ヨンジン氏らはDarkBERTを一般に公開する予定はないそうですが、研究目的での使用リクエストを受け付けているとのことです。

DarkBERTは限定的なデータで訓練されたにもかかわらず、他の大規模言語モデルに匹敵する実力を誇っているとされています。DarkBERTは新しいAIモデルですが、ベースとなったのは2019年にFacebookの研究者らが開発した「RoBERTa」です。RoBERTaは2018年にGoogleが公開した自然言語処理モデル「BERT」を元に作成されたもので、自然言語処理モデルのトレーニング段階における性能を改良したものだと説明されていました。

しかし、RoBERTaを参考にしたヨンジン氏らは、RoBERTaがリリース当初は訓練不足であったと指摘。今回の研究を明らかにしたことで「RoBERTaはもっと多くのことができる」ということを示しました。