テスラやSpaceXの創業者として知られるイーロン・マスク氏は、人工知能(AI)の非営利団体「OpenAI」の設立にも携わっています。このOpenAIが、強化学習アルゴリズム(RLアルゴリズム)の高品質な実装である「OpenAI Baselines」のうち、Deep Q-Learning(DQN)と3種類のバリエーションを公開しました。

OpenAI Baselines: DQN

https://blog.openai.com/openai-baselines-dqn/





「DQN」という略称は、Googleの子会社であるDeepMindが開発した人工知能プログラム「Deep Q-Network」にも用いられていますが、OpenAIは「Deep Q-Learning」の略称として用いています。

Deep Q-Learningは、機械学習の手法の1つとして知られている「Q-Learning(Q学習)」とディープニューラルネットワークの利用を組み合わせたもので、たとえばビデオゲームやロボット工学のような複雑で高次元な環境の強化学習に利用されます。

強化学習の結果というのは、内容に「ノイズ」が多く含まれたり、アルゴリズムのわずかなバグによる差が多数生まれたりと、再現するのがトリッキーなのだそうです。OpenAIでは、AI研究コミュニティが優れたベースラインを作り、研究レベルを更に高いところへ引き上げていくために、有効な実装とそれを作るための最良の実施例として、これらのアルゴリズムを公開することにしたとのこと。制作にあたってはPython 3とGoogleがオープンソース化したライブラリ・TensorFlowを使用しています。

公開されたのはDeep Q-Learningのほか、既存のDeep Q-Learningでときどき特殊なアクションが過大に評価される点を修正した「Double Q Learning」や「Prioritized Replay」、「Dueling DQN」の合計4つで、GitHubにて公開されています。

GitHub - openai/baselines: OpenAI Baselines: high-quality implementations of reinforcement learning algorithms

https://github.com/openai/baselines



なお、OpenAIでは今後も同様にしてアルゴリズムを公開する予定だとのことです。