画像生成AI「DALL-E 2」やテキスト生成AI「GPT-3」、対話AI「ChatGPT」を開発する研究団体のOpenAIが、テキストから3Dオブジェクトを生成するAI「Point-E」をオープンソース化し、ソースコードをGitHubで公開しました。

GitHub - openai/point-e: Point cloud diffusion for 3D model synthesis

https://github.com/openai/point-e

[2212.08751] Point-E: A System for Generating 3D Point Clouds from Complex Prompts

https://arxiv.org/abs/2212.08751

Point-Eは主に「テキストから画像を生成するモデル」「画像から点群データを生成するモデル」の2つで構成されています。テキストから画像を生成するモデルは、Stable DiffusionやOpenAI開発のDALL-E 2などの画像生成AIと同じように、ラベル付き画像のデータセットでテキストと視覚的概念の関連付けを理解したモデルです。



そして、「画像から点群データを生成するモデル」は、3Dオブジェクトとセットになった画像のデータセットから、両者の効果的な変換を学習したモデルです。以下は実際に画像(左)から点群データ(右)を生成したところ。



Point-Eが生成する3Dオブジェクトはポリゴンを組み合わせたものではなく、「空間上のデータ点の離散的な集合」、すなわち粒子をギュッと固めたような点群データで生成されます。そのため、Point-Eには「点群データをポリゴンメッシュに変換するモデル」も含まれています。



そして、Point-Eには点群からポリゴンメッシュに変換するAIも含まれています。点群のモデルはポリゴンメッシュよりも高速に生成できるため、3Dオブジェクトの生成が従来の600倍以上も高速化しているとのこと。これまでNVIDIA V100で何時間もかかっていた計算がわずか1〜2分で済むようになっているのがPoint-Eの大きな利点です。



ただし、物体の細かい形状や質感を捉えることができないというデメリットがあり、形状の一部分がどうしてもブロック状になったり歪んでしまったりすることもあるとのこと。以下は実際に画像から点群データの生成に失敗してしまった例。



Point-Eのうち、テキストから点群データを生成する部分はオンラインAIプラットフォームのHugging Faceで体験することが可能。ただし、記事作成時点では処理の順番待ちが長いために、デモで用意されているキーワードの生成にかなりの長時間を必要とする状態です。

Point E - a Hugging Face Space by openai

https://huggingface.co/spaces/openai/point-e

実際にデモで「a red motorcycle(赤いバイク)」と入力して生成した3Dオブジェクトを、以下のツイートで見ることができます。



「Palm Tree(ヤシの木)」で生成した3Dオブジェクトはこんな感じです。