画像生成AIの「Stable Diffusion」などの開発に携わったAI研究者が、新しいAI開発企業の「Black Forest Labs」を立ち上げました。さらに、Black Forest Labsはパラメーターサイズが120億のオープンソース画像生成AIモデル「Flux」も発表しています。Announcing Flux by Black Forest Labs: The Next Leap in Text-to-Image Models

https://blog.fal.ai/flux-the-largest-open-sourced-text2img-model-now-available-on-fal/Announcing Black Forest Labs - Black Forest Labshttps://blackforestlabs.ai/announcing-black-forest-labs/画像や動画などのメディアコンテンツ向け生成ディープラーニングモデルの開発を目標として掲げるBlack Forest Labsの立ち上げが発表されました。学術・産業・オープンソースといった分野で基礎的な生成AIモデルの開発に携わり、優れた実績を上げてきたAI研究者およびエンジニアが、Black Forest Labsを立ち上げています。なお、開発者向けメディアプラットフォームのfalによると、Black Forest Labsを立ち上げたのは「Stable Diffusionのオリジナル開発チーム」だそうです。Black Forest Labsの立ち上げに携わったAI研究者およびエンジニアとしては、アンドレアス・ブラットマン氏、アンディ・ホームズ氏、アクセル・ザウアー氏、ドミニク・ロレンツ氏、ダスティン・ポデル氏、フレデリック・ボーゼル氏、ハリー・サイニ氏、ジョナス・ミュラー氏、カイル・レイシー氏、パトリック・エッサー氏、ロビン・ロンバッハ氏、スミス・クラル氏、ティム・ドックホーン氏、ヤム・レヴィ氏、ザイオン・イングリッシュ氏の名前が挙げられています。なお、Black Forest LabsのAI研究者らが開発してきたAIモデルは、VQGAN、Latent Diffusion、Stable Diffusionの画像および動画生成モデル(Stable Diffusion XL、Stable Video Diffusion、Rectified Flow Transformers)、Adversarial Diffusion Distillationなどです。Black Forest Labsの基本的な信念は「広くアクセス可能なAIモデルは、研究コミュニティと学術界内での革新とコラボレーションを促進するだけでなく、信頼と幅広い採用に不可欠な透明性を高める」というもの。Black Forest Labsは最高品質のテクノロジーを開発し、可能な限り幅広いユーザーが利用できるようにすることを目指しているとのことです。なお、Black Forest Labsは3100万ドル(約46億4000万円)の資金調達に成功しており、主要な出資者にはベンチャーキャピタルのAndreessen Horowitz、エンジェル投資家のブレンダン・イリベ氏、マイケル・オーヴィッツ氏、ギャリー・タン氏、ティモ・アイラ氏、ウラドレン・コルトゥン氏などが挙げられています。そんなBlack Forest Labsが、オープンソースのテキスト画像変換モデルである「Flux」を発表しました。Fluxのパラメーターサイズは120億(12B)で、記事作成時点では最先端レベルの性能を誇るSOTAのオープンソースAIモデルであることを、Black Forest Labsは強調しています。以下は実際にFluxで作成した画像の一例。作成に使用されたプロンプトは「Extreme close-up of a single tiger eye, direct frontal view. Detailed iris and pupil. Sharp focus on eye texture and color. Natural lighting to capture authentic eye shine and depth. The word "FLUX" is painted over it in big, white brush strokes with visible texture.(ひとつの虎の目を正面から超拡大して撮影。虹彩と瞳孔の詳細、目の質感と色のシャープにフォーカス。本物の目の輝きと深みを捉える自然光。その上に『FLUX』という文字が、質感が見える大きな筆で白色で書かれています)」です。作成に使用されたプロンプトは「Portrait of a bearded man with dark hair wearing red sunglasses and a light gray Patagonia fleece jacket. He has a serious expression and is looking directly at the camera. The background shows a blurred outdoor scene with rocky terrain and a vibrant pink and purple sunset sky. The lighting gives the image a warm, golden-hour glow. The overall mood is rugged yet stylish, with a touch of adventure.(赤いサングラスをかけ、ライトグレーのパタゴニアのフリースジャケットを着た、黒髪・黒ひげを生やした男性のポートレート写真。真剣な表情でカメラをまっすぐ見ており、背景には岩だらけの地形と鮮やかなピンクと紫の夕焼け空のあるぼやけた屋外の風景が写っています。照明により、画像に温かくゴールデンアワーの輝きが与えられています。全体的な雰囲気は、冒険心のある、荒々しくもスタイリッシュなものです)」です。作成に使用されたプロンプトは「Close-up of LEGO chef minifigure cooking for homeless. Focus on LEGO hands using utensils, showing culinary skill. Warm kitchen lighting, late morning atmosphere. Canon EOS R5, 50mm f/1.4 lens. Capture intricate cooking techniques. Background hints at charitable setting. Inspired by Paul Bocuse and Massimo Bottura's styles. Freeze-frame moment of food preparation. Convey compassion and altruism through scene details.(ホームレスのために料理するレゴのシェフのクローズアップ写真。調理器具を使うレゴの手に焦点を当て、料理の腕前を見せます。暖かいキッチンの照明、深夜の雰囲気。Canon EOS R5の50mm f/1.4 レンズで撮影したような質感。複雑な調理テクニックを捉え、背景は慈善的な設定を暗示します。ポール・ボキューズとマッシモ・ボットゥーラのスタイルにインスピレーションを受けています。料理の準備の瞬間を静止画像にし、シーンの詳細を通して思いやりと利他主義を伝えます)」というもの。作成に使用されたプロンプトは「A giant potato in sunglasses and a Hawaiian shirt lounges on a beach towel surrounded by colorful beach balls and flip-flops. Nearby, anthropomorphic fruits play beach volleyball. In the background, a lighthouse sand sculpture stands next to an ice cream truck with a giant cone, serving treats to cheerful beachgoers. The scene captures a fun, playful summer vibe with the sound of waves crashing nearby.(サングラスとアロハシャツを着た巨大なジャガイモが、カラフルなビーチボールとビーチサンダルに囲まれたビーチタオルの上でくつろいでいます。近くでは擬人化されたフルーツがビーチバレーをしています。背景には、灯台の砂像が巨大なコーンを乗せたアイスクリームトラックの横に立っており、陽気なビーチ客にスイーツを提供しています。このシーンは、近くで打ち寄せる波の音とともに、楽しく遊び心のある夏の雰囲気を捉えています)」というもの。Fluxは3つのバリエーションが用意されており、すべて2024年秋頃に入手可能となります。Fluxの各モデルを試用可能なデモページも用意されており、falのデモを利用するにはGitHubアカウントでのサインインが必要となりますが、Replicateのデモページではアカウントなしで各モデルを試用可能です。・FLUX.1 [dev]非商用ライセンスでオープンソース化されることとなるFluxの基本モデル。black-forest-labs/FLUX.1-dev · Hugging Facehttps://huggingface.co/black-forest-labs/FLUX.1-devFLUX.1 [dev] | AI Playground | fal.aihttps://fal.ai/models/fal-ai/flux/devblack-forest-labs/flux-dev - Run with an API on Replicatehttps://replicate.com/black-forest-labs/flux-dev・FLUX.1 [schnell]最大10倍高速に動作する基本モデルの精製バージョン。ライセンスはApache 2です。FLUX.1 [schnell] | AI Playground | fal.aihttps://fal.ai/models/fal-ai/flux/schnellblack-forest-labs/flux-schnell - Run with an API on Replicatehttps://replicate.com/black-forest-labs/flux-schnell・FLUX.1 [pro]API経由でのみ利用可能なクローズドソースバージョン。FLUX.1 [pro] | AI Playground | fal.aihttps://fal.ai/models/fal-ai/flux-problack-forest-labs/flux-pro - Run with an API on Replicatehttps://replicate.com/black-forest-labs/flux-pro以下の画像はFLUX.1 [pro]で、「Close-up view of a tin toy. The background is a cyberpunk world. The word "GIGAZINE" is written in an electrified font on the forefront of the image.(ブリキのおもちゃのクローズアップ写真。背景はサイバーパンクな世界。画像の最前面にはエレクトリカルなフォントで『GIGAZINE』と書かれている)」というプロンプトで作成した画像。一般的に画像生成AIは文字のスペルを正しく描写するのが苦手とされていますが、指示通りに「GIGAZINE」という文字が描き出されました。Fluxの各モデルとその他の画像生成AIモデルのELOスコアを比較したのが以下のグラフ。Black Forest LabsはFluxの性能について、「FLUX.1 [pro]と[dev] は、視覚品質・プロンプトの追従性・サイズ/アスペクト比の可変性・タイポグラフィ・出力の多様性といった点で、Midjourney v6.0、DALL·E 3 (HD)、SD3-Ultraなどの人気画像生成AIモデルを上回るパフォーマンスを発揮しています。FLUX.1 [schnell]は、これまでで最も高度なステップモデルで、同クラスの競合製品だけでなく、Midjourney v6.0やDALL·E 3 (HD)などの強力な非蒸留モデルよりも優れたパフォーマンスを発揮します。Fluxは事前トレーニングからの出力の多様性全体を維持するように特別に微調整されており、既存の最先端技術と比較すると、大幅な改善が見られます」と説明しました。以下はFluxの各モデルとサードパーティー画像生成AIモデルを、「Visual Quality(視覚品質)」「Prompt Following(プロンプトの追従性)」「Size/Aspect Variability(サイズ/アスペクト比の可変性)」「Typography(タイポグラフィ)」「Output Diversity(出力の多様性)」という5つの要素で比較したグラフ。Fluxの主な特徴は以下の通り。強化された画像品質:より高い解像度で素晴らしいビジュアルを生成します。高度な人体解剖学とフォトリアリズム:非常にリアルで解剖学的に正確な画像を生成可能。プロンプト遵守の改善:入力に基づいて、より正確で関連性の高い画像を生成します。卓越した速度:FLUX.1 [schnell]の速度と効率性は需要の高いアプリケーションに最適です。なお、Black Forest LabsはFluxを基盤にテキストから動画を生成することができる動画生成AIモデルを構築する予定を明かしています。