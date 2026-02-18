画像生成AI「BitDance」をTikTok開発元の研究者らが公開したので使ってみた、Z-Imageより速くて高品質をアピールする自己回帰モデル
TikTokの開発元であるByteDanceや香港中文大学などの研究チームが画像生成AIモデル「BitDance」を2026年2月17日に公開しました。BitDanceは画像生成AIで主流な拡散モデルではなく自己回帰モデル(ARモデル)を採用しており、競合モデルと比べて高速かつ高品質な生成処理が可能とアピールされています。
BitDance: Scaling Autoregressive Generative Models with Binary Tokens
BitDanceは自己回帰モデルの弱点である「生成処理が遅い」という問題の解決を目指して開発された140億パラメーターの画像生成モデルです。
以下のグラフは横軸が画像生成速度、縦軸がベンチマークスコアを示しており、同じく自己回帰モデルであるGLM-Imageと比べて4.3倍高速かつ高品質な生成処理が可能であることが分かります。また、拡散モデルのQwen-ImageやZ-Imageよりも高速な処理が可能です。
BitDanceで生成した画像とプロンプトをまとめたギャラリーページも用意されています。以下の作例を見ると、自然言語での指示に応じて高品質な実写風画像を生成できることが分かります。
アニメ風画像も生成可能。
作例にはドラえもんの画像も含まれていました。
BitDanceを使って画像を生成できるデモアプリも公開されているので実際に使ってみます。まず、以下のリンクをクリック。
BitDance-14B-64x - a Hugging Face Space by shallowdream204
https://huggingface.co/spaces/shallowdream204/BitDance-14B-64x
今回は「カフェでピースするメイドさんの実写風画像」を生成するべく、ギャラリーページの作例を参考に以下のプロンプトを組み立てました。
A high-resolution ultra-detailed photorealistic portrait of a young East Asian girl indoors, with fair smooth skin and a natural soft glow, large round dark brown eyes with clear reflections, subtle under-eye softness, a small delicate nose, light pink slightly glossy lips, and a gentle innocent expression, featuring a tiny beauty mark on her cheek for realism. She has dark brown shiny hair styled into two long thick braided pigtails falling over her shoulders, with slightly loose braids showing individual strands, wispy straight bangs softly covering her forehead, and a few natural flyaway hairs. She is wearing a maid clothes. Her pose is playful and casual, head slightly tilted toward the camera, leaning forward, both hands raised near the frame making a peace sign, creating a friendly and intimate feeling. The background is a cozy modern cafeteria with a wooden table and chair, softly blurred with shallow depth of field. Soft warm indoor lighting evenly illuminates her face, no harsh shadows, highlighting skin texture and hair shine. Shot with a high-end DSLR or mirrorless camera, 50mm lens, f/1.8, cinematic bokeh, sharp focus on the face, natural color grading, high dynamic range, realistic proportions, Japanese/Korean portrait photography aesthetic, cozy winter vibe, candid snapshot feeling, extremely detailed, 8k quality.
プロンプトを入力して「Generate」をクリック。
1024×1024ピクセルの画像を30秒前後で生成できました。
生成した画像が以下。クリックすると縮小前のオリジナル画像を確認できます。
上記の通り英語だとプロンプトに沿った画像を生成できますが、日本語には対応できておらず、「リンゴを食べるクマの写真」というプロンプトを入力してもまったく異なる画像が生成されてしまいました。BitDanceは英語と中国語に特化しているようです。
BitDanceのモデルデータは以下のリンク先で公開されています。
BitDance - a shallowdream204 Collection
https://huggingface.co/collections/shallowdream204/bitdance
また、関連コードがGitHubで公開されています。
GitHub - shallowdream204/BitDance: BitDance: Open-source autoregressive model with binary visual tokens. A research project for building powerful multimodal autoregressive model.
https://github.com/shallowdream204/BitDance?tab=readme-ov-file