Googleが表形式データをゼロショットで予測できる基礎モデル「TabFM」を公開

Google Researchが2026年6月30日、表形式データ向けの基礎モデル「TabFM」を発表しました。行と列で構成されたデータを対象に、分類や回帰といった予測をゼロショットで実行できるモデルとされています。
Introducing TabFM: A zero-shot foundation model for tabular data
https://research.google/blog/introducing-tabfm-a-zero-shot-foundation-model-for-tabular-data/

企業で扱われる売上、顧客、取引、在庫といったデータの多くは表の形で保存されています。表形式データから将来の数値を予測したり、特定のカテゴリへ分類したりする作業は重要ですが、従来はデータごとにモデルを訓練し、設定を調整し、予測に役立つ特徴を人間が設計する必要がありました。
XGBoostやランダムフォレストといった従来の手法は表形式データで広く使われてきた一方で、新しいデータに適用するたびに細かな調整が必要になります。Googleは信頼できる予測を得るには単にモデルを実行するだけでは不十分で、ハイパーパラメータ調整や特徴量エンジニアリングに多くの時間がかかると説明しています。
TabFMは手間の多い表形式データ分析を簡略化するために開発されたモデルで、対象のデータに合わせた追加訓練を行わなくても予測できる「ゼロショット」に対応しています。TabFMは過去の学習例と予測対象の行をまとめて1つの文脈として読み取り、列や行の関係を推論時に解釈して予測を生成するとのこと。
表形式データは文章とは違い、単語のような1次元の順序ではなく、行と列の関係を理解する必要があります。TabFMは行方向と列方向の両方に注目する仕組みを使い、表の中にある関係性をモデル内部で表現します。この処理により人間が手作業で特徴を作る負担を減らせるとのこと。

AIの学習には大規模なデータセットが必要ですが、企業などで扱われる表データには機密情報が含まれることが多く、大規模な事前学習に使える公開データの収集は困難です。そこで、TabFMの学習には実在する企業のデータではなく数億件規模の合成データセットが使われています。
性能評価では、手法を対戦形式で競わせてEloレーティングで順位付けする「TabArena」でTabFMを検証したとのこと。上段の分類タスクと下段の回帰タスクの両方で、交差特徴量やSVD特徴量に加えて32通りのアンサンブルを用いる「TabFM-Ensemble」が1位となり、通常の「TabFM」が2位になっています。

GoogleはTabFMをBigQueryへ直接統合する予定で、今後数週間以内にBigQueryユーザーは「AI.PREDICT」というSQLコマンドで回帰や分類を実行できるようになるとのこと。
なお、TabFMのモデル本体が非商用ライセンスでHugging Faceで公開されており、利用コードやサンプルがApache2.0ライセンスでGitHubで公開されています。
google/tabfm-1.0.0-pytorch · Hugging Face
https://huggingface.co/google/tabfm-1.0.0-pytorch
GitHub - google-research/tabfm · GitHub
https://github.com/google-research/tabfm
