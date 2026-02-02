「AIが勝手にやってくれる」時代に〜2025年AIの進化を振り返る〜
2022年末にChatGPTが爆発的に普及し世界を驚かせてから、まだ3年しか経っていない。しかし、このわずかな期間でAIは目覚ましい進化を遂げた。コンピュータプログラムであるはずのChatGPTが、あたかもそこに人間がいるかのように自然な会話をこなす。その衝撃を覚えている読者も多いだろう。
さて、今回からシリーズでそんなAIの現状について、初心者にもわかりやすく解説していきたい。その第一回は、2025年のAIの進化を振り返ってみたいと思う。
2025年のAI進化を振り返る
■さらに賢くなったLLM（大規模言語モデル）
ChatGPTをはじめとするAIの「頭脳」にあたる部分をLLM（大規模言語モデル）と呼ぶ。2024年から2025年にかけて、LLMはひとつの大きな進化を遂げた。それは「考える」力の獲得だ。
2024年までのAIは、こちらが何かを尋ねるとコンマ数秒で言葉を返してくる「脊髄反射」的な反応が主流だった。しかし、2025年に登場した最新モデルは、回答を出す前に「推論」というプロセス、すなわち「考える時間」を持つようになったのである。
初期のLLMは、次に来る確率の高い言葉を繋げることで会話を成立させていた。それが何度も推論を繰り返すことで、より正確で思慮深い回答が可能になったのだ。
たとえば複雑な数学の問題や、複数の条件が絡み合うパズル。これらを質問すると、画面には「考え中...」という表示とともに、AIが内部で推論を整理している様子が示される。まるで有能なコンサルタントが「うーん、そうですね...」と一度間を置いてから、最も論理的な解を導き出してくれるかのような体験だ。
本稿の構想段階でChatGPTに記事の構想を相談しているところ。AIが賢くなったことで、こうした相談ができるようになった。
ChatGPTの裏で行われる動作をちょっと覗くことができるようになっている。「考え中」16秒間の間に、Webを検索したり、提案の中身をいろいろ試行錯誤したりしているのがわかる。まるで人間のようである。
また、LLMの進化において「マルチモーダル」というキーワードも欠かせない。これはテキストだけでなく画像や音声、動画などを統合的に処理できる機能のことだ。
いまやLLMは「目」を持ち、「耳」を持ち、言葉を流暢に話す。スマホアプリ版のChatGPTやGeminiは、カメラに映したものを認識し、それについて即座に答えてくれる。音声でのやり取りも、まるで人間と電話しているかのように自然だ。海外旅行で看板の文字を読んでもらったり、使い方のわからない家電の操作を尋ねたりといった活用も、もはや日常の風景となった。
Google Geminiに写真を見せて、「これは何？」と質問したところ。AIが写真画像を見て、正しく「Google Pixel Watch」であることを回答した。
さらに、日々を共にする上で欠かせなくなったのが「メモリ機能」の搭載だ。筆者がかつて話した「来月は伊豆に行く予定だ」「仕事ではこんなプロジェクトを経験している」といった背景情報を、AIが自然に、そして正確に記憶している。以前のように、チャットを立ち上げるたびに関連情報を説明し直す必要はなくなった。この「自分を理解してくれている」という感覚が、AIを単なるツールから、本当の意味での「相棒」へと押し上げたと言えるだろう。
筆者のChatGPTの「メモリ」機能の設定画面である。ChatGPTとのやりとりの中でAIが必要に応じて内容をメモリに保存する。チャットのなかでユーザがしゃべったこと、たとえばどんな経験をしたか、どんな仕事をしたか、さまざまな好みなどもChatGPTが自然な形で覚えてくれる。そのため、ユーザが改めて説明しなくても過去の会話からの情報を元にチャットを進めてくれるようになった。「例の」とか、「いつもの」という会話が可能になるのである。プライバシーに関する項目になるので、オフにすることもできる。メモリの内容はユーザが確認したり修正したりも可能である。
■映画のワンシーンを自分の手で作る喜び ― 映像生成の臨界点
クリエイティブの分野に目を向けると、2025年は画像・動画生成がもう一歩先のステージへ到達した年だった。
特に多くの人を驚かせたのが、画像生成AI「Nanobanana Pro」の完成度だ。GoogleのGemini 3.0に搭載されており、誰でも利用できる。
かつての画像生成は「指の形がおかしい」といった弱点をご愛敬として受け入れる必要があった。しかし、もはやそんな悩みは過去のものだ。4Kクオリティの解像度は、まるで一眼レフで撮影したかのように精緻である。また「同じキャラクターを何度も、同じ姿で描ける」というキャラクター固定の技術が向上し、漫画や絵本を一貫性を持ったまま生成できるようになった。
日本語の文字も画像にほぼ正確に書き込めるようになった。これにより、後述するインフォグラフィックやスライドの作成にも実用レベルで活用できる。
年始の挨拶のためにGeminiのNanobanana Proの機能を使って作ってもらった画像である。簡単なプロンプトでインパクトのある素敵な絵が生成された。日本語の文字も完璧だった。文句なしの採用である。
動画生成もまた、OpenAIの「Sora 2」やGoogleの「Veo 3.1」によって、まったく新しいフェーズに入った。
簡単な指示文（プロンプト）を入力するだけで、数秒間の実写映画さながらの映像が、しかも「サウンド付き」で生成される。風の音、街の喧騒、そして映像の動きにぴたりと合ったBGMまでもがAIの手によって生み出されるのだ。実写かAIか、プロでも見極めるのに時間を要するほどの美しい風景が生成可能になった。これは、一部のクリエイターだけの特権だった「表現」という魔法が、あらゆる人々に開放されたことを意味している。
Veo 3.1で生成した動画の一場面
【動画】
生成された動画。サウンド付き
YouTube：https://youtu.be/sFTbHSafLDM
■AIが自律的に実行する時代へ ― AIエージェント元年
2025年の最も大きなパラダイムシフトは、AIが「答える人」から「実行する人（エージェント）」になったことだ。
2025年はAIエージェント元年とよばれた。
まずは「Deep Research」と呼ばれる自律的なリサーチ機能である。「最近の生成AIのトレンドを、過去のデータと比較して10ページ程度のレポートにまとめて」と一言頼めば、AIは即座にネットの海へと潜る。膨大なサイトを巡り、矛盾を排除し、情報元まで明記した完璧な報告書を作り上げてくれるのだ。人間が検索で何時間もかかっていた作業を、AIが黙々と裏で進めてくれる姿は、まさに24時間働き続ける勤勉な秘書のようだ。
ChatGPTのDeep Research機能で「ChatGPTのDeep Research機能」について詳しく調べてもらっているところ。
ChatGPTがまず最初にユーザの要望を確認してくれる。それに応えると調査が始める。この調査では23分間かけて20件の情報源、57回の検索を行い、詳しいレポートを仕上げてくれた。
調査結果のレポートである。各項目にはその情報の根拠にあたるWebページへのリンクが掲載され、正しい情報かを確認しやすくなっている。それでも間違いは混在するので、情報のチェックは注意深く行う必要がある。
さらには、「ChatGPT Atlas」や「Perplexity Comet」など、AIエージェント統合ブラウザの登場も重要だ。これまでのAIはチケットの買い方を教えてくれるだけで、最終的にWebブラウザを操作するのは人間の役目だった。しかし今、AIは自らブラウザを自在に操作する「目」と「手」を手に入れた。「最も条件の良いフライトを予約しておいて」と伝えれば、AIが画面のボタンを認識し、操作し、決済の一歩手前まで進めてくれる。もっとも、決済という責任を伴う行為については、依然として人間が最終確認を行うのが一般的ではあるが。
ChatGPT Atlasを使い、筆者の書いた記事を表示し、要約してもらっているところ。右端にチャット欄があり、質問などすることができる。操作方法がわからないときなどにも便利である。
Perplexity Cometを使ってAmazonでスマートウォッチのお薦め機種を調べてもらっているところ。こちらも画面の右端にチャット欄があり、AIにブラウザの操作を依頼できる、とても未来感のある機能だ。AIが実際に画面を「見て」、操作してくれる。画面の一部が青くなっているのは、AIが操作中であることを表現している。ただ、現時点ではAIの画面操作の精度や、動作速度にはまだ不十分な印象が残り、まだこれからの技術と言えそうだ。
プログラミングの世界でも「Vibe Coding（バイブ・コーディング）」という言葉が流行した。厳密な命令を書くのではなく、「こんな雰囲気の家計管理アプリが欲しい」という意図（バイブス）を伝えるだけで、AIが複雑なコードを書き、一瞬で形にしてしまう。プログラミングの知識がなくとも、アプリを具現化できる。夢のような技術が、ついに現実となったのだ。
AI機能搭載エディタ「Cursor」を使ってプログラム開発をしているところ。右端のチャット欄でAIにさまざまな依頼をすると、それに応えて中央に表示されているプログラムを作ってくれる。プログラムコードの内容は専門的になるが、ユーザは必ずしもその内容を理解している必要はなく、AIがすべてを行ってくれる。プログラムにミスがあってエラーが出ても、それをAIに伝えるだけでAIが原因を調査し、修正してくれるのだ。専門知識がなくてもプログラム開発ができる時代が到来したのだ。
Google Antigravityを使ってプログラムを作ってもらう例。右端のチャット欄に「Webブラウザで遊べるテトリスを作って」とお願いしただけで、AIがすべてを計画し、必要ならユーザに確認する作業も行い、あっという間にテトリスを完成させてしまった。
完成したテトリスで遊んでいるところ。機能もデザインも文句なしである。プログラミング知識がなくてもこれが作れる時代になった。
このようにAIはチャットの中から飛び出し、私たちの実作業を肩代わりし始めた。2025年が「AIエージェント元年」と呼ばれる所以である。
■AIがドキュメント生成を変える
もっとも身近な「仕事」の風景はどう変わったか。たとえばGoogle WorkspaceへのGemini統合により、Gmailの下書き作成やGoogleドキュメントの文章要約、複雑なデータのグラフ化などがシームレスに行えるようになった。
前述の「Deep Research」の結果を元に、デザイン性豊かなプレゼン資料に纏めてくれるAIサービスも、今年いくつも登場した。GensparkやGamma、さらには汎用エージェントのManusなどだ。これらのサービスにより、これまでのワークフローは根本から変わる可能性を秘めている。
筆者が特に便利に使っているのは、情報の整理・解析ツール「NotebookLM」の進化である。自分のメモや資料を読み込ませるだけで、AIがその内容を深く把握してくれる。驚くべきは、そこから解説音声や「インフォグラフィック」、「マインドマップ」、「プレゼン用スライド」といった資料を一気に生成できる点だ。
専門的な論文や大量の英文記事も、数分のうちに理解しやすい資料に落とし込める。NotebookLMでは画像生成機能として「Nanobanana Pro」が採用されており、生成された資料のビジュアル的な完成度は驚くほど高い。ワークスタイルを一変させるような、実に実用的なサービスである。
NotebookLMに書いてもらったNotebookLMの解説イラスト
NotebookLMの画面。本稿のテキストと採用予定の画像を読み込ませて使ってみたところ。左側に並んでいるのが読み込んだ情報ソースのテキストと画像。中央がその要約と、チャット欄。右端がこれらの情報を元に生成する各種ドキュメントやコンテンツの操作ボタンと生成されたもの。
生成されたインフォグラフィック。とてもレベルの高い出力が得られた。ただし、細かい日本語の文字が化けてしまっている。GeminiのNanobanana Proを用いて修正するなどの方法もあるが、今後の改善に期待したい部分だ。
生成されたスライドの一部。とてもレベルの高いスライドが生成された。ただ、文字化けは同様に発生していることと、PDF形式であることは残念なポイントだ。PowerpointやGoogleスライド形式ではないため、自由に細かい編集ができない。内容や日本語の文字化けの修正の強いニーズがあるので、これも今後の改善に期待したい。
【動画】
生成されたインフォグラフィック。とてもレベルの高い出力が得られた。ただし、細かい日本語の文字が化けてしまっている。GeminiのNanobanana Proを用いて修正するなどの方法もあるが、今後の改善に期待したい部分だ。
YouTube：https://youtu.be/HU0DDicKI7k
■現状の課題とその解決の方向性
2025年は、AIがより賢くなり自律的な作業ができるようになった記念すべき年となった。その一方で、いくつかの課題も浮き彫りになっている。
まず「ハルシネーション（もっともらしいウソ）」の問題だ。現時点でもAIは時折、間違った回答を返してくる。われわれユーザーはこの特性を理解し、AIの回答を鵜呑みにせず必ずダブルチェックを行う姿勢が重要である。
また、著作権の問題も避けては通れない。AIによる生成物が著作権を侵害するとして、世界的に訴訟に発展するケースも出ている。解決は容易ではないが、AI生成物に「電子透かし」を入れるなどの技術的な対策も提案されている。
「AIが仕事を奪うのか」という議論も再燃している。単純作業をAIが肩代わりするようになれば、人間の役割は変わらざるを得ない。実際、ソフトウェアエンジニアの世界では、新人採用を控える動きも出始めているという。しかし一方で、AIを使いこなすことで少人数でも高度な価値を生み出せるようになり、新しい職種が生まれるという予測もあるだろう。変化に柔軟に対応し、AIを賢く使いこなすことこそが、これからの時代を生き抜く鍵となるはずだ。
さらに、巨大な計算能力を支えるための電力・水資源の確保や、半導体不足の問題も深刻化している。各社は安全な小型原子力発電の導入や核融合発電への投資、さらには「宇宙データセンター」の構想まで打ち出している。
宇宙空間にデータセンターを構築することをGoogleやイーロンマスク氏が率いる企業（xAI、スペースX）が構想中。巨大な太陽電池で発電し、宇宙空間で冷却を行う。イラストはNotebookLMで生成した。
■AI 2026年への展望
このような課題はあるものの、AIの進化はまだ始まったばかりだ。2026年以降、どんな進化を見せてくれるのだろうか。いくつか予測を書き出してみよう。
AI 2026年への展望
まず、LLMが「継続学習」の機能を獲得する可能性がある。現在のLLMは学習時点までの情報しか持たないが、もし常に最新情報を反映できるようになれば、その実用性はさらに飛躍するだろう。
また、ユーザーを理解し先回りして提案する「パーソナルエージェント」の普及も期待される。複数の専門エージェントを指揮する「オーケストレーション」という仕組みにより、「いつもの」という言葉だけで複雑な課題を解決できる世界が近づいている。
デバイスの面では、スマホやPCの中で動作する「SLM（小規模言語モデル）」の進化に注目したい。クラウドに接続せずともデバイス内で動作するため、プライバシーの観点でも有利だ。スマートウォッチやメガネ型のAIデバイスもいよいよ実用性を高め、人気を集めるだろう。
ひと言で言えば、2025年は「AIが賢くなり、仕事を頼めば勝手にこなせるようになり始めた」年であった。すなわち「AIエージェント元年」。今後もAIがどのような未来を見せてくれるのか、期待を持って注視していきたい。
テクニカルライター 鈴木 啓一
