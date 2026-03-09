AIが人間の仕事を評価するようになったとき、人間の行動はどう変わる？（筆者がChatGPTで生成）

（小林 啓倫：経営コンサルタント）

人事評価、採用審査、レポートの査読、応募書類の選別──。これまで管理職や人事担当者が担ってきた「人の仕事を見て評価する」作業に、生成AIが入り込み始めている。

人事評価へのAI導入は、もはや先端企業だけの話ではない。たとえば、JCOMは2025年4月からコールセンター業務の人事評価にAIを全面導入し、約60万件の通話記録をAIで分析して評価の客観性を高めようとしている。

また人材管理クラウドを提供するカオナビが2025年6月に実施した調査では、人事担当者の4割がすでに生成AIを業務に活用しているという結果が出ている。採用選考でのAI面接、業績評価のAI支援、人材配置の最適化など、AI評価は日本の職場にも確実に浸透しつつある。

こうした潮流を、「評価が公平になるなら歓迎だ」と歓迎する人もいれば、「機械に自分の仕事がわかるのか」と不安を感じる人もいるだろう。だが本当に問題なのは、その感情の先にある。今年3月に発表されたある論文が、そのリスクを指摘している。評価者がAIに替わると知っただけで、人は無意識のうちに仕事のやり方そのものを変えてしまうというのだ。

その論文とは、ノースウエスタン大学ケロッグ経営大学院の研究者David Almogらが発表した「When an AI Judges Your Work: The Hidden Costs of Algorithmic Assessment」だ。タイトルを直訳すれば、「AIがあなたの仕事を評価するとき：アルゴリズムによる査定の隠れた代償」となる。

果たして「アルゴリズムによる査定の隠れた代償」とは何か。論文によれば、AIを使用することで「評価にかかるコスト」を下げることができても、評価される人間の側が「AIに高く採点される働き方」を意識する結果、新たな弊害が生まれるのだという。

208人が参加した「AI vs 人間」評価実験

主張の内容を詳しく見ていこう。論文によれば、研究者らはクラウドソーシングのプラットフォームを利用し、米国在住の208人を対象にオンライン実験を実施した。参加者に課されたタスクは、20枚の日常写真（オレンジを搾る屋台の男性、スケートボードを持つ子どもたちなど）に対して、150〜400文字の英語キャプションを書くことだった。

このタスクは実験のために作られた架空の仕事ではない。SNSの投稿管理、保険の損害査定、機械学習の教師データ作成、図書館の資料索引など、画像キャプションの作成は現実の多くの職種で日常的に行われる業務だ。

実験のポイントは、参加者をランダムに2つのグループに分けた点にある。片方のグループには「あなたのキャプションはChatGPT（GPT-4o）が評価します」と伝え、もう片方には「大学卒業者の人間が評価します」と伝えた。

そして両グループともに、「面白さ」「努力」「正確さ」の3つの基準で評価されること、各画像で上位30%に入れば1ドルのボーナスが出ることを説明。基本報酬8ドルに加え、最大20ドルのボーナスを獲得できる設計となっており、参加者の平均実収入は14ドルだった。

重要なのは、ボーナスの比率を両グループともに30%に固定した点だ。これにより、「AI評価者のほうが甘い（あるいは厳しい）かもしれない」という信念に基づく行動変化を排除している。つまり、純粋に「誰に見られているか」の違いだけが行動に影響を与えるかどうかを検証できる設計になっていたわけである。

結果を見る前に、この実験において「AIによる評価がどこまで効率的だったか」も解説されているので、そちらも紹介しておこう。

AI評価が作業者に与えた影響

前述の通り、今回の実験では「AIによる評価」と「人間による評価」の2種類が実際に行われた。それぞれにかかったコストはというと、AI採点の場合は11.67ドル（約1840円）とPythonスクリプト作成作業1日分（研究者らが行ったもの）で済んだ一方、人間採点の場合は大学院生3人で平均54時間（およそ7営業日分）、計6480ドル（約102万円）を要したと報告されている。

企業がAI評価を導入する理由の1つに「評価作業にかかるコストの削減」があるが、実験での一例とはいえこれだけコストに差があると、企業として積極的にAI評価を実施したいと考えるのも当然だろう。

先述のJCOMの事例では、AIにより分析可能な通話件数が年間約1万6000件から約60万件へと大幅に拡大し、一人ひとりの評価の根拠が格段に厚くなったとされる。このような効率化は、人間の評価者では到底実現できない。

では、AI評価が作業者にどのような影響を与えたか見ていこう。

まず作業の「量」についてだが、AI評価グループの参加者が書いたキャプションは平均251文字で、人間評価グループの229文字を約10%上回った。一方、1つのキャプションにかける時間はAI評価グループが平均85秒、人間評価グループが94秒と、AI評価グループのほうが短かった。つまり、AI評価を受けると知った参加者は「速く、長く書く」傾向を示したのだ。

ここまでなら、AI評価は生産性を高める効果があると解釈できるかもしれない。問題は、作業の「質」にある。

文字数の差を統計的にコントロールした上で質を比較すると、AI評価グループのキャプションは、人間評価グループに比べて一貫して低い評価を受けた。これはChatGPTによる採点でも、3人の大学院生による採点でも同じ傾向だった。具体的には、AI評価グループのキャプションの質の低下幅は、評価指標の種類に応じて約12%から20%に達している。

噛み砕いて言うと、こういうことになる。AI相手だとわかった参加者は、とにかく文字数を増やして「やった感」を出す一方、一文字一文字の吟味は手薄になった。人間に評価されると知らされた参加者は、短くても丁寧に磨き上げたキャプションを書いた。そしてこの質の差は、「量」を揃えて比較しても消えなかった。

この結果が示唆するのは、AIによるコスト削減の裏側で、成果物の質が低下するというリスクだ。

「AI相手なら手を抜いてもいい」という意識があった？

もう1つ、この実験で浮き彫りになった興味深い行動変化がある。それは外部ツールの使用率だ。

研究者らは、実験用ウェブページに「テキストの貼り付けを検知する機能」を組み込んでいた。それによる分析の結果、AI評価グループの参加者は20.1%のキャプションでテキストを貼り付けていたのに対し、人間評価グループではわずか10.4%だった。AI評価を受けると知った参加者は、人間評価の場合のおよそ2倍の頻度で外部からテキストを持ち込んでいたことになる。

さらに興味深いのは、実験後のアンケートだ。研究チームは、AI検出ソフトの判定結果を正しく予測できたら1ドルのボーナスを出すという「報酬付き申告方式」を導入した。単に「ChatGPTを使いましたか？」と聞くだけでは13人しか使用を認めなかったが、報酬付き質問では29人に増えた。

ある参加者はこう回答している。「写真に写っている女性が白い傘を使っていたので、それが何のための傘なのかChatGPTに聞いた」。つまり、キャプションそのものをAIに書かせたのではなく、情報収集の手段としてAIを利用したケースもあったわけである。外部ツールの利用形態は、全面的な「丸投げ」から部分的な「補助利用」まで幅広い。

ここで重要なのは、テキストを貼り付けたキャプションは、貼り付けていないものより質が高い傾向があったことだ。つまり、外部ツールの利用そのものが質の低下を引き起こしたわけではない。それでもなお、AI評価グループ全体としては質が低かった。外部ツール使用の有無にかかわらず、「AI相手なら手を抜いてもいい」という意識がより根本的な原因として作用していたと解釈できる。

ではなぜ、人はAI評価になると仕事の質を落とすのか。

「人に認められる喜び」がパフォーマンスを左右する

研究者らは実験後のアンケートで、「報酬とは関係なく、評価者から高い点をもらえたらどの程度嬉しいか」を5段階で聞いている。人間評価グループは平均4.41、AI評価グループは平均4.09だった。

つまり同じ得点を得ても、それを「人間に認められた」場合と「AIに認められた」場合では、感じる喜びの大きさが異なるのだ。報酬体系がまったく同じでも、人間による承認は強い内発的動機づけとして機能し、それが仕事の丁寧さに反映される。

これは行動経済学における古典的な知見とも整合するという。

1993年にスイスの経済学者Bruno Freyが提唱した理論によれば、監視や罰則、報酬などによって人間の行動を統制しようとすると、それがその人物のもともと持っていた「やる気」を弱めてしまう「クラウディングアウト」が発生する場合がある。そして、今回の論文が示唆するのは、監視する主体が「人間」か「AI」かによって、その動機付けへの影響が質的に異なるということだ。

人間の上司に見られているという意識が、無意識のうちに仕事を丁寧にさせる。社会的な承認欲求は、表面的には見えづらいものの、確実にパフォーマンスに影響する「隠れたインセンティブ」というわけである。

この研究結果は、日本の企業にとりわけ重い示唆を与えるだろう。日本の人事評価制度は伝統的に、上司との面談を軸に構築されてきた。目標管理面談、中間面談、期末面談など、評価プロセスの各段階で上司と向き合うことが、暗黙のうちに社員の行動規律を支えてきた面がある。

「上司に見られている」という意識は、日本企業においては単なる監視以上の意味を持つ。それは従業員に対し、組織の期待を内面化さし、自律的に作業の質を高めるためのソフトなインフラとなっている。

この「人間に見られている感覚」をAI評価が代替できるのか。本論文において研究者らは、少なくとも現時点ではNOだと示唆している。

効率化の先にある問い

生成AIが企業の中で活用されるケースは、日本でも急速に拡大している。日本リサーチセンターの調査によれば、国内の生成AI利用経験率は2023年3月の3.4%から2025年9月には38.9%にまで達した。またBCGの2025年度調査では、日本の従業員の生成AI日常利用率は51%で、世界平均の72%には及ばないものの、急速に追い上げている。

AIは評価する側にも、評価される側にも浸透している。本論文が示したのは、この二重の浸透がもたらすパラドックスだ。AI評価はコスト削減と効率化をもたらす。だが同時に、評価される側の行動を変容させ、アウトプットの質を静かに蝕む可能性がある。そして評価される側もAIを使い始めるため、この構図はさらに複雑なものになる。

「上司がAIになる日」は、もはやSFの話ではない。それは今、多くの企業で現実になりつつある。だが本論文の教訓は明確だ。コスト削減という目に見えるメリットの裏で、「人に認められたい」という人間の根源的な欲求が満たされなくなるリスクを、企業は正面から見据える必要がある。

小林 啓倫（こばやし・あきひと）

経営コンサルタント。1973年東京都生まれ。獨協大学卒、筑波大学大学院修士課程修了。システムエンジニアとしてキャリアを積んだ後、米バブソン大学にてMBAを取得。その後コンサルティングファーム、国内ベンチャー企業、大手メーカー等で先端テクノロジーを活用した事業開発に取り組む。著書に『FinTechが変える! 金融×テクノロジーが生み出す新たなビジネス』『ドローン・ビジネスの衝撃』『IoTビジネスモデル革命』（朝日新聞出版）、訳書に『ソーシャル物理学』（草思社）、『データ・アナリティクス3.0』（日経BP）、『情報セキュリティの敗北史』（白揚社）など多数。先端テクノロジーのビジネス活用に関するセミナーも多数手がける。

筆者：小林 啓倫