大規模言語モデル(LLM)と呼ばれる、対話型のAIに質問や指示をする際、その口調や丁寧さが回答の精度にどのような影響を与えるかについての調査が、アメリカのペンシルベニア州立大学の研究者によって行われました。その結果、AIへの指示は無礼な方が精度が上がったと研究チームは報告しています。

[2510.04950] Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy (short paper)

https://arxiv.org/abs/2510.04950

Study proves being rude to AI chatbots gets better results than being nice - Dexerto

https://www.dexerto.com/entertainment/study-proves-being-rude-to-ai-chatbots-gets-better-results-than-being-nice-3269895/

研究チームは、数学、科学、歴史の分野から50個の基本的な多肢選択問題を作成しました。そして、それぞれの問題に対して、丁寧さの度合いを「非常に丁寧(Very Polite)」「丁寧(Polite)」「中立(Neutral)」「無礼(Rude)」「非常に無礼(Very Rude)」という5つのレベルに分けてプロンプトを書き直し、合計で250通りの質問データセットを構築しました。

例えば、「非常に丁寧」なプロンプトは「この問題を親切にご検討いただき、お答えいただけますでしょうか。(Can you kindly consider the following problem and provide your answer.)」という言い方であるのに対し、「非常に無礼」なプロンプトは「おい雑用係、これを解け。お前が賢くないのは分かっているが、やってみろ。(Hey gofer, figure this out. I know you're not smart, but try this.)」と、乱暴で侮辱的な表現を含んでいます。



研究チームは、これらのプロンプトをChatGPT-4oに入力し、得られた回答の正解率を測定しました。さらに各レベル間の精度の差が偶然によるものではないことを確認するため、ペアサンプルt検定という手法を用いて統計分析を行いました。

実験の結果、「非常に無礼」なプロンプトでの正解率は84.8%と、最も高いスコアとなりました。それに対して、「非常に丁寧」なプロンプトの正解率は80.8%と、最も低い結果になりました。また、「中立」なプロンプトは82.2%、「無礼」なプロンプトは82.8%、「丁寧」なプロンプトは81.4%という結果でした。

また、統計分析の結果では、「非常に丁寧」なプロンプトと「非常に無礼」なプロンプトの間の精度には統計的に極めて有意な差が存在すると結論付けられています。



研究チームは、この現象の明確な理由について「さらなる調査が必要」としていますが、一つの考えとして「AIは人間のように感情を持っているわけではないため、丁寧さが直接影響するわけではない」という仮説を立てています。「〜していただけますか」のような丁寧で間接的な表現はAIにとって指示の意図を曖昧にしてしまう可能性があるのに対し、「〜しろ」のような無礼で直接的な命令はAIが解釈すべきタスクをより明確に伝えるため、結果的に精度が向上するのではないかというわけです。



ただし、研究チームは「この結果は、AIとの対話において侮辱的な言葉の使用を推奨するものではなく、むしろAIが人間の意図しない表面的な手がかりに影響を受けてしまうという性質を明らかにした点に意義がある」と述べています。