コーディングAIによるカンニングを防いでより正確なプログラミング性能が測定可能なベンチマーク「DeepSWE」

2026年5月28日 8時0分

近年はソフトウェア開発にコーディングAIを使用する開発者が一般的になっており、コーディングAIの性能を測るさまざまなベンチマークが存在します。そんなコーディングAI向けベンチマークの欠点を改善したという新たなベンチマーク「DeepSWE」が登場しました。DeepSWEhttps://deepswe.datacurve.ai/blogDeepSWE blows up the AI coding leaderboard, crowns GPT-5.5, and finds Claude Opus exploiting a benchmark loophole | Ven

記事を読む

ランキング