「DeepSeek-R1」などを開発する中国のAIスタートアップ、DeepSeekの研究者が、一般的な大規模言語モデル(LLM)の推論能力を向上させる新しいアプローチを開発し、査読前の論文をプレプリントサーバーのarXivに公開しました。[2504.02495] Inference-Time Scaling for Generalist Reward Modelinghttps://arxiv.org/abs/2504.02495DeepSeek unveils new AI reasoning method as anticipation for its next-gen model rises | South C