当你听说某个AI模型在数学考试中得了满分时,可能会觉得人工智能的数学能力已经超越人类了。然而真实情况远比这复杂。最近这项来自腾讯和中国人民大学的研究揭示了一个令人深思的现象:当我们用真正的前沿数学研究来测试这些AI时,即便是最先进的模型也会暴露出巨大的能力短板。 研究团队开发了一个名为EternalMath的测试系统,它的特别之处在于能够自动从最新发表的数学论文中提取问题。这就好比给AI出题的老师 ...
In 2026, if your toaster doesn’t have a neural accelerator, it’s considered legacy hardware. The EliteBoard G1a proudly wears ...
以DeepSeek‑R1为例,仅靠强化学习训练,模型在AIME数学推理基准上的pass@1从15.6%提升至 77.9%,充分展示了RL在低数据量条件下即可实现大幅能力跃升,迅速成为后训练赛道的新范式。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果