传统基础模型在S-NIAH单针大海捞针等简单检索任务中尚能维持表现,但在信息密度更高的复杂任务中,其推理性能随输入长度增加而下降。相比之下,RLM在输入长度超过特定阈值区间后,依然保持得分稳定性。
【新智元导读】你有没有发现,你让AI读一篇长文章,结果它读着读着就忘了前面的内容? 你让它处理一份超长的文档,结果它给出来的答案,牛头不对马嘴? 这个现象,学术界有个专门的名词,叫做上下文腐化。
2025年的最后一天, MIT CSAIL提交了一份具有分量的工作。当整个业界都在疯狂卷模型上下文窗口(Context ...
新年伊始,MIT CSAIL 的一纸论文在学术圈引发了不小的讨论。Alex L. Zhang 、 Tim Kraska 与 Omar Khattab 三位研究者在 arXiv 上发布了一篇题为《Recursive Language ...
早在 2025 年 10 月,Zhang 和他的导师 Omar Khattab 就在博客上公开了初步想法,引发了一些关注。如今这篇正式论文带来了更系统的实验和更扎实的数据,论证了通过让语言模型把长文本当作“外部环境中的变量”来处理,可以让模型有效处理超出其上下文窗口 2 个数量级的输入。
在 OpenAI 经历了 Sam Altman 被解雇又回归的内部动荡后,Mira 选择离开,并迅速组建了一支 “梦之队”—— 核心成员包括 OpenAI 前研究副总裁 John Schulman、Lilian Weng ...
Go 0 MIT 1 0 1 Updated 4 days ago camellia Public Camellia provide easy-to-use server toolkits, such as: redis proxy、delay queue、id gen、hot key and more Java 714 MIT 158 48 (1 issue needs help) 0 ...
如果你让AI随便生成Bug,它大概率会产生幻觉,为此SSR设计了一套如同安检般严格的一致性验证(Consistency Verification)流程。 逆向变异测试(Inverse Mutation ...
“你背的不是望远镜,是火箭发射筒。”——几乎每个把8英寸牛反扛上山的天文爱好者,都听过这句调侃。80斤金属筒、1.2米镜筒、易碎的抛物面主镜,让“追星星”变成“撸铁现场”。现在,一盆PLA塑料粒子+一台千元级桌面打印机,就能把同规格仪器压到12斤,成 ...
如今,5个月过去,「狂飙」的GenAI领域已然大不相同。不仅GPT-4迎来了下一代模型GPT-4o,新发布的Claude 3.5 Sonnet、Codestral等模型都在编码方面性能优秀。 Cosine发布的报告显示,在SWE-Bench中,Genie的得分为30.08%,轻松超越了分数为13.8%的Devin。