Google双线出击!T5Gemma重燃encoder-decoder架构战火,性能暴涨12分;MedGemma坚守decoder-only路线,强攻医疗多模态,击穿闭源壁垒。Gemma体系完成「架构+落地」双重进化,打响Google开源反击战。 2023年以来,大模型的战场由decoder-only架构一统江湖。 从GPT家族到LLaMA、Gemma ...
这项由马里兰大学和Meta公司联合完成的突破性研究发表于2025年5月28日的arXiv预印本平台(arXiv:2505.22664v1 [cs.CV]),论文题为《通过LLM替身实现零样本视觉编码器嫁接》(Zero-Shot Vision Encoder Grafting via LLM Surrogates)。该研究由Kaiyu Yue、Vasu Singla、Menglin ...
在多模态模型里,CLIP-style encoder 往往把视觉表征过早地拉近到文本空间:对于抽象层面的问答,如总结图片大致内容,这样的表征其实是没有什么问题的,但一旦追问与语言无强依赖的细节,模型就更易出现幻觉。根本原因之一,是在文本空间对齐之前,原生 ...