锡林郭勒盟铝皮保温工程姚顺雨在腾讯个商量：在“凹凸文”这事上，在座的诸位都不足格

225 年 4 月锡林郭勒盟铝皮保温工程，还在 OpenAI 的姚顺雨发了篇博文《The Second Half》，建议个判断：AI 插摆布半场了，接下来比的不是谁模子大，而是谁能好地界说问题。

半年后他加入腾讯。又过了两个月，他主的个商量后果发布了。这个后果并未出新模子，它径直抛出了个数据，GPT-5.1 在项新测试中只拿到了 23.7。

测试的设定很粗浅，把统共需要的信息都放在凹凸文里，让模子去完成任务。考的是模子能否从目下的材料里学会新东西。

界限是模子看了，但没学会。

没法舞弊的查验

这篇论文叫 CL-bench，全称 Context Learning Benchmark，226 年 2 月 3 日由腾讯混元团队和复旦大学聚拢发布。当作名堂正经东说念主，姚顺雨排在作家列表的后位。

Context Learning 不是新成见，但这篇论文对它的界说为尖刻，模子必须从凹凸文中学习到预教练阶段不存在的新学问，并正确运用。粗浅说，要让模子现场学会它没见过的东西，不仅仅"回忆"它以前见过的内容。

为了杀青这个方针，商量团队在数据构建凹凸了狠功夫。

目前业界止数据混浊常见的作念法相比粗浅狰狞，设定期间切割点（比如只考 224 年以后的新闻）、把题库藏起来不公开、或者用算法去重。CL-bench 作念的是另回事，它在"造物"。

商量团队组织了批域，编造乏构了多个平行寰宇和假学问。比如，他们编造了部叫《Sol Accord》（索尔协定）的星际法律，在执行中根底不存在，模子不行能在预教练数据里背过相干法条；他们还编造了个 SkyNet 东说念主机 SDK，里面的函数名、调用章程全是假的，模子若是用它系念里的 Python 学问去写代码，必错疑。此外，他们还修改了执行寰宇的内容来创建变体，比如更正历史事件的走向、更动科学界说，并纳入些其小众、简直不行能出当今预教练数据中的长尾内容。

邮箱：215114768@qq.com

即等于发扬好的 GPT-5.1 平均得分也仅为 23.7 分。

这种通过"反事实"和"全虚构"来构建 benchmark 的法，是挣扎刷榜、亦然难的时刻。考据果很径直，在不给任何凹凸文的情况下，让 GPT-5.1 径直作念这些任务，界限只可作念对不到 1。这诠释模子确乎没见过这些学问，必须从给定的凹凸文里学。没法舞弊，亦然通过率独一 17.2 的中枢原因。

终锡林郭勒盟铝皮保温工程，CL-bench 包含了 5 个复杂凹凸文、1899 个任务、3167 个考据门径。平均每个凹凸文的标注耗时约 2 小时，一皆由资域制作。这个使命量本人就诠释了商量团队的计较，他们想造的不是个刷分榜单，而是把简直能测出模子"学习才气"的尺子。

四种角，四场查验

在这场测试中，AI 需要饰演四种角。

未必它是法官，需要依据部从未见过的虚构法律断案。给它部长达 2.3 万字、刚刚生的新法律，让它判起简直纠纷。法条全是新的，判例全是新的，模子必须现场阅读、证实、运用。

未必它是阵势员，必须用种全新的语法写代码。比如基于门新预备的编程讲话圭表，杀青个带有期间条目断绝的周期阵势。模子若是用它系念里的语法，必错疑。它必须严格降服这个 " 假文档 " 的章程。

未必它是操作员，需要在套从未见过的使命流系统里完成任务。按照份全新的居品手册，步步扩充操作。进程图是新的，术语是新的，不停条目是新的。

难的时候，它要像科学样，面临堆散乱的实验数据，我方从新限定。比如分析 3 份原始实验日记，关系式并推测共振常数。前三种角本色上是演绎理，给你章程让你运用。这种是归纳理，让你从数据中我方发现章程。

这四类场景障翳了大部分简直使命中需要的学习才气：读文档、学章程、照进程、找限定。这亦然为什么 CL-bench 的界限如斯令东说念主担忧，若是模子连这些基本的学习任务都作念不好，它在简直使命场景中的发扬不言而谕。

CL-bench 的任务类别溜达

前沿模子集体翻车

商量团队在 CL-bench 上测试了十个的讲话模子，界限异常惨淡。

平均任务处治率独一 17.2。发扬好的 GPT-5.1 ( High ) 也独一 23.7。要知说念，统共完成任务需要的信息都依然明确给出了，就在凹凸文里，模子却在大多量任务上失败了。

论文详确分析了失败原因锡林郭勒盟铝皮保温工程，几个发现值得注意。

忽略或误用凹凸文是致失败的主要原因。致失实的主因经常并非信息缺失，模子对凹凸文要津细节的冷漠才是关键地方。挑升义的是，在许厚情况下，模子会倾向于使用它在预教练阶段学到的 " 老教化 " 来处治任务，即使凹凸致密确界说了新的章程、成见或阵势，它也不去学习和使用。这就像个古板的老职工，宁可用我方的老办法，也不肯意看新文档。

长凹凸文处理和教导遵命是必要但不充分条目。那些难以跨凹凸文跟踪依赖关系或难以精准遵命不停的模子，发扬确乎差。但即使是能够处理长输入、可靠遵命教导的模子，仍然在许多任务上失败。这诠释凹凸文体习需要的才气，铁皮保温远不啻能处理长文本和能"听话"。

归纳理远比演绎理难。在科学类任务上，模子的发扬明差，任务处治率时时低于 1，并且界限波动很大。从数据中发现限定，比运用给定的章程要困难多。这马虎指向了刻下大模子架构的个根底局限。

此外，论文还发现，的理强度时时能莳植凹凸文体习果。比如 GPT-5.1 在理强度成就下，在某些任务上的发扬莳植了约 6。但其他模子莳植有限以至下落，诠释单靠多想会儿并不够，模子还必须能正确采纳和组织凹凸文信息。

姚顺雨的预判

225 年 4 月，姚顺雨在博文《The Second Half》中建议了个中枢不雅点，AI 发展正在从"上半场"插足"下半场"。上半场的主题是若何教练出强的模子，大的参数、多的数据、强的算力。下半场的主题则变了，若何界说正确的问题，若何评估简直的跳动。

他写说念，评估将比教练焦灼。咱们不再仅仅问"咱们能教练出个能处治 X 的模子吗"，而是在问"咱们应该教练 AI 去作念什么，以及若何掂量简直的跳动"。

在次访谈中，他跳动解说，当今法的问题已基本处治，简直焦灼的是，咱们要用这个通用法，处治什么问题？

CL-bench 界说了什么问题？它界说的问题是，模子能否从刻下凹凸文中学习？

这个问题之前被冷漠了。行业的隐含假定是，只消凹凸文给到位（context engineering 作念得好），模子就能完成任务。CL-bench 的数据破了这个假定，给到位，不等于作念得对。凹凸文体习，当作项基础的模子才气，被严重低估了。

姚顺雨在 224 年主过另个 benchmark，τ -bench（ICLR 225）。阿谁测试热心的是 Agent 能否遵命域章程、与用户进行多轮交互。CL-bench 则跳动，测的是模子能否从凹凸文体习新学问。两者共同指向个判断，简直寰宇需要的是学习才气，而非作念题才气。

CL-bench 论文原文有段话很：大讲话模子主要依赖"参数化学问"，这是预教练阶段压缩进模子权重的静态系念。理时，模子大多调用这些存储的里面学问，而非主动重新输入信息中采纳营养。因此，刻下化的模子擅长理它们"知说念"的事情，但用户需要的是让模子处治依赖于错杂且动态变化的凹凸文的任务。

行业正在发生什么变化

若是把近几年 AI 发展的主旋律作念个粗浅梳理，苟简是这么的：224 年的主旋律是 Scaling，大的模子、多的数据、强的算力；225 年的主旋律是 Reasoning，以 o1、R1、Deep Research 为代表的理才气莳植。

那么 226 年呢？CL-bench 指向了个可能的新向，Context Learning。

从 Prompt Engineering 到 Context Learning 的演进旅途

挑升义的是，西大厂目前主要在处治另个问题。Anthropic 在 224 年底发布了 MCP（Model Context Protocol），OpenAI 和 Google 随后跟进，这个条约被称为 AI 界的 USB-C"，方针是让模子容易接入外部器具和数据源。225 年 12 月，Anthropic、OpenAI 和 Block 聚拢诞生了 Agentic AI Foundation，将 MCP 捐赠送 Linux 基金会，动开源门径化。同月，Anthropic 又发布了 Agent Skills 洞开门径，让 AI 能扩充具体的任务。

这些奋力处治的都是若何把 context 送进模子的问题，若何让模子接入多量据源，若何让模子调用多器具，若何让模子扩充复杂的使命流。

CL-bench 问的是，送进去之后，模子能学会吗？

Anthropic 我方的商量也波及了相通问题。他们在对于 context engineering 的博文中提到了 context rot 表象，跟着凹凸文长度增多，模子调复书息的才气会下落。但 CL-bench 揭示的问题是。即使凹凸文不长，模子也不定能"学会"里面的新学问。这是学习才气，与检索关。

论文在预计部分提到了个远的挑战，即使凹凸文体习才气莳植了，它仍然是"会散失的"（ephemeral），凹凸文窗口清空，学到的东西就没了。下步的挑战是 Memory Consolidation（系念安静），若何让从凹凸文中学到的学问手久化？这可能是 226 年之后的新战场。

这对腾讯意味着什么

姚顺雨入职腾讯后主的个商量输出，他遴荐用个 benchmark 重新界说问题。

目前腾讯混元在国内大模子阛阓的份额并不先，字节豆包、阿里通义排在前边。在这个阵势下，腾讯遴荐热心个基础的问题：模子的学习才气。

这个遴荐可能和腾讯的业务基因关系。腾讯是应答和游戏巨头，其中枢业务本色就是海量的"动态凹凸文"，聊天纪录、游戏状况、用户步履。姚顺雨强调 Context Learning，可能是在为腾讯中枢的业务场景地基，让 AI 读懂此时此刻的用户，而不是通过预教练读懂畴前的用户。

他入职后说过：腾讯 To C 基因强，要念念考若何让大模子给用户提供多价值。好多时候需要的不是大模子、强的强化学习，而是稀奇的 Context。

这马虎才是 AI 简直插足东说念主类社会的门票锡林郭勒盟铝皮保温工程，不再作念个博学的旁不雅者。

锡林郭勒盟铝皮保温工程姚顺雨在腾讯个商量：在“凹凸文”这事上，在座的诸位都不足格

热点资讯

推荐资讯

话题标签

友情链接：

锡林郭勒盟铝皮保温工程 姚顺雨在腾讯个商量：在“凹凸文”这事上，在座的诸位都不足格

莆田设备保温工程 这价钱你敢信？调停者Y70电竞手机时隔4年

河源罐体保温厂家 澜起科技：本年季度，DDR5 RCD芯片出

六盘水罐体保温 中科江南联袂华为云、百分点科技，共创数智财税

铜川铝皮保温 锡二院！你要火了！

热点资讯

推荐资讯

话题标签

友情链接：

锡林郭勒盟铝皮保温工程姚顺雨在腾讯个商量：在“凹凸文”这事上，在座的诸位都不足格

莆田设备保温工程这价钱你敢信？调停者Y70电竞手机时隔4年

河源罐体保温厂家澜起科技：本年季度，DDR5 RCD芯片出

六盘水罐体保温中科江南联袂华为云、百分点科技，共创数智财税

铜川铝皮保温锡二院！你要火了！