Corecognition 团队贡献了 Qubits |公众号Qbita文章被Yann Lecun转发
Corecognition 团队贡献了 Qubits |公众号Qbitai Yann Lecun通过的ICML 2025研究给多模态大模型带来了打击——大多数AI在复杂任务上表现良好,但在人们从小学到的基本能力上却失败了。研究人员建立了一个名为 Corecognition 的银行问题的评估,该问题涵盖了婴儿和儿童中出现的 12 种基本提供者(如永恒物体、可视化、直觉物理、知觉恒常性等),以系统地测试模型。在Corecognition Benchmark的1503项“经典发展心理学测试”中,230个主流模型体系暴露了世人常识中的“重大盲点”。在准确率的归一化比较中,大型多模态模型普遍陷入了认知认知的基本能力,差距往往达到双数,即使规模较小也很难做到。更大。这是否意味着MLLM(多模态大模型)的自然认知结构缺乏支持早期人类研究的基本知识机制?也就是说,他们缺乏“基础”吗?核心认知基准的构建 来自加州大学圣地亚哥分校、约翰霍普金斯大学、埃默里大学、北卡罗来纳大学教堂山分校、斯坦福大学、卡内基梅隆大学等机构的研究人员历时一年打造并开源了业界首个认知基准。该基准测试围绕Piaget心理学和层次框架的发展,涵盖了来自持续机械推理的12个主要认知概念,共有1503个多模态问题,每个类别的示例≥95个,包括图像和视频。研究团队在设计问题时遵循以下高标准: 高度歧视、无基础的模型从逻辑上讲,目标的 ics 更有可能选择错误的选择。最小混淆题试图仅依靠概念来评估来完成推理,消除与其他基础知识或外部能力的耦合,防止跨概念中断。所有没有文本快捷方式的问题都应该使用图像和文本的组合来获得正确的答案。所有数据均由 12 名具有 COG 背景的高年级本科生或研究生进行了注释和审核,包括基础科学、计算机科学或统计学,并在 Amazon Mechanical Turk 上进行了两个周期的交叉验证和手动验证。干预测试显示出陷阱“误解”,为了进一步证明模型是否真的坚持基本概念,研究团队提出了黑客的概念:通过构建“控制组”和“干预组”(manipulad),在测试任务中故意颠倒与基础知识相关的关键特征,如果模型确实不符合基本概念,理解概念或走捷径。比如物理直观测试:原题同时释放两个小球,哪个会落地?检查基本直觉(当放电高度为 pareHo 且忽略空气阻力时,自由落体将在相同的时间内到达地面)。双胞胎版本的尺寸保持不变,但发布的高度有所改变,以测试模型是否确实是根据着陆高度/时间来描述的,而不是套用固定的“同时着陆”模板。人们能够正确回答同样的问题,并且能够根据身高的变化及时更新自己的判断。模型显示原题是正确的(选择C),但孪生版本仍然使用旧模型,选择C,并直接减少-揭示表面模板的希望而不是真正理解落体定律。五个主要发现: 1. 就低水平而言在与人类理解直接相关的能力(如边界感知、连续性、物体的永恒性、空间性、视角等)方面,模型在高层次能力(如理解意图、工具使用、机械推理)之后获得显着提升,这与各级别的稳定和高度稳定的建模模型有显着区别。这表明当前的MLLM在早期阶段的人的基本“基本”所有权方面存在系统性缺陷。 2. 相关矩阵显示,家庭能力高水平内部的关系较强,而持久性/空间性/连续性底层与能力高水平之间的关系通常较弱。说明该模型缺乏人从low到mRaise的脚手架式认知发展结构,模型的高级理解和推理并不是建立在基础能力的基础上的。它还可以解释为什么模型存在稳定性缺陷。 3. r研究团队对第三阶段12项基础能力得分与26项公共基准进行了相关性分析。结果表明,除了透视和直观物理之外,大多数基础能力与公共基准(chartqa 除外)和高级能力显着正相关。说明基础越强,上层活动就越稳定。作为高级人类推理基础的物理学的视角和直观技能所表现出的低级关系与我们之前在矩阵关系中看到的模式一致。这是现有模型的主要知识的直接证据。 4、基于230个模型配备的“规模-绩效”回归斜率显示,低水平的能力随着规模的上升而显着提高或几乎不变;其中,取展望还表现出逆规模效应(模型越大,效果越差)。增加尺度le很大程度上受益于高水平的能力,但对低水平的核心能力的帮助有限甚至是负面的。 5. hacking中的hacking概念结果表明,大模型相对于小模型总体来说并没有改善,在某些情况下还更差。说明工会的招揽还不足以消除走捷径的希望,获得扎实的基础知识。直观上来说,模型并不是“越大越好”,而是在推测上模型越大越好。结合结果图中的信息,模型可以概括为四类:基于知识性问题和操作性问题的关键问题都表现良好(接近人类水平,但样本比例很小),这表明控制对捷径的依赖程度较高,操作性问题明显减少,表明对表面线索或训练均匀性的基本期望和缺乏对概念要素的把握的原因。缺乏主力控制的题是低于或接近机会水平的,而操纵题是没有稳定收益的,体现了基本的“基本”基础。无意的控制问题和操纵都近似随机地变化并且整体上不可靠(更多地反映了噪音和运气)。认知指令带有短期收益,但对于底层差距却很难做到。识别的性能模型与相应的非推理版本模型的比较表明,识别的识别模型的大部分基本任务并没有得到改善。关键不是“是否可以使用识别”,而是如果存在底层表示,即预训练阶段基础知识的范围和结构还不够。同时,研究团队发现,供应指令的引入(明显激发了提问前的相关概念,目前为止captures)可以带来近6%的立竿见影的收益,这表明模型内部可能分布有相关线索,但缺乏有效的获取和调用机制。然而,此类方法在实际情况下的可用性和可用性是有限的,实际应用中往往无法提供明确的概念标签来指导模型。除了卓越的“书写和绘画能力”之外,真正的智慧首先取决于处理世界上最简单的政策。本研究表明,对参数续集的认识并不一致。基础是否扎实是关键。与其盲目追求“更大更强”,不如改变出发点:先把基础打好,让模型知道在变化、差异和噪音面前保持相同的共同判断和直觉原因。简单来说:先打地基,再打地板;尺度是加法,核心认知是再现。论文地址:https://arxiv.org/abs/2410.108555网站:https://grow-i-like-a-mild.github.io/core--nowledge/数据集:https://huggingface.co/datasets/williamium/corecognition 返回