神经信息处理系统大会(Conference on Neural Information Processing Systems,简称NeurIPS),是机器学习和计算神经科学领域的顶级国际会议。NeurIPS 2025将在美国圣地亚哥(12月2日至12月7日)和墨西哥城(11月30日至12月5日)两地举办。本文章将介绍自动化所在本届会议上的录用论文成果。

01. DiCo: 重振卷积网络以实现可扩展且高效的扩散建模

DiCo: Revitalizing ConvNets for Scalable and Efficient Diffusion Modeling

★Spotlight

作者:艾雨昂,樊齐航,胡雪峰,杨振恒,赫然,黄怀波

本研究围绕扩散模型的高效生成展开。近年来,基于Transformer的扩散模型(DiT)在图像生成领域表现突出,但其全局自注意力机制带来了巨大的计算开销。本文通过深入分析预训练的DiT模型发现,自注意力在生成任务中多以局部建模为主,长距离依赖的作用有限,这提示我们有可能设计出更高效的替代架构。 为此,我们提出了 Diffusion ConvNet (DiCo),一种完全基于卷积的扩散模型骨干结构。DiCo利用轻量化的点卷积与深度卷积构建基础模块,并引入紧凑通道注意力,有效缓解了卷积网络中通道冗余问题,提升了特征多样性与表达能力。

在ImageNet条件生成实验中,DiCo-XL在256×256分辨率下实现了2.05的FID,并在512×512分辨率下取得2.53的FID,且相比DiT-XL/2实现2.7至3.1倍的加速。同时,在MS-COCO数据集上的实验表明,纯卷积的DiCo同样具备较强的文本到图像生成潜力。

DiCo在保持高效率的同时实现了优异的图像质量


02.分区再适应:应对预测偏差以实现可靠的多模态测试时自适应

Partition-Then-Adapt: Combating Prediction Bias for Reliable Multi-Modal Test-Time Adaptation

★Spotlight

作者:王国威,吕凡,丁长兴

本文针对多模态任务在测试时遇到的多模态同时域偏移问题提出了Partition-Then-Adapt(PTA)方法。现有测试时自适应(TTA)技术多集中于单一模态的域偏移,当多模态同时受到干扰时,模型难以区分可靠样本,容易出现预测偏差并导致误差积累。PTA由两部分组成:一是“分区与去偏重加权”(Partition and Debiased Reweighting,PDR),通过比较样本预测标签频率与批次平均水平,量化预测偏差并将数据划分为潜在可靠和不可靠两类,再结合置信度用分位数方法重新加权。二是“多模态注意力引导对齐”(Attention-Guided Alignment,AGA),利用可靠样本的注意力分布引导不可靠样本,通过最大均值差异正则化使模型聚焦于语义相关线索。

该方法在Kinetics50-C、VGGSound-C等多模态基准以及CMU-MOSI、CMU-MOSEI、CH-SIMS等真实数据集上均显著优于现有方法,尤其在高噪声、多模态同步域偏移场景下提升明显,并在动态环境和小批量数据情况下表现出较强鲁棒性。PTA不仅缓解了高置信但偏差大的“假可靠样本”问题,还在保持效率的同时提高了模型在多模态测试时自适应任务中的稳定性和准确性。

PTA方法设计


03. RepoMaster:面向复杂任务求解的 GitHub 仓库自主探索与理解框架

RepoMaster: Autonomous Exploration and Understanding of GitHub Repositories for Complex Task Solving

★Spotlight

作者:汪华灿,倪子懿,张硕,卢硕,胡森,何子扬,胡晨,林嘉烨,郭毅芙,杜云涛,吕品

代码智能体的终极目标是自主解决复杂任务。尽管大语言模型(LLM)在代码生成方面进步显著,但从零构建完整代码仓库仍具挑战,而现实任务往往需要完整仓库而非简单脚本。值得关注的是,GitHub上汇集海量开源项目,常被用作“轮子”复用于复杂任务,但现有框架如OpenHands和SWE-Agent对其仍难以有效利用:仅依赖README文件指导不足,深入探索则面临信息过载与依赖关系复杂两大核心障碍,且均受限于当前LLM的有限上下文长度。

为此,我们提出RepoMaster——一个专注于探索和复用GitHub仓库的自主智能体框架。在理解阶段,通过构建函数调用图、模块依赖图与层级化代码树,精准识别关键组件,仅向LLM提供核心要素而非完整仓库内容。在自主执行过程中,依托探索工具逐步拓展关联组件,并通过信息剪枝优化上下文使用效率。

实验结果显示,在MLE-bench-R上RepoMaster的有效提交率较最强基线OpenHands提升110%;在GitTaskBench基准中,将任务通过率从40.7%提升至62.9%,同时显著降低95%的token消耗。该框架为代码智能体高效利用现有代码资源提供了创新性解决方案。

图1. 所提RepoMaster总体流程,包括代码库搜索、代码库混合结构分析和自主探索与执行。

图2. RepoMaster 的自主探索–执行循环概览及示例演示。

该智能体首先对初始上下文进行分析(步骤 1),并指定需要检查的文件(步骤 2)。为提高信息获取效率,系统从该文件中提取关键信息(步骤 3),并将其附加至当前上下文(步骤 4)。在随后的探索–执行迭代过程中(步骤 6→2,步骤 7→3),智能体利用探索工具识别更多相关文件,重复基于上下文的代码探索。当收集到足够的信息后,RepoMaster 在编写与执行 “.py” 脚本之间交替进行,通过错误处理与基于反馈的调试,不断优化执行过程,直至任务完成。

04. 进步的幻象?视觉语言模型测试时自适应方法再审视

The Illusion of Progress?A Critical Look at Test-Time Adaptation for Vision-Language Models

作者:生力军,梁坚,赫然,王子磊,谭铁牛

视觉语言模型(VLM)的测试时适应(TTA)方法能够在无需额外标注数据的情况下提升模型在推理阶段的性能,因此受到广泛关注。然而,现有TTA研究普遍存在基准结果重复、评估指标单一、实验设置不一致以及分析不够深入等局限,这阻碍了方法间的公平比较,也掩盖了其实际优缺点。

为此,我们提出了一个面向视觉语言模型的测试时适应综合评测基准——TTA-VLM。该基准在一个统一且可复现的框架中实现了8种片段式TTA方法和7种在线TTA方法,并在15个常用数据集上对其进行了系统评估。与以往仅关注CLIP的研究不同,我们将评估范围扩展至SigLIP模型,并引入训练时调优方法以检验TTA方法的通用性。除了分类准确率,TTA-VLM还整合了鲁棒性、校准性、分布外检测能力及稳定性等多种评估指标,从而能够对TTA方法进行更全面的评估。通过大量实验,我们发现现有TTA方法相比早期开创性工作带来的性能提升有限、当前TTA方法与训练时微调方法的协同效果不佳、准确率的提升常常以模型可信度的下降为代价。

所提基准 TTA-VLM 的总体结构


05. 思考与视觉绘图交织强化视觉-语言模型中的空间推理能力

Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing

作者:吴俊飞,关健,冯凯拓,刘强,吴书,王亮,武威,谭铁牛

传统视觉语言模型(LVLMs)普遍采用“视觉转文本”的推理范式:先将图像压缩为token序列并映射至语言空间,再交由大语言模型(LLM)进行纯文本推理。然而,受限于视觉编码器的能力与训练数据,这一过程往往丢失大量关键的细节与时空信息;同时,在冗长的文本推理链中,模型对原始视觉信号的关注也逐渐减弱,制约了其空间推理能力。

针对这一瓶颈,我们提出全新推理范式——“Drawing to Reason in Space”(空间绘图推理),让LVLMS能够像人类一样“边画边想”:在视觉空间中动态选择关键帧,并绘制参考线、标记框等辅助标注,引导视觉编码器精准捕捉时空关系,显著缓解信息损失问题。我们设计了三阶段训练框架——从冷启动建立基础绘图能力,到通过反思拒绝采样筛选高质量推理路径,最终以强化学习端到端优化任务目标,并开源模型 ViLaSR-7B。实验表明,该方法在多个空间推理基准上平均提升 18.4%;在李飞飞教授团队提出的 VSI-Bench 上,性能达到 45.4%,与 Gemini-1.5-Pro 相当,全面超越现有方法,为视觉语言模型的空间推理开辟了新路径。

Drawing to reason in space推理范式


06. DAA:在测试时类发现中放大未知差异

DAA: Amplifying Unknown Discrepancy for Test-Time Discovery

作者:刘天乐,吕凡,倪成功,张彰,胡伏原,王亮

在动态开放的真实环境中,人工智能系统不仅要保持对已知类别的识别,还必须具备在线发现新类别的能力。然而,现有测试时适应与记忆增强方法多依赖静态特征与固定原型,难以应对未知类别的干扰,导致新类识别不稳定、边界模糊和错误积累。

针对这一挑战,我们提出了面向测试时发现(Test-Time Discovery,TTD)任务,结合差异放大适配器(DAA, Discrepancy-Amplifying Adapter) 与短期记忆更新(STMR, Short-Term Memory Renewal)。DAA 在训练阶段通过模拟未知类并放大特征差异,使模型在面对未知数据时具备更强的区分力。STMR 在测试阶段动态刷新短期记忆原型,有效降低错误传播并保持已知类性能。在 CIFAR100-D、CUB-200-D 与 Tiny-ImageNet-D 等多个基准上,我们的方法在实时评估与后评估中均显著优于现有最先进方法,能清晰分离未知类并提升稳定性。这项研究为开放世界和持续学习提供了全新思路,也为医疗、自动驾驶与智能机器人等需要在线新类发现的应用奠定了技术基础。

07. 视觉模型在图结构理解中被低估的力量

The Underappreciated Power of Vision Models for Graph Structural Understanding

作者:赵鑫鉴, 庞威, 薛中凯, 简相如,张磊, 胥瑶瑶, 宋晓壮,吴书,于天舒

本研究探索了视觉模型在图结构理解方面尚未充分开发的潜力。图神经网络(GNN)采用局部信息聚合机制,与人类视觉感知图结构的方式存在根本差异,人类通常先把握全局结构,再关注局部细节。研究发现,将图转换为图像后,纯视觉模型在图级别基准上能达到与GNNs相当的性能,但展现出完全不同的学习模式。然而,现有的基准往往将领域特征与拓扑理解混合在一起,难以深入分析这种差异的根源,也无法单纯评估模型的结构理解能力。为此,我们提出GraphAbstract,专用于测试模型是否具备类似人类的图结构理解与泛化能力。该基准通过系统性增加图的规模来评估模型的跨尺度泛化能力,这是人类图认知的一个重要特征。

实验结果显示,视觉模型在需要全局结构理解的任务上明显优于GNN,并保持了更好的跨尺度泛化性能。值得注意的是,与使用更强大的GNN架构相比,为GNN加入位置编码等全局结构先验后,其性能和泛化性的提升更为显著。这一发现与视觉模型的天然优势共同揭示了获取全局拓扑信息是图理解成功的核心要素。本研究为设计更强大的图模型探索了新的路径。

GraphAbstract基准上不同模型的性能对比,显示视觉模型在跨尺度泛化方面的优势。

08. 输入输出对齐的高效3D视觉-语言-动作模型

BridgeVLA:Input-Output Alignment for Efficienct 3D Manipulation Learning with Vision-Language Models

作者:李沛言,陈艺翔,吴弘涛,马骁,吴祥楠,黄岩,王亮,孔涛,谭铁牛

近年来,利用预训练的视觉-语言模型(VLM)构建视觉-语言-动作(VLA)模型已成为有效的机器人操作方法。然而,现有方法主要处理2D输入,忽略了宝贵的3D信息。尽管一些最新研究提出将3D信号引入VLM以进行动作预测,但它们忽视了3D数据中固有的空间结构,导致样本效率低下。

本文提出了一种新颖的3D VLA模型——BridgeVLA,该模型具有以下特点:(1)将3D输入投影为多个2D图像,确保与VLM骨干网络的输入对齐;(2)利用2D热图进行动作预测,在输入和输出统一在一致的2D空间。此外,我们还提出了一种可扩展的预训练方法,赋予VLM骨干网络预测2D热力图的能力。大量实验表明,所提出的方法能够高效学习3D操作技能。BridgeVLA在多个基准测试中超越了现有的最先进的基线方法。在RLBench中,它的成功率显著提高(88.2% vs. 81.4%)。在COLOSSEUM中,它在泛化场景中表现出更好的性能(64.0% vs. 56.7%)。在GemBench中,它是唯一在所有四个评估设置中达到50%平均成功率的方法。在实际机器人实验中,BridgeVLA平均比最先进的基线方法提高了32%,并且能够在多个分布外设置中进行鲁棒的泛化,包括视觉干扰和未见过的语言指令。值得注意的是,在总共10多项任务中,BirdgeVLA能够针对每项任务仅用3个轨迹就能达到96.8%的成功率,显示出其卓越的样本效率。

BridgeVLA的网络结构示意图


09. DriveDPO:一种基于安全直接偏好优化的端到端自动驾驶策略学习方法

DriveDPO: Policy Learning via Safety DPO For End-to-End Autonomous Driving

作者:尚书尧,陈韫韬,王宇琪,李颖彦,张兆翔

端到端自动驾驶近年来取得了显著进展,其核心思路是直接从原始感知输入中预测未来轨迹,从而绕过传统的模块化处理流程。然而,主流基于模仿学习的方法存在严重的安全隐患:它们难以区分那些“看似接近人类轨迹”但实际上存在潜在风险的轨迹。部分最新研究尝试通过回归多种基于规则的安全评分来缓解这一问题,但由于监督信号与策略优化相互割裂,最终导致性能不足。

为解决上述挑战,我们提出DriveDPO,一种基于安全直接偏好优化的策略学习框架。首先,我们将人类驾驶的相似度与基于规则的安全评分相融合,蒸馏为统一的策略分布,以实现预训练阶段的策略优化。接着,我们引入了一个迭代式的直接偏好优化(iterative DPO)阶段,将其形式化为轨迹级的偏好对齐过程。在NAVSIM基准上的大量实验证明,DriveDPO 取得了新的最先进成绩。此外,在多种复杂场景下的定性结果进一步表明DriveDPO 能够生成更加安全且可靠的驾驶行为。通过有效抑制不安全行为,我们的方法展现了在安全关键型端到端自动驾驶应用中的巨大潜力。

DriveDPO 策略学习框架的整体流程


10. TC-Light: 时序一致的生成式视频重渲染器

TC-Light: Temporally Coherent Generative Rendering for Realistic World Transfer

作者:刘洋,罗传琛,汤子墨,李颖彦,杨雨然,宁远勇,范略,张兆翔,彭君然

光照和纹理编辑是世界到世界迁移的关键维度,这对于包括模拟到真实和真实到真实视觉数据的扩展以支持具身人工智能的应用来说具有重要价值。现有的技术通过生成式重新渲染输入视频来实现迁移,例如视频重新光照模型和条件世界生成模型。然而,这些模型主要局限于训练数据的领域(例如肖像),或者陷入时间一致性和计算效率的瓶颈,尤其是在输入视频涉及复杂动态和长时间的情况下。

在本文中,我们提出了 TC-Light,这是一种新颖的生成式渲染器,旨在克服这些问题。它从一个由膨胀的视频重新光照模型初步重新光照的视频开始,在第一阶段优化外观嵌入以对齐全局光照。然后在第二阶段优化所提出的规范视频表示,即独特视频张量(UVT),以对齐细粒度的纹理和光照。为了全面评估性能,我们还建立了一个长且高度动态的视频基准。大量实验表明,我们的方法能够实现物理上合理的重新渲染结果,具有出色的时序连贯性和较低的计算成本。

TC-Light算法效果示意图


11. 可塑性的学习:脉冲神经网络中的可塑性驱动学习框架

Learning the Plasticity: Plasticity-Driven Learning Framework in Spiking Neural Networks

作者:申国斌, 赵东城, 董一廷, 李杨, 赵菲菲, 曾毅

本研究提出了一种创新性的脉冲神经网络(SNN)学习框架,即可塑性驱动学习范式(Plasticity-Driven Learning Framework, PDLF)。传统神经网络主要关注直接训练突触权重,导致连接静态且在动态环境中适应性有限。相比之下,PDLF将重点转向学习可塑性规则本身,而非简单的权重调整。

该框架由两个核心组件构成:突触协作可塑性(SCP)和前突触依赖可塑性(PDP)。SCP通过考虑前后突触神经元活动动态调整突触强度,PDP基于前突触活动调整并引入偏置以保持稳定性。通过演化策略优化这些可塑性参数,网络能够形成独特且适应性强的可塑性规则。

实验结果表明,PDLF显著增强了SNN的工作记忆容量、多任务学习能力和泛化性能。在工作记忆任务中,PDLF使网络能够将记忆直接编码到突触权重中,无需依赖神经元活动维持记忆。在多任务强化学习中,PDLF展现出卓越的适应性,能够处理不同甚至相互冲突的任务。该框架还表现出强大的鲁棒性,能够从临时性神经损伤中恢复,并在永久性损伤情况下保持良好性能。

图1.PDLF框架示意图

图2.工作记忆实验设计及PDLF对工作记忆的影响


12. 跬步:一个面向Spiking Transformer的统一基准框架

STEP: A Unified Spiking Transformer Evaluation Platform for Fair and Reproducible Benchmarking

作者:沈思成,赵东城,冯令昊,岳泽阳,李金东,李腾龙,申国斌,曾毅

随着类脑智能的快速发展,脉冲神经网络凭借其稀疏性与事件驱动特性展现出突出的高能效优势。近年来,研究者提出了一系列Spiking Transformer模型。然而,该领域目前仍缺乏统一的实现与评测平台,导致实验结果难以复现,不同模型间的比较亦缺乏公平性。

为此,本文提出跬步(STEP,Spiking Transformer Evaluation Platform),一个面向Spiking Transformer 的统一基准框架。STEP支持分类、分割与检测等多类视觉任务,覆盖静态图像、事件驱动数据与序列数据集。平台采用模块化设计,使研究者能够灵活替换神经元模型、编码方式与注意力机制,并提供一致的训练流程。在CIFAR、ImageNet、ADE20K与COCO等数据集上的系统复现与消融实验表明,现有Spiking Transformer在很大程度上依赖卷积前端,而注意力机制贡献有限;同时,实验结果进一步凸显了神经元模型与编码策略对模型性能的显著影响。与此同时,我们提出统一的能耗分析框架,考虑了之前的框架都没有考虑的访存开销,并发现在此度量下,量化ANN在部分场景中甚至展现出优于脉冲模型的能效表现。综上,STEP的发布不仅为该领域建立了公平、可复现的评测基线,也为未来探索真正的脉冲原生架构奠定了坚实基础。

图1. Spiking Transformer基本结构示意图

图2. STEP 框架总览


13. SOLIDGEO:立体几何中的多模态空间数学推理能力评估

SOLIDGEO: Measuring Multimodal Spatial Math Reasoning in Solid Geometry

作者:王培杰,杨超,李忠志,殷飞,冉德康,田密,冀志龙,白锦峰,刘成林

几何是数学的一个基础分支,在评估多模态大语言模型 (MLLM) 的推理能力方面发挥着至关重要的作用。然而,现有的多模态数学基准测试主要侧重于平面几何,基本上都忽略了立体几何。立体几何需要空间推理能力,比平面几何更具挑战性。

为了弥补这一关键缺陷,我们推出了SOLIDGEO,这是首个专门用于评估 MLLM立体几何数学推理能力的大规模基准测试。SOLIDGEO包含3,113 个现实世界的 K-12 和竞赛级问题,每个问题都配有视觉上下文,并标注了难度级别和细粒度的立体几何类别。我们的基准测试涵盖了投影、展开、空间测量和空间矢量等广泛的空间推理主题,为评估立体几何提供了严格的测试平台。通过大量的实验,我们观察到 MLLM 在立体几何数学任务中面临着巨大的挑战,其在SOLIDGEO上的性能与人类能力存在显著差距。此外,我们分析了各种模型的性能、推理效率和错误模式,从而更深入地揭示了MLLM的立体几何数学推理能力。我们希望 SOLIDGEO能够推动MLLM迈向更深层次的几何推理和空间智能。

图1.左图为6个MLLM在SOLIDGEO基准上8个立体几何主题的表现;右图为25个 MLLM 的准确率与平均生成长度

图2. SOLIDGEO关键统计数据与分布


14. 学习何时思考:多阶段强化学习赋能R1风格大语言模型自适应推理

Learning When to Think: Shaping Adaptive Reasoning in R1-Style Models via Multi-Stage RL

作者:凃崧峻,林佳豪,张启超,田翔宇,李林静,蓝湘源,赵冬斌

近年来,推理大模型在数学、逻辑等复杂任务中展现出卓越的推理能力。典型的推理模型通过 <think> </think>结构生成显式推理链条,有助于提升准确率与可验证性。 然而,这类模型往往在简单问题上也进行冗长推理,造成过度思考,带来额外计算开销。

针对这一挑战,本文提出了AutoThink框架,通过将省略号提示(ellipsis prompt)与多阶段强化学习(multi-stage RL)相结合,实现了自主思考。其中,省略号提示是一种极简的提示改动,只需在 <think> 标签后加入“...”,即可触发模型在“思考模式”与“非思考模式”间随机切换。基于这一潜在可控性,进一步设计了三阶段强化学习过程:第一阶段防止模式坍塌,第二阶段强化正确推理,第三阶段利用长度感知奖励剪枝冗余步骤。实验证明,AutoThink能够根据任务难度动态调节推理深度,在五个数学基准上实现了准确率提升与推理开销显著下降(如在DeepSeek-R1-Distill-Qwen-1.5B上准确率提高 6.4%,token使用减少 52%),同时在GPQA、MML等非数学任务中也表现出良好的迁移性,建立了一种兼顾效率与性能的自适应推理新范式。

左侧: 标准提示与省略号提示下的准确率和 Token 使用量; 右侧: 按难度划分的无思考行为比例


15. 均衡策略泛化:一种实现追逃博弈策略跨图零样本泛化的强化学习框架

Equilibrium Policy Generalization: A Reinforcement Learning Framework for Cross-Graph Zero-Shot Generalization in Pursuit-Evasion Games

作者:陆润宇,张鹏,石若川,朱圆恒,赵冬斌,刘洋,王栋,Cesare Alippi

追逃博弈(PEG)作为机器人与安防领域典型的现实博弈问题,其精确求解需要指数级时间。当博弈底层图结构发生变化时,即便最先进的强化学习方法也需要微调而不能保证实时性。本文提出一种均衡策略泛化(EPG)框架,旨在学习具有跨图零样本性能的通用实时博弈策略。EPG框架同时适用于PEG问题的追捕者与逃逸者双方,且兼容无出口与多出口两种情形,是领域内首次实现跨图博弈策略泛化的一般方法。

EPG框架的核心思想是在不同图结构下对抗各自的均衡对手策略进行强化学习,得到鲁棒的图网络泛化策略。本文首先设计了一种理论高效的动态规划算法作为均衡策略的生成器;为提升对追捕者数量的可扩展性,提出了分组机制与序贯模型以实现联合策略分解。实验表明,结合一种均衡引导机制以及适配跨图追逃策略训练的距离特征,EPG方法能在多种现实图结构下得到理想的零样本性能。对于多出口的追逃博弈,本文零样本泛化的实时追捕策略甚至能够达到或超越当前最优方法的微调策略性能。

图1.均衡策略泛化(EPG)框架的强化学习训练过程

图2.多出口追捕场景下EPG方法的零样本性能与已有方法的微调性能对比


16.基于专家混合世界模型的多智能体多任务学习与规划

Learning and Planning Multi-Agent Tasks via a MoE-based World Model

作者:赵子杰,赵中岳,徐凯旋,傅宇千,柴嘉骏,朱圆恒,赵冬斌

多任务多智能体强化学习的目标是训练一个统一模型来完成多种任务。然而,不同任务的最优策略之间显著差异,导致单一模型难以胜任。本文发现,任务间在动力学层面往往存在“有界相似性”。例如开门与关门任务的最优策略截然相反,却具有高度相似的动力学。

基于这一观察,本文提出了一种新的框架M3W(Mixture-of-Experts based Multi-task Multi-Agent World Model)。M3W首次将专家混合结构引入世界模型,而非策略网络。具体而言,框架通过SoftMoE建模多智能体动力学,并利用SparseMoE预测奖励,从而在相似任务间实现知识共享,同时隔离不相似任务,避免梯度冲突。在规划阶段,M3W直接基于世界模型生成的虚拟轨迹进行评估与优化,跳过显式策略网络,从根本上克服了策略中心方法的局限。通过在Bi-DexHands和MA-Mujoco两大基准上的实验验证了M3W的有效性,结果显示其在性能、样本效率与任务适应性方面均显著优于现有方法。本文不仅提升了多任务学习的可解释性,还展示了模块化世界模型在多智能体合作中的潜力。

图1.M3W的整体框架(左侧)和性能对比(右侧)

图2.基于SoftMoE的动力学预测器(左侧)和基于SparseMoE的奖励预测器(右侧)


17. 视频是采样高效的监督器:基于隐表示学习视频的行为克隆

Videos are Sample-Efficient Supervisions: Behavior Cloning from Videos via Latent Representations

作者:刘鑫,李浩然,赵冬斌

人类仅需少量试错就能从演示视频中提取知识并学习技能。然而,要让智能体复现这一高效的学习过程却面临巨大挑战,这源于视觉输入的复杂性、动作与奖励信号的缺失,以及受限的环境交互次数。

本文提出了一种两阶段的、无监督且样本高效的视频模仿学习框架,BCV-LR。离线阶段,BCV-LR从高维视频输入中提取与动作相关的自监督隐特征,随后优化基于动力学的无监督目标,预测连续帧之间的隐动作。在线阶段,通过收集真实交互数据,将隐动作对齐到真实动作空间,从而作为标签以支持行为克隆。克隆的策略会丰富交互数据,以进一步微调对齐视频隐动作,形成迭代式的高效策略提升。在包括离散与连续控制在内的一系列复杂视觉任务上的实验结果表明,BCV-LR 仅需少量交互就能实现有效的策略模仿,甚至在部分任务中达到专家水平。具体地,在24/28项任务中,BCV-LR的样本效率超过了当前最先进的视频模仿学习基线以及视觉强化学习方法。本文表明:无需依赖任何其他专家监督,仅通过视频即可实现高效视觉策略学习。

BCV-LR方法框架。左半部分为离线预训练阶段,右半部分为在线微调阶段


18. DRT-M3D:非增强胸部 CT 上的双侧乳腺病变检测与分类

Dual-Res Tandem Mamba-3D: Bilateral Breast Lesion Detection and Classification on Non-contrast Chest CT

作者:周嘉恒,方伟,谢鲁源,周岩峰,徐潋滟,许敏丰,杨戈,唐禹行

乳腺癌是全球女性疾病死亡的主要原因之一,早期筛查对于提高生存率至关重要。非增强胸部计算机断层扫描(NCCT)在临床常规检查中应用广泛,且常常包含乳腺区的影像,这为在不额外增加检查成本和辐射暴露的前提下,实现乳腺病变的机会性筛查提供了新的可能。然而乳腺病变在NCCT影像中的特征并不明显,并且如何在NCCT影像中同时实现高质量的病灶检测与癌症分类,也是现有方法面临的重要技术挑战。

针对上述问题,本研究提出了一种创新性的多任务模型框架Dual-Res Tandem Mamba-3D(DRT-M3D)。通过将乳腺病灶分割与癌症分类两项任务分解到不同分辨率的子通路中,DRT-M3D实现了分割与分类任务间的互补学习;同时通过双侧乳腺的串联输入,模型能够联合建模并比较两侧乳腺的影像特征,从而提升病变检出能力与分类准确性。在多中心NCCT数据集上的实验结果显示,DRT-M3D在各项任务上均显著优于现有方法,具有良好的泛化性与鲁棒性,充分展示了其在机会性乳腺癌分析方面的应用潜力。

图1.本研究提出的机会性乳腺癌双侧分析方法的整体流程

图2.双分辨率串联Mamba-3D块结构


19. KTAE:数学推理中关键token优势估计的无模型算法

KTAE: A Model-Free Algorithm to Key-Tokens Advantage Estimation in Mathematical Reasoning

作者:孙为,杨文,简璞,杜倩龙,崔福伟,任烁,张家俊

近年来的研究表明,将强化学习与基于规则的奖励相结合,即使在没有监督微调(SFT)的情况下,也能显著提升大语言模型(LLMs)的推理能力。然而,现有的强化学习算法,如 GRPO 及其变体 DAPO,在计算优势函数时存在粒度过粗的问题。具体而言,它们采用基于整段生成的优势估计方式,使得序列中的每个 token 被赋予相同的优势值,从而无法刻画各个 token 对最终结果的具体贡献。

为解决这一局限,我们提出了一种新算法——关键 Token 优势估计(KTAE, Key-token Advantage Estimation)。该方法无需额外引入模型,就能够实现更细粒度的 token 级优势估计。KTAE 基于采样生成的正确性,并通过统计分析量化序列中各个 token 对最终结果的重要性。随后,将这一 token 级的重要性与 rollout 级优势相结合,从而得到更精细化的 token 级优势估计。

实验结果表明,采用 GRPO+KTAE 与 DAPO+KTAE 训练的模型在五个数学推理基准测试中均优于现有基线方法。值得注意的是,这些模型不仅在准确率上更高,而且生成的回答更简洁,甚至在使用相同基座模型的条件下,超越了 R1-Distill-Qwen-1.5B。

图1. KTAE 是一种即插即用的方法,无需引入任何额外的模型。它为现有的强化学习算法(例如 GRPO 及其变体)提供token级的优势估计。“GRPO+KTAE”和“DAPO+KTAE”分别表示 GRPO 和 DAPO 与 KTAE 的组合,两者均基于 Qwen2.5-Math-7B 模型进行了强化学习训练。

图2. KTAE 算法概要。该算法根据采样 rollout 的正确性构建一个列联表,然后计算 token 级优势并将其添加到 GRPO 的 rollout 级优势中。

20. SynCL:一种实例可感知对比学习增强的面向端到端环视三维物体跟踪的协同训练框架

SynCL: A Synergistic Training Strategy with Instance-Aware Contrastive Learning for End-to-End Multi-Camera 3D Tracking

作者:林述波,寇宇同,吴子蕤,王绍儒,李兵,胡卫明,高晋

现有的端到端环视三维物体跟踪算法通过实例查询的时序传播整合了检测和跟踪,但这样的联合训练存在优化困难。我们发现这些困难源于自注意力机制的两个固有限制,即对象查询的过度去重和轨迹查询的自我关注。相反,移除自注意力机制不仅对跟踪算法的回归预测影响较小,模型还倾向于生成更多潜在候选框。

为此,本文提出了SynCL,一种协同训练框架来促进多任务学习。具体而言,我们构建了一个基于Cross-attention的平行解码器并引入了混合匹配模块,该模块将轨迹查询的真值目标与多个对象查询匹配,从而挖掘被自注意力机制忽视的高质量预测候选。为了寻找上述一对多匹配中的最优候选,我们还设计了一种由模型训练状态控制的动态查询过滤模块。此外,我们引入了实例可感知对比学习,以突破轨迹查询的自我关注障碍,有效地增强了检测和跟踪之间的协同优化。在不增加额外推理成本的情况下,SynCL在各种基准测试中获得了一致性提升,并在nuScenes数据集上达到了先进性能。

SynCL的方法流程示意图


21. 任务复杂度驱动的视觉-语言模型函数化剪枝策略

Each Complexity Deserves a Pruning Policy

作者:王汉石,徐宇豪,徐泽坤,高晋,刘雨帆,胡卫明,王珂、张志鹏

视觉-语言模型在推理过程中往往面临巨大的计算资源开销,主要原因在于用于表达视觉信息的大量视觉输入 token。已有研究表明,相较于文本 token,视觉 token 在推理阶段通常获得更低的注意力权重,反映出其在整体推理中的相对重要性较低,从而具备显著的剪枝潜力。此外,随着解码过程的逐步推进,文本 token 会逐渐整合来自视觉的关键信息,这为视觉 token 的分层剪枝提供了可能性,即从浅层到深层逐步降低保留的视觉 token 数量。

在此背景下,我们提出利用函数化策略对各层保留的视觉 token 数量进行建模。然而,由于不同任务在视觉信息向文本 token 聚合的效率上存在差异,因此采用任务自适应的剪枝函数显得尤为关键。具体而言,对于视觉与语言对应关系较弱的任务,建议在前期保留更多视觉 token,以提供更大的选择空间;而对于语义对应性较强的任务,则可在早期进行更激进的剪枝,从而为后期推理保留更多计算资源和表达能力。我们在多种下游任务与数据集上验证了方法 包括 OCR 与 VLA 并取得优越性能。

图1.对于不同问题的视觉与文本特征交互模式

图2. TextVQA 数据集上的token保留曲线


22. 基于跨帧实例跟踪融合策略的在线三维物体分割

Online Segment Any 3D Thing as Instance Tracking

作者:王汉石,蔡子健,高晋,张一伟,胡卫明,王珂,张志鹏

具身任务要求智能体在探索环境的同时,具备对三维场景的全面理解能力,因此亟需一种具备在线性、实时性、精细性与强泛化能力的 3D 感知模型。然而,由于高质量 3D 数据的稀缺,直接在三维空间中训练此类模型面临显著挑战,难以实际可行。现有方法通常采用 SAM生成二维掩码,再基于 mask queries 进行细化,最终得到三维分割结果。在融合阶段,这些方法大多依赖手工设计的策略,如启发式规则或固定参数设置。然而,此类方法存在泛化能力不足、参数敏感性高等问题,并且限制了对历史帧中目标信息的充分利用,影响整体性能。

为克服上述限制,我们摒弃了基于手工设计的融合机制,提出一种基于学习的跨帧融合策略,以实现不同时间帧之间目标信息的动态交互与聚合。此外,针对 SAM 常见的过分割问题,我们引入了学习驱动的聚合模块,以更有效地合并冗余片段并恢复目标的完整结构,从而进一步提升模型的分割性能和泛化能力。

图1.与 ESAM的对比。我们引入两个额外模块 STM 与 LTM。STM 融合上一帧的实例特征;LTM 维护长期历史信息。

图2. ScanNet200 数据集上的分割结果可视化


23. 基于互信息的脉冲时序冗余特征量化与去除

MI-TRQR: Mutual Information-Based Temporal Redundancy Quantification and Reduction for Energy-Efficient Spiking Neural Networks

作者:薛登峰,李文娟,卢一帆,原春锋,刘雨帆,刘伟,姚满,杨力,李国齐,李兵,Stephen Maybank,胡卫明,李哲涛

SNN 虽具有事件驱动的低能耗特性,但其在时序上共享权重会产生大量的冗余特征,在处理静态图像时尤为严重,这极大限制了其效率与性能。本文提出的MI-TRQR(结构见图1)利用互信息(MI)从局部像素级和全局特征级两个尺度量化时序特征冗余,并基于该量化结果采用概率掩码策略去除冗余脉冲,最后通过权重再校准机制平衡信息分布,从而提升特征紧凑性。

实验表明, MI-TRQR 可提升脉冲神经网络在神经形态数据分类、静态图像分类和时间序列预测等多种任务中的性能,且能大幅降低时序特征冗余,促使其进一步稀疏化。该研究首次将互信息引入SNN特征冗余量化中,为构建更高效、更紧凑的脉冲神经网络提供了新思路。

MI-TRQR 模块结构示意图


24. 停止求和:最小形式的信用分配是过程奖励模型的全部所需

Stop Summation: Min-Form Credit Assignment Is All Process Reward Model Needs for Reasoning

作者:程杰,乔汭熙,李力骏,郭超,王军乐,熊刚,吕宜生,王飞跃

过程奖励模型(PRM)已被证实能有效提升大型语言模型在推理任务中的测试阶段扩展性。然而,PRM引发的奖励破解(reward hacking)问题阻碍了强化学习微调的成功应用。

本研究中,我们发现PRM导致奖励破解的主要原因在于:强化学习中典型的求和形式信用分配机制会诱使大型语言模型破解高奖励步骤。为在训练阶段释放PRM潜力,我们提出PURE(过程监督强化学习)方法。其核心在于采用最小形式信用分配,将价值函数定义为最小未来奖励。该方法统一了测试与训练阶段对过程奖励的优化目标,通过限制价值函数取值范围及更合理的优势分配机制,显著缓解了奖励破解问题。通过在多个基础模型上的实验,我们发现启用最小形式信用分配时,基于PRM的方法实现与RLVR相当的推理性能:基于Qwen2.5-Math-7B模型微调在AMC23竞赛中达到82.5%的准确率,并在5个基准测试中实现53.3%的平均准确率。而经典的求和形式信用分配甚至在训练初期就导致训练崩溃。此外,我们总结了训练过程中遇到的奖励破解案例,并分析了训练崩溃的根源。

求和形式与最小形式信用分配的比较。推理过程 (rollout) 中错误的步骤以红色标出,PRM合理地为这些步骤分配了负分。箭头指示采样概率的变化,变化幅度较大的部分标注为带轮廓的箭头。求和形式信用分配导致破解高奖励步骤,而最小形式信用分配给出了更合理的采样概率变化幅度和方向。


25. 基于强化学习的GUI操作前诊断模型与推理引导的数据采集链路

Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation

作者:完颜宇洋,张熙,徐海洋,刘昊伟,王君阳,叶加博,寇宇同,严明,黄非,杨小汕,董未名,徐常胜

近年来,多模态大语言模型(MLLMs)在多模态推理任务中得到广泛应用,包括图形用户界面(GUI)自动化。与常规离线多模态任务不同,GUI自动化在在线交互环境中执行,需要根据环境的实时状态逐步进行决策。该任务对每一步的决策错误具有极低的容错率,任何失误可能累积性地破坏流程,并可能导致删除或支付等不可逆的结果。

为解决这些问题,我们引入了一种操作前反思机制,通过推理潜在结果和行为正确性,在实际执行前提供有效反馈。具体而言,我们提出了一种建议感知群组相对策略优化(S-GRPO)策略,以构建预操作评判模型GUI-Critic-R1,并整合了新颖的建议奖励机制,以增强模型反馈的可靠性。此外,我们开发了一个基于推理引导的数据采集链路,创建了训练集和测试集,填补了现有GUI评判数据的空白。在移动端和网页端跨域的GUI-Critic-Test静态实验中,我们的GUI-Critic-R1在评判准确性方面展现出显著优势。在GUI自动化基准测试的动态评估中,我们的模型通过提高成功率和操作效率,进一步凸显了其有效性和卓越性。

图1. (a)显示了GUI自动化的一个示例。(b-c)中的案例研究演示了操作前反思机制如何防止GUI自动化中的错误和冗余操作。(d)说明了在AndroidWorld数据集上操作前反思方法与基线之间的定量性能比较。

图2. 左侧显示了基于推理引导的数据收集链路,包括GUI操作收集和GUI操作分析数据生成。渐进CoT范式和推理引导策略确保了推理数据的质量。右图说明了GUI-Critic-R1模型的训练策略。该过程首先在训练集上进行RFT冷启动,然后实施我们提出的S-GRPO。此外,采用新颖的建议奖励来约束建议的正确性。

26. LiveStar:针对真实世界在线视频理解的流式视频助手

LiveStar: Live Streaming Assistant for Real-World Online Video Understanding

作者:杨振宇,张凯瑞,胡宇航,王兵,钱胜胜,文彬,杨帆,高婷婷,董未名,徐常胜

尽管用于离线视频理解的视频大语言模型(Video-LLMs)取得了重大进展,但现有的在线视频大语言模型通常很难同时处理连续的逐帧输入并确定最佳响应时间,这往往会影响实时响应能力和叙事连贯性。

为了解决这些局限性,我们推出了 LiveStar,这是一款开创性的直播流媒体助手,通过自适应流媒体解码实现始终在线的主动响应。具体来说,LiveStar 包含:(1) 针对可变长度视频流的增量视频-语言对齐训练策略,在动态变化的帧序列中保持时间一致性;(2) 响应-静默解码框架,通过单次前向传递验证确定最佳主动响应时间;(3) 通过峰终(Peak-End)内存压缩实现内存感知加速,用于 10 分钟以上视频的在线推理,结合流式键值缓存(KV Cache)实现 1.53 倍的推理速度。我们还构建了一个 OmniStar 数据集,这是一个用于训练和基准测试的综合数据集,包含 15 种不同的真实世界场景和 5 个在线视频理解的评估任务。三个基准的广泛实验证明了 LiveStar 的一流性能,与现有的在线视频-LLM 相比,语义正确性平均提高了 19.5%,时差减少了 18.1%,同时在所有基准中,FPS 提高了 12.0%。

图1. 在线视频理解示例。(a) 以流式叙事任务为例,在线视频理解需要Video-LLMs 处理连续流并在适当的时间输出;(b) 现有方法过度依赖于学习 EOS 标记,导致推理性能低下;(c)-(e) LiveStar 通过 SCAM 和 SVeD 建立了有效的响应-静默训练和推理框架,同时不影响基本的视频理解能力。

图2. 流式验证解码(SVeD)推理框架概述:一个动态响应-静默解码框架,旨在为在线视频理解确定最佳响应时间。


27. 揭示细粒度奖励下的多模态大模型推理

Unveiling Chain of Step Reasoning for Vision-Language Models with Fine-grained Rewards

作者:陈宏昊,娄行舟,丰效坤,黄凯奇,王鑫龙

思维链推理在大型语言模型中取得了显著的成功,但其对视觉语言推理的适应仍然是一个开放的挑战,最佳实践不明确。现有的尝试通常在粗粒度级别使用推理链,这很难执行细粒度结构化推理,更重要的是,很难评估中间推理的回报和质量。

在这项工作中,我们深入研究了视觉语言模型的步骤推理链,能够准确地评估推理步骤质量,并导致有效的强化学习和细粒度奖励的推理时间缩放。我们提出了一个简单、有效和完全透明的框架,包括步骤级推理数据、过程奖励模型(PRM)和强化学习训练。通过提出的方法,我们的模型在具有挑战性的视觉语言基准上设置了强大的基线,并不断改进。更重要的是,我们进行了彻底的实证分析和消融研究,揭示了每个组成部分的影响以及推断时间尺度的几个有趣特性。我们相信这篇论文可以作为视觉语言模型的基线,并为更复杂的多模态推理提供见解。


28. RULE:强化遗忘实现遗忘-保留帕累托最优

RULE: Reinforcement UnLEarning Achieves Forget–Retain Pareto Optimality

作者:张晨龙,金卓然,苑红榜,魏嘉珩,周桐,刘康,赵军,陈玉博

大模型遗忘旨在移除大语言模型的“有害非法知识”,是达成可信人工智能的重要手段。本文提出把遗忘学习建模一种“拒答策略优化”,提出了在线强化学习的拒答微调方法RULE。这种方式带来的优势有:

1. 现有方法微调后的“非自然回复”: 通过合适的奖励,在遗忘的数据上表现出拒答行为,可以让模型表现出“自然”且“安全”的回复。

2. 对遗忘集和保留集的依赖,无法泛化:本文设计了一种简单有效的数据合成策略,利用强化学习在”边界集“的探索机制,使得模型可以隐式的从奖励中学习到“拒答策略”,泛化到域外分布。

3. 遗忘-保留的帕累托平衡:强化学习对输出的采样来源于模型自身的分布,使得模型更好的在遗忘的同时保留内部知识。

在多个数据集的实验表明,RULE在只采用10%的遗忘集和保留集的设定下就能达到“遗忘-保留”的帕累托最优,且能保持“自然”的回复和通用性能,此外,我们补充实验也证明了模型对黑白盒攻击的鲁棒性,以及对多种奖励和强化学习算法的适配。

强化遗忘的方法示意图


29. 多智能体的双层知识迁移方法

Bi-Level Knowledge Transfer for Multi-Task Multi-Agent Reinforcement Learning

作者:张峻凯,何金岷,张一帆,臧一凡,徐宁,程健

多智能体强化学习(MARL)在实际应用中取得了显著进展,但高昂的在线训练成本限制了其在新任务中的推广。为实现策略复用,我们关注如何利用离线数据实现多任务 zero-shot 泛化。

为此,我们提出了一种双层知识迁移方法,在个体和团队两个层面进行知识传递:个体层面提取可迁移的 individual skill,团队层面将Individual skill 组合映射为战术并构建战术 codebook。通过双层决策机制,我们同时融合技能和战术,引导智能体在新任务中做更优决策。我们设计了 Bi-level Decision Transformer 进行策略决策。大量在 SMAC 和 MPE 基准上的实验结果表明,我们在未见过的任务上也展现出很强的泛化能力。

图1. 智能体个人技能和团队战术学习

图2. 智能体策略建模方法


30. DartQuant:高效旋转分布校准的LLM 量化

DartQuant: Efficient Rotational Distribution Calibration for LLM Quantization

作者:邵远天,陈远腾,王培松,于鉴麟,林菁,姚益武,韦志辉,程健

量化在大模型的加速推理中起着至关重要的作用,而旋转矩阵已被证明可以通过平滑异常值来有效提升量化性能。然而,旋转优化算法的端到端微调会产生高昂的计算成本,并且容易出现过拟合。

为了应对这一挑战,我们提出了一种高效的分布感知旋转校准方法 DartQuant,它通过约束旋转后激活的分布来降低旋转优化的复杂度。该方法还有效地减少了对特定任务损失函数的依赖,从而降低了过拟合的风险。此外,我们引入了 QR-Orth 优化方案,用更高效的解决方案取代了昂贵的正交流形优化。在各种模型量化实验中,DartQuant 展现了卓越的性能。与现有方法相比,它在 70B 模型上实现了 47 倍的加速和 10 倍的内存节省。此外,它首次在单个 3090 GPU 上成功完成 70B 模型的旋转校准,使得在资源受限的环境中实现大型语言模型的量化成为可能。

图1.不同旋转优化方法的计算成本比较。DartQuant在对不同大小模型的量化中,均以极短的时间获得了最优的性能。

图2.左图:DartQuant 实现过程,其中 Z 表示 QR-orth 中的潜在参数,R 表示应用的旋转矩阵。右图:校准前后旋转矩阵的变化。


31. C-Nav: 基于对偶路径防遗忘与自适应经验选择的连续物体导航

C-Nav: Continual Object Navigation with Dual-Path Anti-Forgetting and Adaptive Experience Selection

作者:于明明, 朱飞, 刘文卓, 杨易蓉,汪群博,吴文峻,刘静

具身智能体需在动态开放环境中完成目标导航任务。然而,现有方法在训练过程中通常依赖静态轨迹和固定的目标类别集合,忽略了现实世界中对动态场景持续适应的需求。为推进相关研究,我们提出了持续目标导航基准,要求智能体在学习新目标类别导航技能的同时,避免对已学知识的灾难性遗忘。

针对这一挑战,我们设计了持续视觉导航框架C-Nav,该框架融合了两项核心创新:(1)双路径抗遗忘机制:包含特征蒸馏与特征重放两部分。其中,特征蒸馏将多模态输入对齐到统一的表征空间,以确保表征一致性;特征重放在动作解码器内保留时序特征,以确保策略一致性。(2)自适应采样策略:通过筛选具有多样性和信息价值的经验,减少冗余信息并最小化内存开销。 我们在多种模型架构上开展了大量实验,结果表明:C-Nav 的性能持续优于现有方法,即便与保留完整轨迹的基准模型相比,仍能实现更优性能,同时显著降低了内存需求。

所提 C-Nav 持续目标导航框架总览


32. 端到端视觉分词器优化

End-to-End Vision Tokenizer Tuning

作者:王文轩,张帆,崔玉峰,刁海文,罗卓彦,卢湖川,刘静,王鑫龙

本文致力于解决多模态大型模型中视觉分词器的优化难题。目前,视觉分词器大多独立于低层次的图像重建任务进行训练,例如利用向量量化技术将图像转换为离散标记。然而,这种方法未能充分考虑分词器表示与后续自回归任务(如图像生成和视觉问答)之间的语义一致性,从而限制了模型在处理复杂任务时的表现。

为了克服这一挑战,我们提出了一种端到端的视觉分词器调优方法。该方法通过联合优化视觉分词器、轻量级投影器和大型语言模型,实现了从图像输入到文本输出的完整可微分训练流程。在训练过程中,我们巧妙地结合了重建损失和多模态理解损失,这样不仅保持了视觉分词器在图像重建方面的高质量表现,还显著提升了其语义表达能力。此外,我们采用视觉码本嵌入替代了传统的离散索引,使得整个优化过程完全可微分,从而支持端到端的联合训练。实验结果表明,我们的方法在多模态理解和生成任务上明显优于使用冻结分词器的基线方法。在保持原有图像重建能力的基础上,我们的方法实现了约2%至6%的性能提升。本文为多模态模型中视觉分词器的联合优化提供了有效方案,推动了图像与文本联合表示的发展。

图1.展示了我们对自回归模型训练流程的改进。左侧是传统方法,依赖于针对低层级重建优化的冻结视觉分词器。中间是我们的ETT方法,它通过利用视觉码本嵌入,实现了视觉分词器与下游任务的联合优化。右侧图表显示,ETT在多模态理解和生成任务上取得了显著的性能提升。

图2展示了我们采用ETT方法生成的视觉效果。这些图像均为512×512分辨率,覆盖了多种风格、主题和场景。图中的提示信息为简化版,用以概括图像的主要概念。


33. 聚焦:基于指代分割的交互式编辑统一视觉语言建模

FOCUS: Unified Vision-Language Modeling for Interactive Editing Driven by Referential Segmentation

作者:杨帆,朱优松,李鑫,詹宇飞,赵弘胤,郑淑荣,王耀威,唐明,王金桥

近期的大型视觉语言模型(LVLMs)在统一视觉理解与生成建模方面展现出令人瞩目的能力,既能够实现精准的内容理解,又支持灵活的编辑。然而,当前的方法往往将"看什么"和"如何编辑"分别对待:要么进行孤立的目标分割,要么仅将分割掩码作为条件提示用于局部编辑生成任务,通常依赖多个相互分离的模型。为了弥补这些缺陷,我们提出了FOCUS,一个统一的大型视觉语言模型,在端到端框架内整合了分割感知的感知能力和可控的以目标为中心的生成能力。

FOCUS采用双分支视觉编码器,同时捕获全局语义上下文和细粒度空间细节。此外,我们利用基于MoVQGAN的视觉分词器来生成离散视觉token,以提升生成质量。为了实现精确且可控的图像编辑,我们提出了渐进式多阶段训练流程,其中分割掩码经过联合优化,并用作空间条件提示来指导扩散解码器。这一策略将视觉编码、分割和生成模块进行对齐,有效地将分割感知的感知与细粒度视觉合成连接起来。

在三个核心任务上的大量实验,包括多模态理解、指代分割精度和可控图像生成,证明了FOCUS通过联合优化视觉感知和生成能力实现了出色的性能表现。


34. AVR: 面向物理环境中多模态大语言模型的主动视觉推理

AVR: Active Visual Reasoning for Multimodal Large Language Models in Physical Environments

作者:周伟杰,熊炫棠,彭毅,陶满礼,赵朝阳,董宏辉,唐明,王金桥

当前的多模态大语言模型(MLLM)大多在静态、信息完整的环境中进行视觉推理,这限制了它们在充满遮挡和视角局限的真实物理世界中的应用。与此不同,人类会通过移动、观察、操纵物体等主动探索行为来获取缺失信息,形成一个“感知-推理-行动”的闭环。

受此启发,本文提出了“主动视觉推理”(Active Visual Reasoning, AVR)这一新范式,将视觉推理扩展到部分可观察的交互式环境中。AVR要求智能体能够主动获取信息、整合多步观察并动态调整决策。

为支持该研究,我们构建了三项核心贡献:

1. CLEVR-AVR基准:一个用于评估智能体推理正确性和信息获取效率的仿真环境。

2. AVR-152k数据集:一个大规模数据集,包含丰富的思想链(Chain-of-Thought)标注,用于训练模型如何识别不确定性、预测行动收益并选择最优动作。

3. PhysVLM-AVR模型:一个在主动视觉推理任务上取得当前最佳性能,并能泛化到其他具身和静态推理任务的MLLM。

实验结果表明,尽管现有模型能检测到信息不完整,但在主动获取和整合新信息方面存在明显不足。我们的工作为开发能够在物理世界中主动推理和智能交互的下一代MLLM奠定了坚实的基础。

上方:CLEVR-AVR 模拟器基准(CLEVR-AVR Simulator Benchmark),展示了问题类型、动作空间、场景及示例的分布情况。下方:用于主动视觉推理(Active Visual Reasoning, AVR)的高阶马尔可夫决策过程(Higher-order Markov Decision Process, MDP)范式。

35. EconGym:面向多样化经济任务的可扩展人工智能测试平台

EconGym: A Scalable AI Testbed with Diverse Economic Tasks

作者:米祈睿,杨企鹏,樊梓君,范文天,马赫阳,马成东,夏思宇,安波,汪军,张海峰

人工智能(AI)已成为经济学研究的重要工具,使大规模仿真与政策优化成为可能。然而,要充分发挥 AI 的作用,需要具备可扩展训练与评估能力的仿真平台;现有环境大多局限于简化或特定范围的任务,难以覆盖人口结构变化、多政府协同以及大规模主体交互等复杂经济挑战。

为弥补这一空白,我们提出 EconGym——一个可扩展、模块化的测试平台,用于连接多样化的经济任务与 AI 算法。EconGym 基于严格的经济建模方法,构建了 11 种异质化角色类型(如家庭、企业、银行、政府)、对应交互机制,以及具备清晰观测、动作和奖励定义的智能体模型。用户可灵活组合经济角色与不同智能体算法,从而在 25+ 经济任务中模拟丰富的多智能体轨迹,支持基于 AI 的政策学习与分析。实验结果表明,EconGym 能够支撑多样化与跨领域的任务——例如财政、养老与货币政策的协同模拟——并实现 AI 方法、经济学方法及其混合方法之间的对比评测。结果显示,任务组合与算法多样性能够有效拓展政策空间,而在复杂环境中,结合经典经济学方法的 AI 智能体表现最佳。此外,EconGym 可扩展至 1 万个智能体规模,在保证高真实感的同时保持高效性。

图1. EconGym 概览。用户可通过选择经济角色与智能体算法来定义任务,从而生成动态的多智能体轨迹。这些轨迹既可用于经济学界的经济分析,也可用于人工智能领域的策略优化。EconGym 基于严谨的经济学理论与模块化的智能体建模,支持多样化和跨领域的经济任务。

图2. EconGym 的工作流程


36. MF-LLM:基于均值场大语言模型框架的人群决策动态模拟

MF-LLM: Simulating Population Decision Dynamics via a Mean-Field Large Language Model Framework

作者:米祈睿,杨梦月,于湘凝,赵祉瑜,邓程,安波,张海峰,陈旭,汪军

在集体决策建模中,群体行为并非个体行为的简单叠加,而是源自个体之间复杂的动态交互。大语言模型(LLMs)为社会模拟提供了新的机遇,但如何实现与真实数据的精确对齐仍是亟待解决的核心挑战。

为此,我们提出 MF-LLM 框架,首次将均值场理论引入 LLM 驱动的社会模拟。该框架通过迭代建模个体与总体之间的双向作用:总体信号引导个体决策,个体行为反过来更新总体信号,从而形成连贯的群体动态轨迹。同时,我们设计了 IB-Tune 方法。该方法受信息瓶颈原理启发,能够有效保留对未来最具预测力的总体信号,并过滤冗余历史信息,从而显著提升模型与真实社会数据的对齐度。实证结果显示,MF-LLM 在真实社会数据集上相较于非均值场基线模型将 KL 散度降低 47%,显著增强了趋势预测与干预规划的精度。跨 7 个应用领域与 4 种 LLM 框架的验证进一步证明,MF-LLM 为社会模拟提供了一种 可扩展且高保真的新范式。

图 1. MF-LLM 框架在人群决策动态模拟中的应用。

当外部事件(如谣言)发生时,个体会在群体行为(如舆论演化)的影响下依次做出决策(如“太离谱了!”)。早期决策塑造群体行为,而群体行为又反过来影响后续行动,形成反馈回路。MF-LLM 通过交替运行两个LLM 驱动的模块来刻画这一过程:策略模型根据个体状态与总体信号生成决策,均值场模型则根据新行动更新总体信号。该迭代过程能够紧密对齐真实世界的人群动态(右上)。

37. 梯度引导的在线持续学习ε约束方法

Gradient-Guided Epsilon Constraint Method for Online Continual Learning

作者:赖嵩,马畅翼,朱飞,赵哲,林熙,孟高峰,张青富

在线持续学习(OCL)旨在让模型能从连续的数据流中学习,同时克服灾难性遗忘问题。现有方法如经验回放(ER)虽应用广泛,但其隐式和固定的权衡策略常导致性能瓶颈。

本文从ε约束优化的视角出发,揭示了ER方法的内在局限性。在此基础上,我们提出了梯度引导的ε约束(GEC)方法。GEC将OCL更新过程显式地构建为一个ε约束优化问题,通过动态调整梯度更新方向,在遗忘超过预设阈值时优先满足约束以保持稳定性;在满足约束时则聚焦于当前任务,以提升模型的可塑性。实验证明,GEC能更好地平衡学习新旧知识,实现更优的稳定性-可塑性权衡,并在多个OCL基准测试中取得了领先的性能。

图1. GEC方法与传统ER方法的区别:ER使用固定权重策略,GEC采取自适应权重策略


38. DevFD: 基于可增长共享和正交LoRA子空间学习的持续人脸伪造检测方法

DevFD: Developmental Face Forgery Detection by Learning Shared and Orthogonal LoRA Subspaces

作者:张田硕,高丽,彭思然,朱翔昱,雷震

人脸篡改和生成技术的快速发展,威胁了互联网认证和流媒体新闻的安全性。因此,对人脸伪造图像进行有效检测成为了一项紧迫任务。然而人脸伪造方法日新月异,而防御技术不可避免地具有滞后性。在固定数据集训练的静态模型由于有限的泛化性,面对新的伪造样本将很快失效。而相比于伪造人脸数据,真实人脸数据由于数量充足且采集方式较为单一(相机成像),并不会随着假人脸的迭代而发生较大波动。充足且非偏的真实人脸在跨数据集场景具有常常被忽略的共性。

因此,我们将人脸伪造检测学习建模为了一个持续学习任务,让模型在动态的伪造数据中进行学习,设计了可以动态增长的混合专家架构:DevFD。该架构使用矩阵低秩分解模块(LoRA)作为专家,并维持一个共享专家用于建模真实人脸的共性,一个正交专家序列建模来互补地建模来自不同伪造方式的信息并避免相互干扰。对于新出现的伪造方式,DevFD对该正交序列进行扩增。在每个数据集获得高准确率的同时,通过融合正交梯度的新正交损失,赋予了模型全训练流程的抗遗忘能力。在两个标准测试协议上的大量实验表明,我们的方法在每个数据集上获得最佳准确率的同时,实现了最低的遗忘率。

左:可增长的混合专家模型框架,使用一个共享专家和一个正交专家序列,互补地建模伪造类型知识并保留真是人脸的共性。右上:标签引导的局部平衡策略,动态分配专家完成不同建模任务。右下:融合正交梯度的正交损失。



附件: