让大模型在学习推理的同时学会感知股票114在线配资查询网站。
伊利诺伊大学香槟分校(UIUC)与阿里巴巴通义实验室联合推出了全新的专注于多模态推理的强化学习算法PAPO ( Perception-Aware Policy Optimization ) 。
现有的强化学习算法(如 GRPO)虽然在纯文本推理中表现优异,但当应用于多模态场景时,往往无法充分利用视觉信息进行推理。
GRPO 错误:未能正确感知和区分不同物体
PAPO 正确:准确识别不同物体并准确计数
近期有许多工作专注于提升强化学习再多模态场景中的应用,但大多集中在从数据(Data,Rollout)以及奖励机制(Reward)的设计,很少设计对于核心 GRPO 算法的改动。
而 PAPO 通过创新的隐式感知损失设计,仅依赖于内部监督信号,让多模态大模型在学习推理的同时学会感知,从根本上解决了现有方法中感知与推理脱节的问题。
PAPO 的模型和数据均已开源,详细可见文末链接。
错误分析:发现感知瓶颈
PAPO 的第一个重要贡献是通过系统性的错误分析发现了多模态推理中的核心问题,也就是视觉感知的准确性问题。
PAPO 团队对使用 GRPO 训练的 Qwen2.5-VL-3B 模型在四个基准数据集上的 200 个错误案例进行详细的人工分析和分类,结果显示:
感知错误占67.0%:模型无法准确解读视觉内容,如空间关系判断错误、标签关联错误等;
推理错误占 18.0%:逻辑推理过程中的错误,如应用错误的定理或规则;
计算错误占 10.0%:算术运算错误;
不一致错误占 5.0%:中间推理步骤与最终答案不符。
这一发现颠覆了人们对多模态推理失败原因的普遍认知——问题主要不在于逻辑推理能力,而在于视觉感知的准确性。
上图展现了一个典型例子:在一个几何推理任务中,用户询问" Find x ",正确答案是 9。
使用传统 GRPO 训练的模型会错误地将 x 与 60 度角对应的边关联,犯了感知错误;而 PAPO 训练的模型则正确识别了 x 是 30 度角对应的短边,得到了正确答案。
这个例子清晰地展示了 PAPO 在提升视觉感知准确性方面的显著效果。
PAPO:创新的内驱感知策略优化算法
基于上述发现,PAPO 提出了创新的隐式感知损失(Implicit Perception Loss)设计。
该方法的核心思想是:一个优秀的多模态推理模型应该在原始图像和损坏图像上产生显著不同的输出分布,这表明模型真正依赖于有意义的视觉内容。
下图展示了 PAPO 目标函数与传统 GRPO 的对比:
PAPO 的技术创新包括:
感知信息增益比设计:定义了感知信息增益比 rprcp= πθ ( o|q,I ) / π _ θ ( o|q,I_mask ) ,其中 I_mask 是通过随机遮盖补丁生成的损坏图像。
KL 散度最大化:通过最大化 KL 散度 DKL [ πθ ( o|q股票114在线配资查询网站,I )
科元网提示:文章来自网络,不代表本站观点。