环球体育登录入口 ICML 2026 | Agentic强化学习磨练的信息自锁问题

发布日期:2026-06-19 22:31    点击次数:191

环球体育登录入口 ICML 2026 | Agentic强化学习磨练的信息自锁问题

本文作家邹德誉,香港华文大学算计机科学与工程系博士生,本科毕业于中国科学本领大学。斟酌标的为大说话模子智能体、强化学习与主动推理,心境模子在信息不完备的多轮交互中如何主动获取、更新并诈欺信念。联系使命发表于 ICLR 2026 Oral 与 ICML 2026。

跟着大说话模子渐渐从「单轮问答」走向「确凿环境中的执续交互」,LLM agents 正在被用于越来越复杂的 agentic applications:deep research、coding、computer use、customer service、medical inquiry、troubleshooting 等等。这些任务和传统问答最大的不同在于:任务所需的信息频频不是一入手就完整给出的。Agent 必须在不细则情状下主动选择活动,举例发问、搜索、调用器具、查验反映,并在多轮交互中继续更新我方对任务情状的调理。

这类才气不错详细为 active reasoning:在信息不完备的环境中,agent 不单是 “回答问题”,而是需要主动获取新信息,并把新信息确凿整合进后续决策和推理中。

根据过往在许多推理任务上的得手,强化学习似乎应该很适合磨练这类才气。只消临了任务得手就给正奖励,失败就不给奖励,模子不就应该迟缓学会更好的交互计谋吗?

但事情并莫得这样简便。与此前 T3 (Reducing Belief Deviation in Reinforcement Learning for Active Reasoning of LLM agents | ICLR-2026 Oral)对多轮推理中 belief deviation 和 belief-trapped trajectory 的分析相呼应,香港华文大学、加州大学圣地亚哥分校、佐治亚理工学院、字节越过的斟酌者进一步发现发现,在 active reasoning 场景中,outcome-based RL 并不一定会自然磨练出更善于交互的 agent。相背,模子可能参预一种低信息量的磨练模式:它反复扩充无效操作,过早依赖入手判断,忽略用户或环境复返的新字据;甚而在最终 reward 有所普实时,背后的步履也未必确凿变得更会主动获取和使用信息。

如若说 T3 更心境 agent 在多轮交互中如何渐渐偏离正确 belief,那么这篇论文《On Information Self-Locking in Reinforcement Learning for Active Reasoning of LLM Agents》系统分析了这一气候背后的原因:在 active reasoning 中,agent 的阐扬同期依赖于两个彼此耦合的才气:一方面是聘请什么动作来获取信息,另一方面是如何把获取到的信息整合进后续判断。outcome reward 很难自动为这两个彼此依赖的要津提供清亮 credit:现时者无法带来有用反映,后者就枯竭可学习的字据;而当后者无法正确给与反映时,前者的价值又很难通过最终 reward 得到正确 credit。

斟酌者将这种磨练失败机制称为:

Information Self-Locking,信息自锁。

基于这一不雅察,作家进一步提倡了一个简便而有用的门径:AREW(Action-Selection & Belief-Tracking Advantage Reweighting),通过轻量的标的性反映再行分派 trajectory 里面的 credit,从而缓解 information self-locking。

论文已被 ICML 2026 给与。

论文标题:On Information Self-Locking in Reinforcement Learning for Active Reasoning of LLM Agents

神色代码:https://github.com/unimpor/T3

论文磨灭:https://arxiv.org/abs/2603.12109

小序:为什么 RL 磨练出来的 agent 如故不会主动推理?

在好多 LLM agent 任务中,模子并不可一入手就看到完整谜底。它必须通过多轮交互渐渐迫临确凿任务情状。

比如:

在医疗问诊中,agent 需要主动究诘环节症状,而不是叠加问平庸的问题;

在用户偏好臆测中,agent 需要策画有别离度的问题,渐渐识别用户确凿的偏好;

在客服场景中,agent 需要决定什么时辰发音尘、什么时辰调用器具、什么时辰带领用户完成某些操作。

这些任务有一个共同结构:agent 的阐扬同期取决于两件事。

第一,它要知谈下一步该问什么、查什么、调用什么器具。作家称为 Action Selection(AS)。

第二,它要能把得到的新反映给与进我方的里面调理,确凿更新对任务情状的判断。作家称为 Belief Tracking(BT)。

如若 AS 很弱,agent 就拿不到有用信息;如若 BT 很弱,即使拿到了有用信息,模子也不会用。

更环节的是,这两者不是沉静的,而是强耦合的:

好的活动唯一在反映被正确使用时,才会在最终 reward 中体现价值;好的 belief update 又依赖于前边活动带来了实足有信息量的反映。

这就带来了 active reasoning 中一个相当讳饰的 credit assignment 问题:outcome reward 只在临了出现,它很难判断到底是 “问得不好”,如故 “问到了但没给与好”。

论文第一页的图给出了这一机制的合座直观。

图:原文 Figure 1。Vanilla outcome RL 下,agent 可能参预 self-locking:informative action 的价值被 weak BT 掩盖,导致 credit assignment 错位;AREW 通过 directional critiques 再行分派 trajectory 里面 credit,使 AS 和 BT 再行对都。

Information Self-Locking:磨练信号被 “锁住”

作家领先发现了一个反直观气候。

2026FIFA世界杯赛事官网入口

在 outcome-based RL 中,reward 可能如实上涨了,但这并不虞味着模子确凿学会了主动获取信息。为了解耦不雅察这小数,论文先在两个可控的 active reasoning 任务中作念分析:Preference Estimation 要求 agent 通过比较问题渐渐臆测用户阴私偏好,MediQ 则要求 agent 通干涉诊病东谈主问题渐渐识别正确会诊。二者都需要 agent 一边主动获取字据,一边更新对阴私任务情状的判断,因此很适合用来不雅察 AS 和 BT 的磨练动态。

论文在这两类任务中追踪了三个量:

Final reward:最终任务阐扬;

AS proxy:agent 的活动是否带来有信息量的反映;

BT proxy:agent 是否把反映正确给与进 belief。

摈弃自大,reward 不错作念有限的上涨,但 AS 和 BT 并莫得同步普及。也等于说,模子名义上变强了,但它并莫得确凿更会 “获取信息” 和 “使用信息”。

图:原文 Figure 2。左半部分展示磨练经过中 reward、AS、BT 的变化:蓝线暗示 agent 作念出有信息量活动的比例,橙线暗示 agent 是否有用给与反映并更新 belief,绿线暗示最终任务得手率。不错看到,即使得手率随磨练有一些有限的上涨,AS 和 BT 也可能停滞甚而退化。右半部分进一步固定调换的 action-selection 序列:横轴暗示一条轨迹中有若干次有信息量的活动,浅蓝色柱子暗示这类轨迹出现的频率;蓝线暗示由 agent 自身 BT 处理这些反映时的得手率,橙线暗示由 stronger BT 处理调换反映时的得手率。摈弃自大,唯一当 BT 实足强时,informative AS 才会和最终 reward 造成更强正联系。

这张图的右半部分揭示了 AREW 的中枢 insight:

Weak BT 会讳饰 informative AS 的孝顺。

假定 agent 提倡了一个很有价值的问题,环境也复返了环节字据。但如若模子莫得把这条字据给与进后续推理,最终谜底仍然错了。此时,outcome reward 会告诉 RL:“这条 trajectory 失败了。”

问题在于,RL 并不知谈失败的原因是 belief update 作念得差,而不是 action selection 作念得差。于是,阿谁本来很有价值的问题也可能得不到正向 credit。

反过来亦然相同。

如若 AS 变得保守,模子老是问一些低信息量的问题,BT 就拿不到有价值的反映。莫得实足信息流,belief tracking 也很难学好。久而久之,RL 可能反而荧惑模子依赖入手判断或非交互式 shortcut,而不是细腻诈欺交互反映(详谅解文 Section 2.3 observation 3 | Fig. 6a)。

这等于 information self-locking:

AS 弱导致 BT 没字据可学;BT 弱导致 AS 的价值无法被 reward 识别。二者彼此放浪,使模子卡在低信息量磨练区域。

从 Sef-Locking 看 active reasoning 的磨练瓶颈

前边提到,论文将 active reasoning 中的 agent 步履理会为两个彼此轮换的经过:

Action Selection(AS):根据现时 belief 聘请下一步环境交互动作,举例发问、搜索、调用器具;

Belief Tracking(BT):根据新反映更新里面任务调理,并决定后续如何活动。

这个理会指出 active reasoning 的难点不单是 sparse reward,而是 sparse outcome reward 下两个才气的耦合学习失败。

时常 outcome RL 只看到最终成败,很难把 reward 正确分派给 trajectory 中不同的 AS 和 BT 决策。摈弃是:

如若 BT 差,好的 AS 活动也无法漂流为高 reward;

如若 AS 差,BT 莫得实足信息不错给与;

如若二者都处于低水平,梯度信号会同期变弱;

模子可能永恒停留在低信息量区域,难以靠 outcome reward 自行逃离。

论文在表面部分把这个区域体式化为 self-locking regime:AS informativeness 低,同期 BT capability 也低。在这个区域中,outcome-gradient 对 AS 和 BT 的普及信号都会被现时才气水平放浪,因此磨练动态很难自然逃出。

为了更直不雅地讲解这小数,论文 appendix 给出了一个二维相图:横轴暗示 AS informativeness,纵轴暗示 BT capability。

图:原文 Figure 8。AS-BT phase space 中的 learning dynamics。左图暗示 outcome-only RL:在低 AS、低 BT 的 locking regime 内,更新标的很弱,agent 难以逃离;右图暗示 AREW:directional critiques 在 locking regime 内引入非凡更新标的,为模子创造逃离低信息量区域的旅途。这张图详细了 AREW 的表面直观:作家不需要十足重写 RL,也不需要精准 dense reward;只需要在 AS/BT 的环节局部决策上提供一些标的性信号,就不错调动低信息量区域内的 effective update field。

AREW:用 weak directional critiques 再行分派 trajectory 里面 credit

既然 SeL 的中枢问题在于 outcome reward 难以在 AS 和 BT 之间提供清亮的学习信号,一个径直的决策,是为每个中间决策都策画精准的 dense supervision:举例准确判断某个问题到底孝顺了若干信息,或者某次 belief update 到底应当得到若干中间奖励。关联词,在长程 agentic tasks 中,这类 calibrated intermediate reward 频频不可轻松得到。

运气的是,agentic active reasoning 场景经常会自然露出一些更粗粒度、但更容易获取的标的性会诊信号:举例,一个 action 是否让环境或用户复返了新的有用字据;一次 belief update 是否把新不雅察朝着更接近确凿任务情状的标的给与进去。

AREW 的起点恰是诈欺这些 uncalibrated directional signals。它并不试图为每一步构造精准的中间奖励,也不需要磨练非凡的 dense reward model,而是把这些标的性信号手脚 weak directional critiques,注入到 policy-gradient 更新中,对 trajectory 里面的 stepwise advantage 进行再行分派。

换句话说,AREW 保留蓝本的 outcome reward,只是在 actor update 时把更多 credit 分派给被正向 critique 的 AS/BT 决策,并松开被负向 critique 的决策。通过这种 reward-preserving 的 credit reallocation,AREW 在 SeL regime 中再行提供非退化的局部学习信号,使 AS 和 BT 有契机共同改善并逃离低信息量磨练区域。

在杀青上,AREW 将一条 trajectory 中被正向 critique 的方式斟酌记为 positive steps,被负向 critique 的方式斟酌记为 negative steps。然后构造一个 intra-trajectory likelihood margin:加多 positive steps 的 log-probability,相对缩小 negative steps 的 log-probability。

经过推导(详谅解文 Section 4.2),最终落实到 policy gradient 上,等于一个相当轻量的 advantage reweighting:

对蓝本每一步的 advantage 加上一个由 critique 决定的局部修正项。

直不雅来说,环球体育官网登录入口AREW 作念的是:

不调动最终 outcome reward;

不调动 critic target;

不重写 PPO / GRPO / GSPO 的中枢框架;

只是在 actor update 时,把 trajectory 里面的 credit 从负向方式再行分派给正向方式。

这使得 AREW 具有很强的可集成性:它不错手脚一个表层 credit assignment 修正机制,插入现存 outcome-based RL pipeline。

更首要的是,AREW 不要求 critique 完好。表面分析(原文 proposition 4.1)标明,只消 directional critiques 的 weighted accuracy 好于当场,就不错提供有用的一阶更始信号。背面的践诺也考据了这小数:即使 critique 有噪声,AREW 仍然经常优于 vanilla RL。

践诺建造:4 个交互鸿沟,9 个 active reasoning 任务 / 建造

论文在多个 agentic active reasoning 场景中系统评估 AREW。

合座包括 4 个交互鸿沟:

1. Preference Estimation

Agent 需要通过多轮 pairwise comparison 渐渐臆测用户阴私偏好向量。该鸿沟包含 PE-G 和 PE-F 不同建造。AREW 在这里选择的 AS 信号相当直不雅:如若两部被比较的 item 在不同属性维度上存在 trade-off,而不是一方在系数维度上都昭着占优,那么这个 comparison 更可能带来有信息量的偏好反映;BT 信号则看 agent 更新后的偏好臆测是否比上一轮更接近确凿偏好向量。

2. Medical Diagnosis

在 MediQ 中,agent 需要基于 clinical vignette 和候选假定,主动究诘病东谈主会诊联系问题,并渐渐提高正确会诊 的 belief。AREW 的 AS 信号来自 patient feedback 是否真的提供了新的会诊信息;BT 信号则查验模子是否根据有用反映合理更新了不同会诊假定的置信度,举例是否让正确假定相对其他候选更占优,或者在无信息反映下保执 belief 不被诞妄扰动。

3. Troubleshooting

在 FloDial 中,agent 需要通过 yes/no diagnostic questions 排查用户问题,并从候选讲解或贬责决策中识别正确项。AREW 在这里把用户反映手脚轻量标的性信号:如若问题掷中了可会诊信息并得到有用 Yes/No 反映,就证明该 action 更有价值;如若只得到 Unknown,则证明该问题莫得匹配到有用会诊陈迹。BT 侧则进一步查验 agent 是否在得到有用反映后提高了正确故障候选的置信度;如若反映是 Unknown,则更但愿 belief 保执踏实,而不是虚拟漂移。

4. Customer Service / Tool Use

在 tau2-bench-Telecom 中,agent 需要通过多轮对话和器具调用完成确凿感更强的 telecom customer-service 任务。AREW 的建造在本文背面会被单独提到。

在前三个鸿沟中,论文评估了 7 个 active reasoning tasks;在 tau2-bench 上进一步评估 solo setting 和 standard dual-control setting,统共造成 9 个任务 / 建造。系数任务都只提供末端监督。

主要模子包括 Qwen2.5-7B-Instruct 和 LLaMA-3.1-8B-Instruct。RL 算法包括 PPO,并进一步推广到 GRPO 和 GSPO。

主摈弃:AREW 在简直系数建造下踏实优于 vanilla PPO

论文领先在前三个鸿沟的 7 个任务上证明最终平均 outcome reward。

表:原文 Table 1。AREW 在 Preference Estimation、Medical Diagnosis、Troubleshooting 三个鸿沟的 7 个 agentic active reasoning tasks 上,与 direct inference 和 vanilla PPO 进行比较。

这里,AREW-AS only 暗示仅使用 action-selection 侧的 directional critiques 来重加权动作决策的 advantage,而 AREW-AS+BT 则同期使用 action-selection 和 belief-tracking 两侧的 critiques,对 “获取信息” 和 “给与信息” 两个要津的 credit 进行合股修正。

主摈弃相当清亮:

在 28 个 PPO 评估建造中,AREW 在 27 个建造中权贵优于 vanilla PPO。

这些摈弃证明,AREW 的收益并不是某个模子或某个数据集上的随机气候,而是在不同模子族和不同 active reasoning 任务中都能踏实施展作用。

磨练动态:AREW 不单是提高最终分数,也调动了学习经过

除了最终摈弃,论文还展示了磨练经过中的 reward dynamics。

图:原文 Figure 3。Qwen2.5-7B-Instruct 上,vanilla PPO、AREW-AS only、AREW-AS+BT 在 PE、MediQ、FloDial-Hard 上的 reward training dynamics。

这张图不错看到三类典型气候。

在一些任务中,vanilla PPO 简直无法执续普及 reward;而 AREW 不错昭着糟塌这种停滞,并执续提高 performance。

在一些 vanilla PPO 本来也能闲隙普及的任务中,AREW 仍然阐扬出更快的禁止速率和更高的最终 reward。

即使某些情况下 reward curve 看起来差距莫得那么大,AREW 也会在 AS 和 BT 步履层面带来更清亮的更始。也等于说,AREW 不单是 “刷高分”,而是在调动模子获取和使用信息的形势。

AS/BT 步履分析:AREW 真的让 agent 更会获取和给与信息

为了考据 AREW 的更始是否来自 active reasoning 才气自己,论文进一步分析了 AS 和 BT proxy。

图:原文 Figure 4。AREW 对 AS 和 BT capability proxies 的影响。

这张图最值得重视的地点,不单是 AREW-AS+BT 后果最佳,还有:AREW-AS only 依然不错同期改善 AS 和 BT。

名义上看,AS-only 只对 action-selection 侧进行 advantage reweighting,也等于只荧惑模子聘请更有信息量的动作,并莫得径直给 belief-tracking 决策非凡加 credit。但践诺摈弃自大,只是改善信息获取,BT 也会随之变好。

这恰恰证明 AS 和 BT 并不是两个彼此沉静的才气。更好的 AS 会调动 agent 后续看到的 observation stream:当环境或用户复返的反映更有信息量,belief tracking 就更容易从这些反映中学习和更新。换句话说,即使莫得径直优化 BT,只消 AS 提供了更高质料的信息流,BT 的学习条款也会被改善。

自然,AS-only 并不可十足替代 BT-side correction。Figure 4 中,AREW-AS+BT 在浩繁情况下会进一步普及 BT proxy,证明当模子不仅被荧惑 “获取更有用的信息”,也被荧惑 “把这些信息正确给与进 belief” 时,AS 和 BT 更容易造成正向轮回。

因此,AREW 的收益不是简便来自某个单点模块的增强,而是来自对 AS-BT coupling 的侵犯。只修正 AS 依然大概带动 BT,而同期修正 AS 和 BT 则不错更充分地糟塌 information self-locking。

不同 RL 算法有用性

一个自然问题是:AREW 是否只是对 PPO 有用?

论文进一步在 GRPO 和 GSPO 上作念了践诺。摈弃自大,即使使用 group-based RL variants,self-locking 仍然可能存在;只是加多 rollout 采样 并不可从压根上贬责 AS/BT 的耦合 credit assignment 问题。而 AREW 在 GRPO 和 GSPO 下也能普及 final performance、AS 和 BT proxies。

图:原文 Figure 6 (b) (c)。

真场景应用 customer-service agent:tau2-bench 上的摈弃

除了 controlled domains,论文还在更复杂的 tau2-bench-Telecom 上评估 AREW。

tau2-bench 的挑战在于,agent 不单是问答,还需要在多轮 customer-service 场景中进行器具调用、与用户融合,并完成确凿感更强的就业任务。

论文领先沟通 no-user solo setting。在这个 setting 中,Qwen2.5-7B agent 径直适度任务贬责经过。AREW 使用 benchmark 自带的信号构造 critiques:

负向 critique 主要来自运行经过中的昭着失败,举例器具调用方式诞妄、器具扩充失败、叠加扩充调换动作等;

正向 critique 则来自任务评估器提供的进展信号,举例现时轨迹是否新完成了某个预期动作,或是否比上一阶段更接近任务完成。

图:原文 Figure 5。Tau2Bench-Telecom solo setting 中,AREW 普及 reward,同期权贵减少 tool execution errors;况且这种普及不是靠更长回复或更多交互轮数换来的。

Figure 5 展示了一个实用摈弃:AREW 不单是提高 reward,还权贵减少 tool execution errors,同期 response tokens 更少,interaction turns 基本可比。这证明 AREW 的收益不是简便来自 “说更多” 或 “多试几轮”,而是来自更有用的 credit assignment。

论文进一步沟通 standard dual-control setting。在这个 setting 中,Qwen2.5-14B agent 需要和 GPT-4o-simulated user 融合。这里存在一个更复杂的 credit assignment 问题:任务进展可能来自 agent 我高洁确使用器具,也可能来自 agent 带领用户完成 user-side repair actions。

图:原文 Figure 7。Tau2Bench-Telecom standard dual-control setting 中,AREW 比较 vanilla PPO 将 reward 从约 0.20 普及到约 0.50,同期减少对 user-side operation shortcut 的依赖,并保执更多 assistant-side tool-use 步履。

在 vanilla PPO 中,模子容易走向一种 shortcut:更多依赖用户侧操作来完成部分任务,而 assistant 我方的 tool-use 步履反而下跌。这固然能贬责一部分样本,但会使磨练偏向最容易得到 reward 的 progress channel,而不是 benchmark 确凿但愿评估的 assistant-side tool-use 才气。

AREW 则通过 directional critiques 给有用的 assistant-side tool decisions 更多 credit,从而减少对 user-side repair 的过度依赖,把优化压力合理分派到 agent 我方的有用器具使用步履上。

这个摈弃证明,AREW 也不错用于更接近确凿 agentic application 的长程器具使用环境。

Robustness:AREW 不依赖完好 critiques

AREW 使用的是 weak directional critiques,一个首要问题是:如若 critique 有噪声若何办?

论文通过当场翻转 stepwise critiques 来评估鲁棒性。

表:原文 Table 2。不同 critique perturbation ratio 下,AREW 的最终阐扬。即使 critique 被较强扰动,AREW 经常仍然保执与 vanilla baseline 竞争甚而更好的阐扬。

摈弃自大,跟着扰动比例加多,AREW 的性能会逐渐下跌,这是合理的。但在较大鸿沟内,AREW 仍然优于或接近 vanilla baseline,并莫得因为 critique 不完好而崩溃。

论文 appendix 还进一步分析了更结构化的 critique destruction,举例只保留 AS 或 BT critique、只保留前 40% 或后 40% 的 critique、用常数 label 填补缺失 critique 等。合座论断一致:AREW 对多种 critique 噪声和碎裂形势都具有一定鲁棒性。

这也回报了一个实质部署中的环节担忧:在复杂 agentic tasks 中,咱们很珍藏到精准的 dense supervision,但相对容易得到一些局部标的性信号。AREW 恰是为这种 supervision regime 策画的。

这项使命的敬爱与启示

这篇使命给 RL for agentic active reasoning 中一个常见但容易被淡薄的问题提供了机制讲解。往时咱们常说,agent 在多轮任务中阐扬不好,是因为 reward sparse、exploration hard、tool use complicated。但 AREW 指出,在 active reasoning 中还有一个更结构性的贫穷:

获取信息和使用信息是耦合学习的。Outcome reward 很难自然把这两个才气分开 credit。

这会导致一种自锁:

BT 弱时,好的 AS 活动无法得到应有 credit;

AS 弱时,BT 莫得实足字据不错学习;

两者一齐弱时,outcome-gradient 对二者的普及信号都很弱;

模子因此停留在低信息量 interaction pattern 中。

AREW 的想路也很径直:既然最终 reward 很难自动分派 credit,就诈欺 active reasoning 中自然存在的局部会诊信号,把 trajectory 里面的 credit 再行分派给更有信息价值的决策。

这带来几个 takeaway:

第一,active reasoning 的磨练不可只看最终 reward。 Reward 上涨不等于模子真的学会了更好地交互。咱们需要心境 agent 是否更会主动获取信息,以及是否更会整合新字据。

第二,LLM agent 的磨练失败有时不是单一才气不及,而是多个才气之间的耦合失效。 AS 和 BT 单独看都首要,但确凿的问题发生在二者彼此依赖、彼此 masking 的磨练动态中。

第三,弱监督也不错很有用。 AREW 不要求东谈主工标注精准中间奖励,也不需要磨练 dense reward model。只消能判断某些方式大要应该荧惑如故阻止,就不错权贵改善 credit assignment。

第四,这类门径可能对更复杂的 agentic systems 有启发。在 Deep Research、coding、customer service、computer use 等任务中,agent 都需要继续决定 “下一步获取什么信息” 以及 “如何给与新信息”。这恰是 AS/BT coupling 最容易出现的地点。

接待查阅论文与代码以获取更多本领细节。

如若您认为这篇使命有匡助,接待心境与援用。

环球体育登录入口



 



    Copyright © 1998-2026 环球体育官网登录入口™版权所有

    ltjzzz.com备案号 备案号: 

    技术支持:®环球体育 RSS地图 HTML地图