AI编程智能体普遍存在一个明显短板:它们习惯于孤立进行探索,当上下文窗口重置后,先前的实验数据与想法便不复存在。这种情况不仅造成大量Token资源浪费,还会导致模型重复犯错,陷入同样的困境。中国人民大学高岭人工智能学院及微软研究院的数据科学家们认为,症结并不在模型本身,而在于整体架构的设计。为此,他们合作研发了Arbor系统——一个"持久性假设树"框架,意在帮助智能体在漫长的研究过程中持续记忆和不断优化研究成果。
在这一架构里,一个长期运行的协调器负责掌管整棵树的研究策略,多个短期执行器则在独立的工作树中并行验证不同假设。随着实验结果不断反馈,假设树持续更新,研究方向也随之聚焦和细化。
实际测试证明,在相同资源预算条件下,Arbor在真实工程任务上的表现比标准AI编程智能体强了两倍以上。Info-Tech研究集团研究总监马哈茂德·拉明说明:"Arbor能够积累时间信息,让智能体像人类一样在既有发现基础上持续构建——通过学习、适应,把过去所学转化为实践。" Arbor的研发团队指出,单纯延长执行时间未必保障研究取得进展。核心挑战在于如何维系一种状态,能把大量独立尝试转化为"累积式假设优化"。
研究团队同时强调,研究进程不应依赖人工监督者频繁介入指明方向或解读实验意义。要实现真正的自主性,智能体研究框架必须能在时间维度上持续关联实验、数据、成果与失败。
Arbor的设计围绕三项核心系统要求展开: 其一,系统必须支持分支,让子树能同时测试多个有潜力的竞争性假设。但无限制的分支扩展可能造成框架失控,因此需要约束机制确保整体有序。研究团队将此称为"有序分支"。
其二,系统基础设施必须分离局部执行与整体策略。测试单个假设需要执行编辑、调试、评估等短周期任务,但这些操作不应干扰基于全局实验结果的宏观决策。
其三,系统必须能区分探索性改进与验证过的改进,以防止AI在试错过程中产生过拟合现象,而非从底层规律中迭代学习。
持久性是Arbor的关键特质。假设树把假设与想法、用于测试的代码或配置产物、实验证据(结果与指标),以及提炼出的洞见(例如"这个数据过滤器有效,但这个学习率调度器无效")全部串联起来。项目启动后,短期工作树负责运行代码、记录工作过程并收集指标。其上方的长期协调器充当实际意义上的研究负责人,持续监控全过程,更新节点,筛选"有前景的叶节点",剪除或合并分支,传播可复用的经验,并决定下一步优先探索哪些假设。
Arbor的研发者写道:"因此,假设树是系统的运行研究状态,它同时兼具搜索前沿、历史尝试记忆,以及验证过产物改进的审计轨迹三重功能。" 为检验这一机制的效能,研究团队在自主优化场景下对Arbor开展评测:智能体获得一个初始研究产物(数据管道、测试套件或训练脚本),在无人干涉下通过迭代实验提升其"留出集性能"。留出集性能是机器学习评估指标,衡量模型对未见过数据的泛化能力。
基于树结构的架构在多个真实研究任务中得到验证,涵盖模型训练(提升训练方案与超参数的能力)、测试套件工程(升级评估或训练套件的能力)以及数据合成(为训练或评估生成更优质数据的能力)。最终数据表明,在相同资源预算下,Arbor在留出集增益方面的表现比Codex和Claude Code的平均水平超出2.5倍。研究人员据此断言:维护一棵结构化、持续演化的假设树,比以"无记忆"方式运行同款编程智能体能为研究带来更显著的性能提升。
Info-Tech的





