Arbor：为AI编程智能体构建持久性假设树

AI编程智能体普遍存在一个明显短板：它们习惯于孤立进行探索，当上下文窗口重置后，先前的实验数据与想法便不复存在。这种情况不仅造成大量Token资源浪费，还会导致模型重复犯错，陷入同样的困境。中国人民大学高岭人工智能学院及微软研究院的数据科学家们认为，症结并不在模型本身，而在于整体架构的设计。为此，他们合作研发了Arbor系统——一个"持久性假设树"框架，意在帮助智能体在漫长的研究过程中持续记忆和不断优化研究成果。

在这一架构里，一个长期运行的协调器负责掌管整棵树的研究策略，多个短期执行器则在独立的工作树中并行验证不同假设。随着实验结果不断反馈，假设树持续更新，研究方向也随之聚焦和细化。

实际测试证明，在相同资源预算条件下，Arbor在真实工程任务上的表现比标准AI编程智能体强了两倍以上。Info-Tech研究集团研究总监马哈茂德·拉明说明："Arbor能够积累时间信息，让智能体像人类一样在既有发现基础上持续构建——通过学习、适应，把过去所学转化为实践。" Arbor的研发团队指出，单纯延长执行时间未必保障研究取得进展。核心挑战在于如何维系一种状态，能把大量独立尝试转化为"累积式假设优化"。

研究团队同时强调，研究进程不应依赖人工监督者频繁介入指明方向或解读实验意义。要实现真正的自主性，智能体研究框架必须能在时间维度上持续关联实验、数据、成果与失败。

Arbor的设计围绕三项核心系统要求展开：其一，系统必须支持分支，让子树能同时测试多个有潜力的竞争性假设。但无限制的分支扩展可能造成框架失控，因此需要约束机制确保整体有序。研究团队将此称为"有序分支"。

其二，系统基础设施必须分离局部执行与整体策略。测试单个假设需要执行编辑、调试、评估等短周期任务，但这些操作不应干扰基于全局实验结果的宏观决策。

其三，系统必须能区分探索性改进与验证过的改进，以防止AI在试错过程中产生过拟合现象，而非从底层规律中迭代学习。

持久性是Arbor的关键特质。假设树把假设与想法、用于测试的代码或配置产物、实验证据（结果与指标），以及提炼出的洞见（例如"这个数据过滤器有效，但这个学习率调度器无效"）全部串联起来。项目启动后，短期工作树负责运行代码、记录工作过程并收集指标。其上方的长期协调器充当实际意义上的研究负责人，持续监控全过程，更新节点，筛选"有前景的叶节点"，剪除或合并分支，传播可复用的经验，并决定下一步优先探索哪些假设。

Arbor的研发者写道："因此，假设树是系统的运行研究状态，它同时兼具搜索前沿、历史尝试记忆，以及验证过产物改进的审计轨迹三重功能。" 为检验这一机制的效能，研究团队在自主优化场景下对Arbor开展评测：智能体获得一个初始研究产物（数据管道、测试套件或训练脚本），在无人干涉下通过迭代实验提升其"留出集性能"。留出集性能是机器学习评估指标，衡量模型对未见过数据的泛化能力。

基于树结构的架构在多个真实研究任务中得到验证，涵盖模型训练（提升训练方案与超参数的能力）、测试套件工程（升级评估或训练套件的能力）以及数据合成（为训练或评估生成更优质数据的能力）。最终数据表明，在相同资源预算下，Arbor在留出集增益方面的表现比Codex和Claude Code的平均水平超出2.5倍。研究人员据此断言：维护一棵结构化、持续演化的假设树，比以"无记忆"方式运行同款编程智能体能为研究带来更显著的性能提升。

Info-Tech的

Arbor：为AI编程智能体构建持久性假设树

相关推荐

家庭暖心故事变绘本，这场活动助力“家+有AI”

贵阳航发精密铸造取得航发叶片焊接夹具专利，有效减少夹具体积

双奖加冕！大族激光斩获2026智能制造行业“荣格技术创新奖”

“黑科技”上岗！天府公园治水有了“最强大脑”

第八届海峡两岸物联网技术与产业发展研讨会举办

长飞加速AI短距多模技术跃迁，携手生态共拓产业新未来