Jay 从凹非寺带来报道
量子位 | 公众号 QbitAI
AI扮演「企业主」,已令10家公司陷入困境
普林斯顿大学近期推出了CEO-Bench项目,让AI自主经营一家虚拟的SaaS初创公司,试验周期为500天。
未曾料到,14位由硅基技术驱动「CEO」参与角逐,最终仅4家幸存。
而这唯一获利的第四名,其实是个纯算法驱动的系统……
AI独立运营企业?让机器做老板??
至少眼下,这还是一个巨大的疑问。
当然,也有部分表现出色的AI模型,已经显现出了潜力——
Fable 5,在500天内实现了4715万美元的营收,堪称全球最强的「AI管理者」。
人工智能CEO竞技赛
在观看这场「AI经营失误」的精彩演绎前,先了解一下游戏规则。
规则相当简单,有点像玩大富翁游戏,只是交互方式不同。
核心是一个Python API,其中包括34个工具、19张数据库表。AI接入后,能够编写代码、利用SQL查询数据库,再根据查询结果调整工作流程。
博弈环境中的变量也复杂得多。
定价策略、广告发布渠道、研发资金分配、基础设施扩展、客服团队构建——都得自行决策。
甚至设有模拟社交网络,AI可以在上面发布帖子、查看客户投诉、暗中观察竞争对手。
基本上能控制公司的所有方面,权限极大,和人类CEO没什么两样。
但这也就意味着,没有人再从对话框里下达指令。模型必须独立为每个决策承担责任。
这也是这场「生存竞赛」中最有趣之处——
广告投放后,客户可能要等到下周才反应;研发投入后,产品质量提升需等好几日……
成本即刻就能消耗殆尽。而回报,却要延迟很久。
这就是CEO最忌讳的「不确定性」,一步走错就可能引发连锁反应。
想靠统计学方法赌一把大的?抱歉,关键变量全都是「隐性」的。
客户满意度、支付意愿、最低质量预期——这些数据,只能从用户退订率、工单数量、社交网络中反推。
与此同时,外部环境始终在变化:竞争对手会施计谋,市场偏好随时间流动,还有宏观经济周期的影响……
无疑是一场「炼狱级」难度的长期决策挑战。
背景信息太多太杂,不可能等所有信息处理完毕再做决定,人类CEO很多时候也是凭直觉。
结果果然很残酷。
14位参赛者中,大多数都损失惨重。
GLM 5.1、Claude Haiku 4.5、Gemini 3 Flash、DeepSeek V4 Pro、Grok 4.20,这五位更是未能完成比赛,遗憾出局。
实现正收益的AI仅三家:
冠军归属于Fable 5——公认的全球最擅长当「企业主」的模型。
毫无意外地夺得第一,本金增长了47倍,遥遥领先第二名Opus 4.8。
并且,Fable 5是唯一一个在多次运行中都能使收益超越初始资本的模型。
(顺便一提,安全限制仍在起作用,Fable 5多次拒绝响应)
但这并非最吸引人的部分。
其实有四位选手获得了收益,不过第四名的并非LLM……
除了这三位最佳「金融家」外,第四名的参赛者——
是个纯基于规则的启发式算法。
完全没有使用任何语言模型。采用固定定价、固定配额、固定层级……规则全由脚本预设。
难以置信,就是这么个看似简单的「傻瓜式」程序,赚了1576万美元。
其收益超过了Fable 5、Opus 4.8和GPT-5.5以外的所有模型。包括Qwen 3.7 Max、Opus 4.7、GLM 5.2、Kimi K2.6……
主要启示
过程相当戏剧化。
不过,比起比赛结果,这个过程中获得的洞见,或更有意义。
这篇论文提出了两大核心启示——
1、探索优先于保守
算是一个符合直觉的发现。
从模型记录中可以看出,GPT-5.5 和 Claude Opus 4.8 会随情况变化不断尝试新策略,无论是加大客户获取力度、






