AI当老板，快给10家公司干破产了…

Jay 从凹非寺带来报道

量子位 | 公众号 QbitAI

AI扮演「企业主」，已令10家公司陷入困境

普林斯顿大学近期推出了CEO-Bench项目，让AI自主经营一家虚拟的SaaS初创公司，试验周期为500天。

未曾料到，14位由硅基技术驱动「CEO」参与角逐，最终仅4家幸存。

而这唯一获利的第四名，其实是个纯算法驱动的系统……

AI独立运营企业？让机器做老板？？

至少眼下，这还是一个巨大的疑问。

当然，也有部分表现出色的AI模型，已经显现出了潜力——

Fable 5，在500天内实现了4715万美元的营收，堪称全球最强的「AI管理者」。

人工智能CEO竞技赛

在观看这场「AI经营失误」的精彩演绎前，先了解一下游戏规则。

规则相当简单，有点像玩大富翁游戏，只是交互方式不同。

核心是一个Python API，其中包括34个工具、19张数据库表。AI接入后，能够编写代码、利用SQL查询数据库，再根据查询结果调整工作流程。

博弈环境中的变量也复杂得多。

定价策略、广告发布渠道、研发资金分配、基础设施扩展、客服团队构建——都得自行决策。

甚至设有模拟社交网络，AI可以在上面发布帖子、查看客户投诉、暗中观察竞争对手。

基本上能控制公司的所有方面，权限极大，和人类CEO没什么两样。

但这也就意味着，没有人再从对话框里下达指令。模型必须独立为每个决策承担责任。

这也是这场「生存竞赛」中最有趣之处——

广告投放后，客户可能要等到下周才反应；研发投入后，产品质量提升需等好几日……

成本即刻就能消耗殆尽。而回报，却要延迟很久。

这就是CEO最忌讳的「不确定性」，一步走错就可能引发连锁反应。

想靠统计学方法赌一把大的？抱歉，关键变量全都是「隐性」的。

客户满意度、支付意愿、最低质量预期——这些数据，只能从用户退订率、工单数量、社交网络中反推。

与此同时，外部环境始终在变化：竞争对手会施计谋，市场偏好随时间流动，还有宏观经济周期的影响……

无疑是一场「炼狱级」难度的长期决策挑战。

背景信息太多太杂，不可能等所有信息处理完毕再做决定，人类CEO很多时候也是凭直觉。

结果果然很残酷。

14位参赛者中，大多数都损失惨重。

GLM 5.1、Claude Haiku 4.5、Gemini 3 Flash、DeepSeek V4 Pro、Grok 4.20，这五位更是未能完成比赛，遗憾出局。

实现正收益的AI仅三家：

冠军归属于Fable 5——公认的全球最擅长当「企业主」的模型。

毫无意外地夺得第一，本金增长了47倍，遥遥领先第二名Opus 4.8。

并且，Fable 5是唯一一个在多次运行中都能使收益超越初始资本的模型。

（顺便一提，安全限制仍在起作用，Fable 5多次拒绝响应）

但这并非最吸引人的部分。

其实有四位选手获得了收益，不过第四名的并非LLM……

除了这三位最佳「金融家」外，第四名的参赛者——

是个纯基于规则的启发式算法。

完全没有使用任何语言模型。采用固定定价、固定配额、固定层级……规则全由脚本预设。

难以置信，就是这么个看似简单的「傻瓜式」程序，赚了1576万美元。

其收益超过了Fable 5、Opus 4.8和GPT-5.5以外的所有模型。包括Qwen 3.7 Max、Opus 4.7、GLM 5.2、Kimi K2.6……

主要启示

过程相当戏剧化。

不过，比起比赛结果，这个过程中获得的洞见，或更有意义。

这篇论文提出了两大核心启示——

1、探索优先于保守

算是一个符合直觉的发现。

从模型记录中可以看出，GPT-5.5 和 Claude Opus 4.8 会随情况变化不断尝试新策略，无论是加大客户获取力度、

AI当老板，快给10家公司干破产了…

相关推荐

一台追觅吸尘器的“靠谱”，从马达的千锤百炼开始

稀疏盲解卷积计算自适应光学方法提升荧光显微成像质量

中国又一科技突破！海水制氢新技术，全球能源格局要改写？

日本人排大队抢购中国相机，很可能只是个开始……

长期刷短视频，会让人变“笨”吗？

Fable 5 内心「小作文」曝光，这次真不做人了