AI当老板,快给10家公司干破产了…

来源:搜狐新闻 分类:科技
AI当老板,快给10家公司干破产了…

Jay 从凹非寺带来报道

量子位 | 公众号 QbitAI

AI扮演「企业主」,已令10家公司陷入困境

普林斯顿大学近期推出了CEO-Bench项目,让AI自主经营一家虚拟的SaaS初创公司,试验周期为500天。

未曾料到,14位由硅基技术驱动「CEO」参与角逐,最终仅4家幸存。

而这唯一获利的第四名,其实是个纯算法驱动的系统……

AI独立运营企业?让机器做老板??

至少眼下,这还是一个巨大的疑问。

当然,也有部分表现出色的AI模型,已经显现出了潜力——

Fable 5,在500天内实现了4715万美元的营收,堪称全球最强的「AI管理者」。

人工智能CEO竞技赛

在观看这场「AI经营失误」的精彩演绎前,先了解一下游戏规则。

规则相当简单,有点像玩大富翁游戏,只是交互方式不同。

核心是一个Python API,其中包括34个工具、19张数据库表。AI接入后,能够编写代码、利用SQL查询数据库,再根据查询结果调整工作流程。

博弈环境中的变量也复杂得多。

定价策略、广告发布渠道、研发资金分配、基础设施扩展、客服团队构建——都得自行决策。

甚至设有模拟社交网络,AI可以在上面发布帖子、查看客户投诉、暗中观察竞争对手。

基本上能控制公司的所有方面,权限极大,和人类CEO没什么两样。

但这也就意味着,没有人再从对话框里下达指令。模型必须独立为每个决策承担责任。

这也是这场「生存竞赛」中最有趣之处——

广告投放后,客户可能要等到下周才反应;研发投入后,产品质量提升需等好几日……

成本即刻就能消耗殆尽。而回报,却要延迟很久。

这就是CEO最忌讳的「不确定性」,一步走错就可能引发连锁反应。

想靠统计学方法赌一把大的?抱歉,关键变量全都是「隐性」的。

客户满意度、支付意愿、最低质量预期——这些数据,只能从用户退订率、工单数量、社交网络中反推。

与此同时,外部环境始终在变化:竞争对手会施计谋,市场偏好随时间流动,还有宏观经济周期的影响……

无疑是一场「炼狱级」难度的长期决策挑战。

背景信息太多太杂,不可能等所有信息处理完毕再做决定,人类CEO很多时候也是凭直觉。

结果果然很残酷。

14位参赛者中,大多数都损失惨重。

GLM 5.1、Claude Haiku 4.5、Gemini 3 Flash、DeepSeek V4 Pro、Grok 4.20,这五位更是未能完成比赛,遗憾出局。

实现正收益的AI仅三家:

冠军归属于Fable 5——公认的全球最擅长当「企业主」的模型。

毫无意外地夺得第一,本金增长了47倍,遥遥领先第二名Opus 4.8。

并且,Fable 5是唯一一个在多次运行中都能使收益超越初始资本的模型。

(顺便一提,安全限制仍在起作用,Fable 5多次拒绝响应)

但这并非最吸引人的部分。

其实有四位选手获得了收益,不过第四名的并非LLM……

除了这三位最佳「金融家」外,第四名的参赛者——

是个纯基于规则的启发式算法。

完全没有使用任何语言模型。采用固定定价、固定配额、固定层级……规则全由脚本预设。

难以置信,就是这么个看似简单的「傻瓜式」程序,赚了1576万美元。

其收益超过了Fable 5、Opus 4.8和GPT-5.5以外的所有模型。包括Qwen 3.7 Max、Opus 4.7、GLM 5.2、Kimi K2.6……

主要启示

过程相当戏剧化。

不过,比起比赛结果,这个过程中获得的洞见,或更有意义。

这篇论文提出了两大核心启示——

1、探索优先于保守

算是一个符合直觉的发现。

从模型记录中可以看出,GPT-5.5 和 Claude Opus 4.8 会随情况变化不断尝试新策略,无论是加大客户获取力度、

相关推荐