中国第一,直逼OpenAI!神秘「扫地僧」冲到全球前七

来源:搜狐新闻 分类:科技
中国第一,直逼OpenAI!神秘「扫地僧」冲到全球前七

新智元消息

【新智元视角】一件事挺玄乎!一个没官网的神秘中国AI团队,以73.1%的成绩冲进CyberGym全球榜单前七,与OpenAI难分高下。大伙儿都在传,这到底是什么来头?

最近,在AI大佬们竞争激烈的CyberGym榜单上,冒出来一个陌生的名字。

就是MopMonk(扫地僧)。

没有声势浩大的发布会,没有官方微博长文,也没在社交平台大肆宣传。

它就这样悄无声息地出现,直接跻身CyberGym全球前十。

就73.1%的成功率,几乎咬住OpenAI,创造了中国团队在该榜单的最高纪录。

最让人感到不可思议的是,时至今日,没人知道它的真身份。

CyberGym这份榜单,到底有多牛?

MopMonk这次的表现有多亮眼?得看看它所竞争的平台才知道。

CyberGym是由UC Berkeley团队研发的,核心论文被ICLR 2026顶会选用。

传送门:https://arxiv.org/pdf/2506.02548

作为评估AI网络安全能力的权威公开基准,这里堪称大模型的「较量场」——

像GPT-5.5-Cyber、Claude Mythos这些顶级模型,都曾在这个榜单里正面交锋。

整个基准强调实战性:

1507个漏洞实例、188个开源大项目,所有题目都是照搬Google OSS-Fuzz积累的真实历史漏洞。

从评估范围来看,是个巨大的飞跃。

它的体量,是先前最大公开基准(NYU CTF,约200题)的7.5倍,把CVE-Bench这类「前辈」甩得老远。

再说说难度,CyberGym不搞选择题。

它要求AI在成千上万个文件、数百万行代码的真实项目里,完成深度推理。

正是因为规模大、真实度高、难度大,CyberGym才有了区分度——

能把不同模型、不同Agent框架之间细微的能力差别,一一显现出来。

难怪安全领域,将它称作「AI安全界的奥运会」。

也因为这个,全球顶尖公司几乎全都来了,微软、OpenAI、Anthropic、谷歌、Meta、智谱等等。

CyberGym榜单本身,正在见证AI竞争的一次关键变化:

从比谁参数多,转为比谁的Agent真能干活。

一个不知名的东方代号

突然闯入硅谷AI巨头行列

谁能想到,正是在这个最看「硬指标」的平台上,冒出来一个「查无此人」的强手。

绕开迷雾,目前掌握的关于MopMonk的线索仅三条:

通常来说,取得这种成绩的团队,技术报告和发布会早就铺天盖地。

但在高手如云的榜单上,MopMonk偏偏是彻底的「另类」:只放出一份数据报告,团队、公司、地址,全都查不到。

这种「实力超强,信息全无」的碰撞,本身带有东方武侠式的戏剧感。

熟悉金庸的人,都明白「扫地僧」这三个字的分量——

少林藏经阁里那位扫了半辈子地、没人认识姓名的老僧,出手却震慑住萧远山、慕容博这两位高手。

最不起眼的,常常藏着最深功力。

敢用「扫地僧」代号挑战,这支队伍显然对自己实力,有十足的底气!

更要紧的线索,藏在它的技术框架里——MopMonk选用的基础模型,是MiniMax M3。

作为一个源自上海的开源模型,M3堪称全能选手,直接汇集了三大关键特长:超强的编程能力、1M超长上下文,以及原生的多模态支持。

一边是充满东方意味的「代号」,另一边是打着国产标签的技术骨干。

把这两点线索摆在一起,范围已经缩小不少。所有迹象都在疯狂指向同一个结论:

这极可能是一支中国队伍。

决胜关键,在Harness

撇开身份之谜,作为长期关注AI

相关推荐