中国第一，直逼OpenAI！神秘「扫地僧」冲到全球前七

新智元消息

【新智元视角】一件事挺玄乎！一个没官网的神秘中国AI团队，以73.1%的成绩冲进CyberGym全球榜单前七，与OpenAI难分高下。大伙儿都在传，这到底是什么来头？

最近，在AI大佬们竞争激烈的CyberGym榜单上，冒出来一个陌生的名字。

就是MopMonk（扫地僧）。

没有声势浩大的发布会，没有官方微博长文，也没在社交平台大肆宣传。

它就这样悄无声息地出现，直接跻身CyberGym全球前十。

就73.1%的成功率，几乎咬住OpenAI，创造了中国团队在该榜单的最高纪录。

最让人感到不可思议的是，时至今日，没人知道它的真身份。

CyberGym这份榜单，到底有多牛？

MopMonk这次的表现有多亮眼？得看看它所竞争的平台才知道。

CyberGym是由UC Berkeley团队研发的，核心论文被ICLR 2026顶会选用。

传送门：https://arxiv.org/pdf/2506.02548

作为评估AI网络安全能力的权威公开基准，这里堪称大模型的「较量场」——

像GPT-5.5-Cyber、Claude Mythos这些顶级模型，都曾在这个榜单里正面交锋。

整个基准强调实战性：

1507个漏洞实例、188个开源大项目，所有题目都是照搬Google OSS-Fuzz积累的真实历史漏洞。

从评估范围来看，是个巨大的飞跃。

它的体量，是先前最大公开基准（NYU CTF，约200题）的7.5倍，把CVE-Bench这类「前辈」甩得老远。

再说说难度，CyberGym不搞选择题。

它要求AI在成千上万个文件、数百万行代码的真实项目里，完成深度推理。

正是因为规模大、真实度高、难度大，CyberGym才有了区分度——

能把不同模型、不同Agent框架之间细微的能力差别，一一显现出来。

难怪安全领域，将它称作「AI安全界的奥运会」。

也因为这个，全球顶尖公司几乎全都来了，微软、OpenAI、Anthropic、谷歌、Meta、智谱等等。

CyberGym榜单本身，正在见证AI竞争的一次关键变化：

从比谁参数多，转为比谁的Agent真能干活。

一个不知名的东方代号

突然闯入硅谷AI巨头行列

谁能想到，正是在这个最看「硬指标」的平台上，冒出来一个「查无此人」的强手。

绕开迷雾，目前掌握的关于MopMonk的线索仅三条：

通常来说，取得这种成绩的团队，技术报告和发布会早就铺天盖地。

但在高手如云的榜单上，MopMonk偏偏是彻底的「另类」：只放出一份数据报告，团队、公司、地址，全都查不到。

这种「实力超强，信息全无」的碰撞，本身带有东方武侠式的戏剧感。

熟悉金庸的人，都明白「扫地僧」这三个字的分量——

少林藏经阁里那位扫了半辈子地、没人认识姓名的老僧，出手却震慑住萧远山、慕容博这两位高手。

最不起眼的，常常藏着最深功力。

敢用「扫地僧」代号挑战，这支队伍显然对自己实力，有十足的底气！

更要紧的线索，藏在它的技术框架里——MopMonk选用的基础模型，是MiniMax M3。

作为一个源自上海的开源模型，M3堪称全能选手，直接汇集了三大关键特长：超强的编程能力、1M超长上下文，以及原生的多模态支持。

一边是充满东方意味的「代号」，另一边是打着国产标签的技术骨干。

把这两点线索摆在一起，范围已经缩小不少。所有迹象都在疯狂指向同一个结论：

这极可能是一支中国队伍。

决胜关键，在Harness

撇开身份之谜，作为长期关注AI

中国第一，直逼OpenAI！神秘「扫地僧」冲到全球前七

相关推荐

一台追觅吸尘器的“靠谱”，从马达的千锤百炼开始

稀疏盲解卷积计算自适应光学方法提升荧光显微成像质量

中国又一科技突破！海水制氢新技术，全球能源格局要改写？

日本人排大队抢购中国相机，很可能只是个开始……

长期刷短视频，会让人变“笨”吗？

Fable 5 内心「小作文」曝光，这次真不做人了