新智元消息
【新智元视角】一件事挺玄乎!一个没官网的神秘中国AI团队,以73.1%的成绩冲进CyberGym全球榜单前七,与OpenAI难分高下。大伙儿都在传,这到底是什么来头?
最近,在AI大佬们竞争激烈的CyberGym榜单上,冒出来一个陌生的名字。
就是MopMonk(扫地僧)。
没有声势浩大的发布会,没有官方微博长文,也没在社交平台大肆宣传。
它就这样悄无声息地出现,直接跻身CyberGym全球前十。
就73.1%的成功率,几乎咬住OpenAI,创造了中国团队在该榜单的最高纪录。
最让人感到不可思议的是,时至今日,没人知道它的真身份。
CyberGym这份榜单,到底有多牛?
MopMonk这次的表现有多亮眼?得看看它所竞争的平台才知道。
CyberGym是由UC Berkeley团队研发的,核心论文被ICLR 2026顶会选用。
传送门:https://arxiv.org/pdf/2506.02548
作为评估AI网络安全能力的权威公开基准,这里堪称大模型的「较量场」——
像GPT-5.5-Cyber、Claude Mythos这些顶级模型,都曾在这个榜单里正面交锋。
整个基准强调实战性:
1507个漏洞实例、188个开源大项目,所有题目都是照搬Google OSS-Fuzz积累的真实历史漏洞。
从评估范围来看,是个巨大的飞跃。
它的体量,是先前最大公开基准(NYU CTF,约200题)的7.5倍,把CVE-Bench这类「前辈」甩得老远。
再说说难度,CyberGym不搞选择题。
它要求AI在成千上万个文件、数百万行代码的真实项目里,完成深度推理。
正是因为规模大、真实度高、难度大,CyberGym才有了区分度——
能把不同模型、不同Agent框架之间细微的能力差别,一一显现出来。
难怪安全领域,将它称作「AI安全界的奥运会」。
也因为这个,全球顶尖公司几乎全都来了,微软、OpenAI、Anthropic、谷歌、Meta、智谱等等。
CyberGym榜单本身,正在见证AI竞争的一次关键变化:
从比谁参数多,转为比谁的Agent真能干活。
一个不知名的东方代号
突然闯入硅谷AI巨头行列
谁能想到,正是在这个最看「硬指标」的平台上,冒出来一个「查无此人」的强手。
绕开迷雾,目前掌握的关于MopMonk的线索仅三条:
通常来说,取得这种成绩的团队,技术报告和发布会早就铺天盖地。
但在高手如云的榜单上,MopMonk偏偏是彻底的「另类」:只放出一份数据报告,团队、公司、地址,全都查不到。
这种「实力超强,信息全无」的碰撞,本身带有东方武侠式的戏剧感。
熟悉金庸的人,都明白「扫地僧」这三个字的分量——
少林藏经阁里那位扫了半辈子地、没人认识姓名的老僧,出手却震慑住萧远山、慕容博这两位高手。
最不起眼的,常常藏着最深功力。
敢用「扫地僧」代号挑战,这支队伍显然对自己实力,有十足的底气!
更要紧的线索,藏在它的技术框架里——MopMonk选用的基础模型,是MiniMax M3。
作为一个源自上海的开源模型,M3堪称全能选手,直接汇集了三大关键特长:超强的编程能力、1M超长上下文,以及原生的多模态支持。
一边是充满东方意味的「代号」,另一边是打着国产标签的技术骨干。
把这两点线索摆在一起,范围已经缩小不少。所有迹象都在疯狂指向同一个结论:
这极可能是一支中国队伍。
决胜关键,在Harness
撇开身份之谜,作为长期关注AI






