麦吉尔大学与Mila研究院联手破解AI安全难题

来源信息：市场资讯（转自科技行者）由麦吉尔大学、Mila人工智能研究院与服务Now Research联手完成的研究，预印本版本于二零二六年六月十九日发布在arXiv网站，记录编号是arXiv:2606.21638。如果想深入了解技术层面，可以利用这个编号找到完整的论文。相关的代码和模型已在McGill-NLP/tiered-language-models项目页面上实现开源。

**开放与安全，两者是否能够和谐共存？** 探讨这项研究之前，先提及一个可能没被留意到的冲突点。

当企业选择将训练完成的大型语言模型，也就是像ChatGPT这类对话AI的核心机制，公布于众时，任何人都可以下载这个模型、分析它的内部机制、在个人电脑上运行它。这对科研活动来说确是好事：全球的学者能在这一基础上进行试验、发现新领域、促进科技进步。然而，这也导致：那些原本只供特定专业人士接触的机密信息，也可能被所有人看到。

以医疗或生物安全领域为例。某些关于病毒培养、药物调配的专业知识，在专业研究者手中是救治生命的资源，但若落入心怀叵测之人的手里，可能带来灾难性后果。现实操作中往往形成两种策略：要么将这些关键信息彻底从模型中移除，提供给公众一个“简版”；要么完整保留所有功能，但将模型置于服务器的保护下，通过严格的API权限审查来管理使用权限。前者代价在于，为了预防极少数威胁，所有善意的研究者都失去了宝贵的工具。后者则无法实现真正的开放权重发布，也使那些因隐私顾虑必须在本地部署模型的组织（比如医院）陷入困境。更不佳的是，已有研究表明，仅仅在输入端设置一个“密码”（让模型在收到正确口令时才展示全部能力），这种保护措施形同虚设——仅需几十条示例数据，便可通过微调（fine-tuning，即在新数据上继续训练）的方式绕过这个保护层。

麦吉尔大学和Mila的研究团队提出了一个疑问：是否存在第三种方案？是否能使同一套公开发布的模型权重，同时具备两种“面貌”——对普通用户展示安全的公共功能，对经过授权的用户显示额外的受保护功能？他们给出的解答，即是本文阐述的核心构思：**分级语言模型**（Tiered Language Models，简称TLMs）。

一、将“秘密”隐匿在模型的架构内，而非表露于外先用一个简单的比喻来说明传统密码锁与TLM的不同。

传统的“密码锁定”方法，相当于在一所普通住宅的门口安装了一把密码锁。房子本身的结构未变，内部所有物品尚在，只是门外多了个数字键盘。但问题在于：房子是标准化设计，只要有足够的工具（比如示例数据），完全可以无视正门，从窗户进入。外人通过观察你进门的行为、收集足够信息，也能猜出密码或破坏锁。

TLM的思路则有着本质差异。它不是在门外加锁，而是在房子内部结构上操作。房子的砖块数量与材料并无改变，但部分房间的墙壁位置被替换——只有知晓具体哪面墙被挪动的人，才能找到那个隐藏的房间。对于不知道墙位改动的普通人来说，他只能在常规布局里活动，完全不知还有另一套构造。

更准确地说，TLM的“钥匙”是一份**重新排列指令**：它规定了神经网络（可把模型看作“神经元线路板”）中，哪些小模块的位置要相互交换。模型的参数（即神经元的权重数值，决定了模型“思考”的方式）一个字节未曾增加或减少，仅是某些神经元的位置发生了变动。只有掌握这个改位方案的人，拿到的才是完整的公开模型；而经认证的用户，应用上自己的“钥匙”，就能获得一个完全不同功能的模型。

这里需要解释神经网络的基本构成，以便理解TLM具体调整了哪些“砖块”。当代的大语言模型内部主要有两种网络组件

麦吉尔大学与Mila研究院联手破解AI安全难题

相关推荐

家庭暖心故事变绘本，这场活动助力“家+有AI”

贵阳航发精密铸造取得航发叶片焊接夹具专利，有效减少夹具体积

双奖加冕！大族激光斩获2026智能制造行业“荣格技术创新奖”

“黑科技”上岗！天府公园治水有了“最强大脑”

第八届海峡两岸物联网技术与产业发展研讨会举办

长飞加速AI短距多模技术跃迁，携手生态共拓产业新未来