来源信息:市场资讯 (转自科技行者)由麦吉尔大学、Mila人工智能研究院与服务Now Research联手完成的研究,预印本版本于二零二六年六月十九日发布在arXiv网站,记录编号是arXiv:2606.21638。如果想深入了解技术层面,可以利用这个编号找到完整的论文。相关的代码和模型已在McGill-NLP/tiered-language-models项目页面上实现开源。
**开放与安全,两者是否能够和谐共存?** 探讨这项研究之前,先提及一个可能没被留意到的冲突点。
当企业选择将训练完成的大型语言模型,也就是像ChatGPT这类对话AI的核心机制,公布于众时,任何人都可以下载这个模型、分析它的内部机制、在个人电脑上运行它。这对科研活动来说确是好事:全球的学者能在这一基础上进行试验、发现新领域、促进科技进步。然而,这也导致:那些原本只供特定专业人士接触的机密信息,也可能被所有人看到。
以医疗或生物安全领域为例。某些关于病毒培养、药物调配的专业知识,在专业研究者手中是救治生命的资源,但若落入心怀叵测之人的手里,可能带来灾难性后果。现实操作中往往形成两种策略:要么将这些关键信息彻底从模型中移除,提供给公众一个“简版”;要么完整保留所有功能,但将模型置于服务器的保护下,通过严格的API权限审查来管理使用权限。前者代价在于,为了预防极少数威胁,所有善意的研究者都失去了宝贵的工具。后者则无法实现真正的开放权重发布,也使那些因隐私顾虑必须在本地部署模型的组织(比如医院)陷入困境。更不佳的是,已有研究表明,仅仅在输入端设置一个“密码”(让模型在收到正确口令时才展示全部能力),这种保护措施形同虚设——仅需几十条示例数据,便可通过微调(fine-tuning,即在新数据上继续训练)的方式绕过这个保护层。
麦吉尔大学和Mila的研究团队提出了一个疑问:是否存在第三种方案?是否能使同一套公开发布的模型权重,同时具备两种“面貌”——对普通用户展示安全的公共功能,对经过授权的用户显示额外的受保护功能?他们给出的解答,即是本文阐述的核心构思:**分级语言模型**(Tiered Language Models,简称TLMs)。
一、将“秘密”隐匿在模型的架构内,而非表露于外 先用一个简单的比喻来说明传统密码锁与TLM的不同。
传统的“密码锁定”方法,相当于在一所普通住宅的门口安装了一把密码锁。房子本身的结构未变,内部所有物品尚在,只是门外多了个数字键盘。但问题在于:房子是标准化设计,只要有足够的工具(比如示例数据),完全可以无视正门,从窗户进入。外人通过观察你进门的行为、收集足够信息,也能猜出密码或破坏锁。
TLM的思路则有着本质差异。它不是在门外加锁,而是在房子内部结构上操作。房子的砖块数量与材料并无改变,但部分房间的墙壁位置被替换——只有知晓具体哪面墙被挪动的人,才能找到那个隐藏的房间。对于不知道墙位改动的普通人来说,他只能在常规布局里活动,完全不知还有另一套构造。
更准确地说,TLM的“钥匙”是一份**重新排列指令**:它规定了神经网络(可把模型看作“神经元线路板”)中,哪些小模块的位置要相互交换。模型的参数(即神经元的权重数值,决定了模型“思考”的方式)一个字节未曾增加或减少,仅是某些神经元的位置发生了变动。只有掌握这个改位方案的人,拿到的才是完整的公开模型;而经认证的用户,应用上自己的“钥匙”,就能获得一个完全不同功能的模型。
这里需要解释神经网络的基本构成,以便理解TLM具体调整了哪些“砖块”。当代的大语言模型内部主要有两种网络组件





