

MIT研究员瞥见了蛋白质语言模型的内部工作原理,他们采用一种新的方法可以揭示人工智能模型用于预测可能成为良好药物或疫苗靶点的蛋白质的特征。下面就详细来看看吧!
在过去的几年中,可以预测蛋白质结构或功能的模型已广泛用于各种生物学应用,例如确定药物靶点和设计新的治疗性抗体。
这些基于大型语言模型(llm)的模型可以非常准确地预测蛋白质对给定应用的适用性。然而,没有办法确定这些模型是如何做出预测的,或者哪些蛋白质特征在这些决定中起着最重要的作用。
在一项新的研究中,MIT研究人员使用一种新颖的技术来打开这个“黑盒子”,并允许他们确定蛋白质语言模型在进行预测时考虑了哪些特征。了解黑盒子里发生的事情可以帮助研究人员为特定任务选择更好的模型,帮助简化识别新药或疫苗目标的过程。
“我们的工作对依赖这些表征的下游任务的可解释性有广泛的影响,”麻省理工学院计算机科学与人工智能实验室计算与生物学小组负责人、西蒙斯数学教授邦妮·伯杰(Bonnie Berger)说,她是这项研究的资深作者。“此外,识别蛋白质语言模型跟踪的特征有可能从这些表征中揭示新的生物学见解。”
麻省理工学院的研究生Onkar Gujral是这项研究的主要作者,该研究发表在本周的《美国国家科学院院刊》上。麻省理工学院的研究生Mihir Bafna和麻省理工学院的生物工程教授Eric Alm也是这篇论文的作者。
打开黑匣子
2018年,伯杰和前MIT研究生特里斯坦·贝普勒博士(Tristan Bepler)推出了第一个蛋白质语言模型。他们的模型和随后加速AlphaFold开发的蛋白质模型(如ESM2和OmegaFold)一样,都是基于llm的。这些模型,包括ChatGPT,可以分析大量的文本,并找出哪些单词最有可能一起出现。
蛋白质语言模型使用类似的方法,但它们分析的不是单词,而是氨基酸序列。研究人员已经使用这些模型来预测蛋白质的结构和功能,并用于识别可能与特定药物结合的蛋白质等应用。
在2021年的一项研究中,伯杰和他的同事使用蛋白质语言模型来预测病毒表面蛋白质的哪些部分不太可能发生变异,从而使病毒逃逸。这使他们能够确定针对流感、艾滋病毒和SARS-CoV-2的疫苗的可能目标。
然而,在所有这些研究中,都不可能知道这些模型是如何做出预测的。
伯杰说:“我们最终会得出一些预测,但我们完全不知道这个黑匣子的各个组成部分发生了什么。”
在这项新研究中,研究人员想要深入研究蛋白质语言模型是如何做出预测的。就像llm一样,蛋白质语言模型将信息编码为表征,表征由神经网络中不同“节点”的激活模式组成。这些节点类似于大脑中存储记忆和其他信息的神经元网络。
llm的内部工作原理并不容易解释,但在过去的几年里,研究人员已经开始使用一种被称为稀疏自动编码器的算法来帮助阐明这些模型是如何做出预测的。伯杰实验室的这项新研究首次在蛋白质语言模型上使用了这种算法。
稀疏自编码器通过调整蛋白质在神经网络中的表示方式来工作。通常情况下,一个给定的蛋白质将由有限数量的神经元的激活模式来表示,例如,480个。稀疏自动编码器将把这种表示扩展到更大的节点数量,比如20000个。
当一种蛋白质的信息仅由480个神经元编码时,每个节点会点亮多个特征,因此很难知道每个节点正在编码什么特征。然而,当神经网络扩展到20,000个节点时,这些额外的空间以及稀疏性约束为信息提供了“扩散”的空间。现在,以前由多个节点编码的蛋白质的一个特征可以占据一个节点。
“在稀疏表示中,神经元以一种更有意义的方式发光,”Gujral说。“在创建稀疏表示之前,网络将信息紧密地打包在一起,以至于很难解释神经元。”
可说明的模型
一旦研究人员获得了许多蛋白质的稀疏表示,他们就会使用一个名为Claude的人工智能助手(与流行的同名Anthropic聊天机器人有关)来分析这些表示。在这种情况下,他们要求Claude将稀疏表示与每种蛋白质的已知特征(如分子功能、蛋白质家族或细胞内的位置)进行比较。
通过分析成千上万的表示,Claude可以确定哪些节点对应于特定的蛋白质特征,然后用简单的英语描述它们。例如,该算法可能会说,“这个神经元似乎正在检测参与离子或氨基酸跨膜运输的蛋白质,特别是那些位于质膜上的蛋白质。”
这个过程使得节点更加“可解释”,这意味着研究人员可以告诉每个节点在编码什么。他们发现,这些节点最有可能编码的特征是蛋白质家族和某些功能,包括几种不同的代谢和生物合成过程。
“当你训练一个稀疏的自动编码器时,你并没有训练它是可解释的,但事实证明,通过激励表示是真正稀疏的,最终导致了可解释性,”Gujral说。
了解特定蛋白质模型编码的特征可以帮助研究人员为特定任务选择正确的模型,或者调整他们给模型的输入类型,以产生最佳结果。此外,分析模型编码的特征有一天可以帮助生物学家更多地了解他们正在研究的蛋白质。
古杰拉尔说:“在某些时候,当模型变得更加强大时,你可以从开放模型中学到比你已经知道的更多的生物学知识。”
据悉,这项研究由美国国立卫生研究院资助。
以上是关于MIT研究员发现蛋白质语言模型的内部工作原理的全部新闻,如果还想了解更多关于美国留学申请方面的相关知识的,欢迎随时在线咨询,托普仕留学专注美国前30高校申请,多年名校申请经验助力你的留学申请。