DeepMind AI破解了蛋白质结构的代码

Alphafold预测具有突破性精度的蛋白质折叠。

在制造中的突破性几十年中,由伦敦DeepMind开发的人工智能Alphafold预测了蛋白质的结构,其精度是无与伦比的,而在实际上用X射线剖析了蛋白质。

成功是在蛋白质结构预测技术(CASP)的第14轮评估的第14轮中,该竞争使团队仅根据其氨基酸序列来预测蛋白质的结构。

“Proteins are extremely complicated molecules, and their precise three-dimensional structure is key to the many roles they perform, for example the insulin that regulates sugar levels in our blood and the antibodies that help us fight infections,” the University of Maryland’s John Moult, co-founder and chair of CASP, said in a新闻稿。

“即使是这些重要分子的微小重排也可能对我们的健康产生灾难性影响,因此理解疾病并找到新疗法的最有效方法之一就是研究所涉及的蛋白质。”

Alphafold的精度足够高,CASP称其为解决蛋白质折叠问题的解决方案。

英国欧洲生物信息学研究所的丹特·桑顿(Dame Janet Thornton)在英国剑桥市的欧洲生物信息学研究所(Dame Janet Thornton)在新闻发布会上说:“这是我开始认为不会解决的问题。”

“了解这些结构确实会帮助我们了解人类的运作和运作方式,我们的工作方式。”

(蛋白质)结构决定功能

蛋白质是生命的基础,或者在病毒的情况下,蛋白质类似。它们由20种不同氨基酸的长串组成,这些氨基酸又在DNA中编码。

但是,仅仅因为您知道蛋白质的遗传代码并不意味着您可以预测它的外观。虽然DNA告诉您蛋白质的氨基酸成分,但并不能告诉您所有这些成分如何融合在一起并折叠成3维物体。

蛋白质的结构是一种复杂的3D丝带,藤蔓和卷发炸薯条。氨基酸以非常特定的方式折叠以制作非常特定的形式。蛋白质折叠是它们工作的唯一方法。如果它们无法正确折叠(或根本无法折叠),那么后果可能会很可怕。

(以戏剧性的例子为例,可怕的prion是一种错误折叠的蛋白质,可能导致其他蛋白质错误折叠,导致许多脑粘液疾病,最著名的是“疯牛”和CJD病)。

虽然我们知道很多遗传代码和它们代码的氨基酸,但能够从这些酸到它们看起来像3D蛋白结构的外观是一个漫长,费力且昂贵的过程。蛋白质越大,越复杂,就越困难。

当克里斯蒂安·阿芬森(Christian Anfinsen)在1972年的诺贝尔(Nobel)接受演讲中建议蛋白质的结构应该决定其功能时,它在科学的一台大风车之一上开始了数十年的工作。

可能会有数量不可理解的蛋白质结构。这监护人‘ian示例将数字钉在一个Googol立方体上,如果我输入的话,将是1个300零。

麻省理工学院技术评论,实验室目前使用X射线晶体学,核磁共振或冷冻电子显微镜确定蛋白质的结构。我不会了解他们在这里的工作方式,但可以说,这些方法可以消耗大量的时间和资本。

莫尔特说:“包括细菌和病毒在内的其他物种中有成千上万的人类蛋白质和数十亿美元,但仅仅锻炼一个人的形状需要昂贵的设备,可能需要数年的时间。”

能够根据蛋白质的遗传代码来预测蛋白质的复杂折纸形状,将为科学研究提供整个宇宙。

“这确实很重要。”

CASP竞赛于1994年成立。每两年,团队都会根据其氨基酸序列正确预测数十种蛋白质的结构。蛋白质结构首先是在实验室中制定的,然后将其与不同的AI或计算机程序的预测进行了比较。

DeepMind已经在CASP浪潮。Alphafold在2018年版中表现出色;在2020年,它粉碎了它。

华盛顿大学蛋白质设计研究所负责人戴维·贝克(David Baker)告诉MIT Technology Review。(蛋白质设计研究所是折叠式的,这使蛋白质折叠成游戏,并且一直在竞争性众包中冠状病毒抗病毒目标。)

英国遗传学家亚当·卢瑟福(Adam Rutherford)在推特上发推文说:“深膜蛋白折叠结果确实令人难以置信,而且非常重要。”但是,正如他指出的那样,这也是一个头发复合体。

这是分解:CASP使用称为全球距离测试(GDT)的测量值对蛋白质结构预测的准确度进行了评分。从0-100得分,这实际上是说您预测的结构是与氨基酸的真实位置的距离,这取决于MRIS或X射线晶体学观察结果。

GDT分数为90被认为与当前的金标准实验室观测值相当。这是一个非常简单的目标,具有非常小,非常简单的蛋白质,但是由于蛋白质和更复杂的形状,它变得更加困难。

Alphafold的所有目标中位数为92.4。当呈现深mind的内容时博客它们是要预测的“最难”蛋白质结构的特征,它们的中位数为87.0 GDT。

Alphafold不仅击败了其他计算机程序,并且AIS进入了CASP,而且几乎与实验室中获得的蛋白质结构一样准确。

“这很重要,”穆尔特告诉自然。“从某种意义上说,问题已经解决。”

使用来自蛋白质数据库的大约170,000个已知蛋白质结构的数据库进行了深媒体训练的Alphafold,并使用未知结构的蛋白质序列收集了巨大的蛋白质序列。DeepMind将所有这些信息馈送到Alphafold的深度学习神经网络中,并以“相对适量的计算机马力”运行几周。

在这项工作的基础上,Alphafold对氨基酸在未知蛋白质结构中的位置产生了高度准确的猜测。

谁知道未来会怎样

了解蛋白质折叠和蛋白质结构可以从根本上改变我们理解涉及蛋白质的任何功能的方式 - 因此,所有生物学基本上都是。

Alphafold已经在该领域提供了帮助。德国麦克斯·普朗克发育生物学研究所的进化生物学家安德烈·卢帕斯(Andrei Lupas)使用Alphafold逗弄了一种蛋白质结构,该蛋白质结构已经使他的实验室陷入困境了多年。

“第427组(DeepMind的CASP化名)的模型在我们花了十年之后,在半个小时内为我们提供了结构,” Lupas(评估了CASP的高级智能模型)告诉《自然》。

DeepMind创始人兼首席执行官Demis Hassabis发推文说,DeepMind希望Alphafold“将对疾病的理解和药物发现产生重大影响”。

能够准确预测蛋白质的结构可以帮助研究人员开发新药,例如阻碍SARS-COV-2的各种蛋白质(包括尖峰)的抗体或抗病毒药,并帮助我们改善我们对体内疾病正在做的事情的理解。

长期的影响可能涉及帮助科学家设计可以吞噬废物,增强生物燃料并创造更健康,更艰苦的农作物的蛋白质。

但是,不要让小号淹没一些尚待完成的工作。

Alphafold在其目标中击中了令人印象深刻的标记,但是与磁共振成像相比,它显示出一些麻烦。根据穆尔特(Moult)的说法,这可能是技术如何将数据转化为模型之间的差异。到目前为止,它也很难预测蛋白质复合物中的蛋白质结构,其中几种不同的蛋白质可以改变彼此的折叠。

DeepMind正在使用Alphafold纸上工作,并弄清楚使研究人员可以使用该工具的方法。

DeepMind背后的最终愿景一直是建立AI,然后使用它来通过加速科学发现的步伐来帮助我们对周围世界的了解。”

“对我们来说,alphafold代表了该论文的一个令人兴奋的第一证明。”

有关的
机器人模拟器
DeepMind的昂贵机器人模拟器现在可以免费使用
Google的姊妹公司AI Research Lab DeepMind购买并开源了强大的机器人模拟器Mujoco。
超薄燃料电池使用人体自己的糖产生
电池可以限制如何制造它们,需要充电。如果您可以为自己的医疗设备供电怎么办?
基因编辑可以撤销焦虑和酒精疾病
基因编辑可能是对青春期暴饮暴食的成年人的焦虑和酒精中毒的治疗方法。
Google地图的“沉浸式视图”以一种全新的方式显示了城市
Google Maps的“沉浸式视图”结合了卫星和街景图像,可让您尽快探索精选的社区。
观看约翰·麦肯罗(John McEnroe)在球场上扮演过去的版本
多亏了AI,Digital Avatars和机器人大炮,John McEnroe正在接受他最艰难的对手:他自己。
接下来
在家乳腺癌筛查
订阅自由思考以获取更多很棒的故事