位于伦敦的DeepMind开发的人工智能AlphaFold在数十年的制造过程中取得了突破性进展,它预测蛋白质结构的准确性无人能敌,除非能用x射线对其进行解剖。
此次获奖是在第14轮“蛋白质结构预测技术关键评估”(CASP)比赛中获得的,该比赛的任务是仅根据蛋白质的氨基酸序列来预测蛋白质的结构。
“蛋白质是极其复杂的分子,其精确的三维结构是它们所表现的许多角色的关键,例如调节我们血液中的糖水平的胰岛素和帮助我们对抗感染的抗体,”马里兰州约翰·莫尔特大学,共同创始人和卡斯普椅子,在一个新闻稿。
“即使这些重要分子的微小重组也会对我们的健康产生灾难性的影响,所以了解疾病并找到新治疗方法的最有效方法之一是研究相关的蛋白质。”
AlphaFold的准确性足够高,以至于CASP称其为蛋白质折叠问题的解决方案。
“这是一个问题,即我开始认为在我的一生中不会得到解决,”英国剑桥欧洲生物信息学研究所的Dame Janet Thornton表示,在新闻发布会上表示。
“知道这些结构真的有助于我们了解人类如何运作和功能,我们如何工作。”
(蛋白质)结构确定功能
蛋白质是生命的基础 - 或者在病毒的情况下,类似的东西。它们由20种不同氨基酸的长串组成,其又为DNA编码。
但只是因为你知道蛋白质的遗传代码并不意味着你可以预测它看起来像什么。虽然DNA告诉您蛋白质的氨基酸成分,但它并没有告诉您所有这些成分如何适合并将其折叠成三维物体。
蛋白质的结构是丝带,葡萄藤和卷曲的复杂,3d缠结;氨基酸以非常具体的方式折叠以制造非常特异性的形式。蛋白质折叠是他们工作的唯一方式;如果他们没有正确折叠 - 或者根本 - 后果可能是可怕的。
订阅freehthink,以获取这样的更多故事。
(考虑到戏剧性的例子,可怕的朊病毒,一种错误的蛋白质,可导致其他蛋白质误用,导致许多脑融化的疾病,最着名的“疯牛”和CJD病。)
虽然我们知道许多遗传码和它们编码的氨基酸,但能够从那些酸中飞跃到它们看起来像3D蛋白质结构的东西是漫长而艰苦,昂贵的过程。蛋白质更大,更复杂,越难。
当基督徒的Anfinsen建议,在1972年诺贝尔接受演讲中,蛋白质的结构应该决定其功能,它踢出了几十年的工作,在科学的大型风车之一。
可能存在的蛋白质结构不计其数;的监护人’s的Ian Sample将这个数字固定在googol的立方上,如果我把它打出来,就会是一个1后面跟着一个300zeroes。
每麻省理工学院技术评论,实验室目前使用X射线晶体学,核磁共振或冷冻电子显微镜测定蛋白质的结构。我不会进入他们在这里工作,但足以说,这些方法可以消耗充足的时间和资本。
“成千上万的人类蛋白质和其他数十亿种,包括细菌和病毒,但锻炼的形状只需要昂贵的设备,可能需要多年的时间,”莫尔特说。
能够根据其遗传密码预测蛋白质的复杂折纸形状将使整个宇宙开辟科学研究。
“这真的是一个很大的事。”
Casp比赛于1994年落成。每两年,球队挑战,妥善预测基于其氨基酸序列的数十种蛋白质的结构。蛋白质结构首先在实验室中工作,然后与不同AI或计算机程序的预测相比。
Deepmind已经在Casp挥手了。Alphafold在2018年版中展出了强烈的表演;在2020年,它粉碎了它。
“这真的是一项大不了的大奖,”华盛顿大学蛋白质设计研究所负责人David Baker告诉麻省理工学院技术审查。(蛋白质设计研究所在折叠后面,使蛋白质折叠到游戏中并竞争性地挤Coronavirus抗病毒目标。)
“深度蛋白质折叠结果非常令人难以置信,而且令人难以置信的重要,”英国遗传学家亚当·卢瑟福推文。但是,正如他指出的那样,它也是一个头发复杂。
andrei lupas.“模特......让我们在半小时后给了我们的结构,在我们花了十年的尝试之后。”
分析如下:CASP比率使用一种称为全球距离测试(GDT)的测量方法进行蛋白质结构预测的准确性。从0到100,这本质上是说,你所预测的结构与氨基酸的真实位置有多接近,这是通过核磁共振或x射线晶体学观察得出的。
GDT的90分被认为与目前的黄金标准实验室观察结果相当。用非常小、非常简单的蛋白质,这是一个很容易的目标,但用更大的蛋白质和更复杂的形状,就会变得困难得多。
alphafold在所有目标中都有92.4的中位数得分。当介绍深度的博客作为预测的“非常艰难”的蛋白质结构,它们的中位数为87.0 GDT。
alphafold不仅击败了其他计算机程序和进入CASP的AIS,而且在实验室中获得的蛋白质结构几乎是准确的。
“这是一个很大的事,”莫尔特告诉自然。“在某些情况下,问题就解决了。”
使用来自蛋白质数据库的大约170,000名已知的蛋白质结构的数据库,以及具有未知结构的蛋白质序列的巨大收集,Deepmind培训了α字母表。将所有信息喂给alphafold的深度学习神经网络,深色让它在电脑马力的“相对谦虚的数量”中运行几周。
麻省理工学院技术审查报告,alphafold在这项工作中创造了高度准确的猜测,其中氨基酸在未知的蛋白质结构中,麻省理工学院技术审查报告。
谁知道未来折叠的东西
了解蛋白质折叠和蛋白质结构可以从根本上改变我们了解蛋白质所涉及的任何功能 - 因此,所有生物学都基本上。
Alphafold已经帮助在该领域。德国Max Planck发育生物学研究所的进化生物学家安德烈·卢布斯使用了alphafold来挑剔蛋白质结构,这些蛋白质结构已经闪烁了他的实验室。
“427组(DeepMind的Casp Psedony)的模型在半小时后给了我们我们的结构,之后我们花了十年的一切,”Lupas - 谁评估了Casp的高精度模型 - 告诉大自然。
Deepmind创始人和首席执行官Demis Hassabis推断了Deepmind希望alphafold“将对疾病的理解和药物发现产生很大影响。”
能够准确预测蛋白质的结构可以帮助研究人员开发出新的药物,如抗体或抗病毒药人,即Stymie SARS-COV-2的各种蛋白质,包括穗 - 并有助于提高我们对体内疾病的理解。
长期影响可能涉及帮助科学家设计可以吃掉废物,增强生物燃料的蛋白质,创造更健康,更加强硬的作物。
alphafold不仅击败了其他计算机程序和进入CASP的AIS,而且在实验室中获得的蛋白质结构几乎是准确的。
然而,不要让小号淹没一些仍然可以完成的工作。
alphafold在其目标的⅔中击中了令人印象深刻的标志,但与磁共振成像,自然报告相比,它表现出一些麻烦;根据换羽,这可能是技术如何将数据转换为模型之间的差异。到目前为止,它还具有预测蛋白质复合物中的蛋白质结构的艰难时间,其中几种不同的蛋白质可以改变彼此的折叠。
Deepmind在alphafold纸上工作,并弄清楚了使研究人员能够获得工具的方法。
深度背后的终极愿景一直是建立AI,然后通过加快科学发现的速度来帮助进一步了解我们周围世界的知识,“Hassabis推文。
“对于美国alphafold表示这篇论文的令人兴奋的第一证明点。”