
近日,EvolutionaryScale公司推出了新型AI模型并进行了原理验证演示,该模型主要用于创造新型荧光分子设计。据悉,该公司由曾在科技行业巨头Meta公司工作的科学家创立。“我们希望构建可以使生物学可编程的工具,”首席科学家亚历克斯·里夫斯(Alex Rives)说。
EvolutionaryScale的AI工具称为ESM3,是蛋白质语言模型,它接受了超过27亿个蛋白质序列和结构的训练,该模型可用于创建符合用户需要的蛋白质,类似于ChatGPT等聊天机器人吐出的文本。
Rives和他的同事们曾使用ESM-2模型创建了一个包含6亿个预测蛋白质结构的免费数据库。此后,其他团队使用ESM-1版本来设计对包括SARS-CoV-2在内的病原体具有更高活性的抗体并重新设计“抗CRISPR”蛋白,以提高基因编辑工具的效率。
研究人员合成了88种最有前途的设计,并测量了它们的荧光能力。有一种设计与已知的荧光蛋白不同,能够发出微弱的光芒,但这种光芒比天然形式的GFP弱约50倍。随后研究人员对ESM3进行了改进,在制作出大约100个设计时,获得了几个与天然GFP一样明亮,但仍然比实验室设计的变体暗得多的设计。
ESM3设计的最明亮的蛋白质之一,被称为esmGFP,预计其结构类似于天然荧光蛋白。然而,它的氨基酸序列差异很大,在其训练数据集中,与最密切相关的荧光蛋白序列的匹配度不到60%。在服务器上发布的预印本中,bioRxiv4里夫斯和他的同事们说,根据自然突变率,这种程度的序列差异相当于“超过5亿年的进化”。
洛桑瑞士联邦理工学院的结构生物学家Martin Pacesa指出,这是最早允许研究人员使用自然语言描述其特性和功能来指定设计的生物学模型之一,他希望看到这一工具在实验中的表现。
(彪轶辰)