通过将语言模型应用于蛋白质-药物相互作用,研究人员可以快速筛选潜在药物化合物的大型库。
巨大的药物化合物库可能拥有治疗多种疾病的潜在疗法,例如癌症或心脏病。理想情况下,科学家们希望针对所有可能的目标对这些化合物中的每一种进行实验测试,但进行这种筛选非常耗时。
近年来,研究人员开始使用计算方法来筛选这些库,希望加快药物发现速度。然而,这些方法中的许多方法也需要很长时间,因为它们大多数都根据目标蛋白的氨基酸序列计算其三维结构,然后使用这些结构来预测它将与哪些药物分子相互作用。
麻省理工学院和塔夫茨大学的研究人员现在设计了一种基于一种称为大语言模型的人工智能算法的替代计算方法。这些模型(一个众所周知的例子是 ChatGPT)可以分析大量文本并找出哪些单词(或者在本例中为氨基酸)最有可能一起出现。这种名为 ConPLex 的新模型可以将目标蛋白与潜在的药物分子进行匹配,而无需执行计算分子结构的计算密集型步骤。
使用这种方法,研究人员可以在一天内筛选超过 1 亿种化合物——比任何现有模型都要多得多。
“这项工作满足了对潜在候选药物进行高效、准确的计算机筛选的需求,并且该模型的可扩展性使得能够进行大规模筛选,以评估脱靶效应、药物再利用以及确定突变对药物结合的影响,”西蒙斯数学教授、麻省理工学院计算机科学和人工智能实验室 (CSAIL) 计算和生物学小组组长、这项新研究的高级作者之一 Bonnie Berger 说道。
塔夫茨大学计算机科学教授 Lenore Cowen 也是该论文的资深作者,该论文于 6 月 8 日发表在《美国国家科学院院刊》上。CSAIL 研究科学家 Rohit Singh 和麻省理工学院研究生 Samuel Sledzieski 是该论文的主要作者,而 Bryan Bryson 是麻省理工学院生物工程副教授,也是麻省总医院、麻省理工学院和麻省理工学院 Ragon 研究所的成员。哈佛,也是一位作家。除了这篇论文之外,研究人员还在线提供了他们的模型,供其他科学家使用。