光明日报
近日,北京大学定量生物学中心钱珑团队研发、构建了全球首个针对功能基因挖掘任务的大语言模型SYMPLEX。该模型能够自动高效地从海量生物文献中发现具有目标功能的关键基因,并进行精准筛选和功能验证,为后续的蛋白质功能设计、生物制剂开发以及生物制造的应用提供科学依据。团队与中科院深圳先进技术研究院娄春波研究员合作,将SYMPLEX应用于mRNA加帽酶基因的挖掘,获得的新加帽酶活性显著优于mRNA疫苗生产中采用的商业化酶,展示了大语言模型赋能生物制造的巨大潜力。相关研究成果日前发表于国际学术期刊《科学·进展》。
“自然界生物体内蕴含着数量庞大的有用基因,这些基因经过亿万年自然选择,形成了丰富多样的序列组成和基因组合,演化出各种精妙的功能,帮助生物在各种不同环境中更好地生存繁衍。随着测序获得的生物序列累计达数十亿量级,这些天然基因也为生物制造与合成生物技术提供了基因元件的‘宝库’。”钱珑告诉记者,尽管天然基因具备极为丰富的功能和潜力,但目前只有一小部分热门基因被高质量注释并构建了序列或结构模型。“原因在于,基于序列、结构或深度学习的基因挖掘与蛋白质设计方法由于技术瓶颈无法拓展至复杂基因,进而制约了对高价值基因元件的挖掘与开发利用。”
针对上述问题,团队创造性地将大型语言模型与结构化生物知识库深度融合,开发出SYMPLEX智能基因挖掘平台。这一平台是强大的功能基因搜索引擎,可通过自动化阅读与理解千万级体量的生物学文献,在基因、功能和知识水平上对文献内容进行提取分析,并与专家数据库进行概念对齐、交互和统计模式生成,从而产生高质量候选基因集合。对比结果表明,SYMPLEX大模型相比传统方法具有显著优势。
研究团队还通过大模型挖掘了mRNA加帽酶,并进行了实验验证。“以前,mRNA疫苗背后的一项关键工艺——mRNA 5’端加帽,一直是效率较低、成本高昂的‘卡脖子’环节。SYMPLEX发现了近2万个新型加帽酶,并对其中十余个序列进行了验证。我们从中找到了新酶,其活性超过当前mRNA疫苗制备使用的加帽酶的2倍。SYMPLEX挖掘的加帽酶数据库,有望为mRNA疫苗和基于mRNA的基因疗法研究提供关键技术。”钱珑介绍。
“本项研究开创了功能基因挖掘的新范式,为mRNA疫苗规模化生产提供了关键酶资源库。”钱珑表示,研究团队正在利用这一大模型进行更多可用于合成生物学的关键酶元件挖掘,并将该平台拓展至合成通路设计等领域,有望推动生物制造进入“人工智能驱动的科学研究”的新阶段。