本文轉自:光明日報
【瞧!我們的前沿科技】
光明日報北京4月12日電(記者晉浩天)近日,北京大學定量生物學中心錢瓏團隊研發、構建了全球首個針對功能基因挖掘任務的大語言模型SYMPLEX。該模型能夠自動高效地從海量生物文獻中發現具有目標功能的關鍵基因,並進行精準篩選和功能驗證,為後續的蛋白質功能設計、生物製劑開發以及生物製造的應用提供科學依據。團隊與中科院深圳先進技術研究院婁春波研究員合作,將SYMPLEX應用於mRNA加帽酶基因的挖掘,獲得的新加帽酶活性顯著優於mRNA疫苗生產中採用的商業化酶,展示了大語言模型賦能生物製造的巨大潛力。相關研究成果日前發表於國際學術期刊《科學·進展》。
“自然界生物體內蘊含著數量龐大的有用基因,這些基因經過億萬年自然選擇,形成了豐富多樣的序列組成和基因組合,演化出各種精妙的功能,説明生物在各種不同環境中更好地生存繁衍。隨著測序獲得的生物序列累計達數十億量級,這些天然基因也為生物製造與合成生物技術提供了基因元件的‘寶庫’。”錢瓏告訴記者,儘管天然基因具備極為豐富的功能和潛力,但目前只有一小部分熱門基因被高品質註釋並構建了序列或結構模型。“原因在於,基於序列、結構或深度學習的基因挖掘與蛋白質設計方法由於技術瓶頸無法拓展至複雜基因,進而制約了對高價值基因元件的挖掘與開發利用。”
針對上述問題,團隊創造性地將大型語言模型與結構化生物知識庫深度融合,開發出SYMPLEX智慧基因挖掘平臺。這一平臺是強大的功能基因搜尋引擎,可通過自動化閱讀與理解千萬級體量的生物學文獻,在基因、功能和知識水準上對文獻內容進行提取分析,並與專家資料庫進行概念對齊、交互和統計模式生成,從而產生高品質候選基因集合。對比結果表明,SYMPLEX大模型相比傳統方法具有顯著優勢。
研究團隊還通過大模型挖掘了mRNA加帽酶,並進行了實驗驗證。“以前,mRNA疫苗背後的一項關鍵工藝——mRNA 5’端加帽,一直是效率較低、成本高昂的‘卡脖子’環節。SYMPLEX發現了近2萬個新型加帽酶,並對其中十余個序列進行了驗證。我們從中找到了新酶,其活性超過當前mRNA疫苗製備使用的加帽酶的2倍。SYMPLEX挖掘的加帽酶資料庫,有望為mRNA疫苗和基於mRNA的基因療法研究提供關鍵技術。”錢瓏介紹。
“本項研究開創了功能基因挖掘的新範式,為mRNA疫苗規模化生產提供了關鍵酶資源庫。”錢瓏表示,研究團隊正在利用這一大模型進行更多可用於合成生物學的關鍵酶元件挖掘,並將該平臺拓展至合成通路設計等領域,有望推動生物製造進入“人工智慧驅動的科學研究”的新階段。
《光明日報》(2025年04月13日 04版)