我國團隊研發,全球首個基因挖掘大模型 SYMPLEX 問世
更新于:2025-04-14 13:07:16

IT之家 4 月 14 日消息,隨著生物測序技術突破,全球天然基因庫已積累數十億量級序列,其中蘊藏海量高價值功能基因。然而,當前僅有少數明星基因被深度挖掘,絕大多數仍處於“沉睡”狀態。

4 月 9 日,中國科學院深圳先進技術研究院定量合成生物學全國重點實驗室、合成生物學研究所婁春波團隊與北京大學定量生物學中心錢瓏團隊合作在國際學術期刊 Science Advances 上發表研究論文,報導了全球首個面向合成生物學元件挖掘與生物製造應用的大語言模型 ——“SYMPLEX”,並將 SYMPLEX 模型應用於 mRNA 加帽酶基因的挖掘,展示了大語言模型賦能生物製造的巨大潛力。

該模型通過融合領域大語言模型訓練、合成生物專家知識對齊和大規模生物資訊分析,實現了從海量文獻中自動化挖掘功能基因元件,並精準評估其工程化應用潛力

研究團隊將 SYMPLEX 應用於 mRNA 疫苗生物製造關鍵酶 —— 加帽酶的挖掘,成功獲得多種高性能新型加帽酶。第三方公司實驗驗證顯示,這些酶在催化效率上超越國際頭部企業 New England Biolabs(NEB)商業化加帽酶 2 倍以上,顯著提升了 mRNA 疫苗生產率和成本效益。

研究團隊創造性地將大型語言模型(LLM)與結構化生物知識庫深度融合,開發出 SYMPLEX 智慧基因挖掘平臺。

SYMPLEX 是強大的功能基因搜尋引擎,通過自動化閱讀和理解千萬級體量的生物學文獻,在基因、功能和知識水準上提取分析文獻內容,並與專家資料庫進行概念對齊、交互和基於先進生物資訊技術的統計模式生成,從而提供證據鏈完整的高品質候選基因集合。

SYMPLEX 不僅有效規避了大語言模型幻覺,還能自動生成基因功能相關的細粒度知識樹,引導科學家探索廣泛的生物機制和分子過程。

▲ SYMPLEX 大模型的技術路線及其與傳統基因挖掘流程對比

對比結果表明,SYMPLEX 大模型在挖掘基因的深度、數量和多樣性上均顯著優於傳統生物資訊學方法,其挖掘的基因多樣性也超越了現有蛋白質功能預測模型的邊界。

▲ SYMPLEX 挖掘結果多樣性對比和細粒度知識樹生成

目前,SYMPLEX 在線互動式平臺已上線供研究人員免費使用。平台採用模組化設計,提供三個核心功能:

  • (1)文獻智慧提取引擎 PubEngine:支援高通量的文獻智慧檢索分析與可視化交互。

  • (2)基因功能標註系統 GeneTagger:實現從分子機制到生物過程的細粒度自動化基因與功能提取。

  • (3)標準化知識中樞 GeneNorm:實現與專家知識庫的概念對齊與標準化,支援知識樹構建和功能模式識別。

IT之家附論文連結: