本文轉自:新民晚報
建立全球最大蛋白質數據集
上海交大研發新模型,助力生物醫藥和合成生物學快速發展
本報訊(記者 王蔚)上海交通大學洪亮教授團隊今天上午發佈最新成果,團隊將AI與蛋白質設計與改造相結合,建立了全球最大的蛋白質數據集。基於該數據集訓練的模型,可精準、高效地預測、設計蛋白質的功能,把蛋白質生產由“緩慢的試錯”變為“高效率的精準設計”。
提起蛋白質,人們首先想到的是肉、蛋、奶這些食物中含有的豐富蛋白質,它可以為人們提供身體所需的營養。但天然的蛋白質難以發揮這些功能,需要對蛋白質的功能進行設計和改造,才能使它成為滿足應用需求的產品,這並不是一件容易的事。因為,一款功能過硬的蛋白質產品的誕生,通常需要豐富的專家經驗,並配合數以萬計的實驗試錯。長期以來,蛋白質設計改造的時間長、成本高、試錯密集等問題,一直是業界公認的普遍性難題。
“蛋白質是由氨基酸序列構成的,氨基酸序列的長度從數百個到上千個不等。AI時代,數據是推動技術進步的核心資源,龐大的蛋白質序列數據集為AI模型提供了豐富的‘學習材料’,能説明模型更好地理解蛋白質的序列、結構和功能關係。”洪亮介紹,他們團隊建立的蛋白質序列數據集Venus-Pod(Venus-Protein Outsize Database)含有近90億條蛋白質序列,包含數億個功能標籤,是全球數據規模最大、功能批註標籤最多的數據集,也是另一行業知名模型——美國ESM-C模型訓練用的21億蛋白質序列的4倍體量。這意味著由中國科研人員創立的資料庫構成了巨大的“蛋白質礦藏”,使得人類有可能挖掘新的蛋白質或者生物催化劑,助力生物醫藥和合成生物學的快速發展。與此同時,配合Venus系列模型的全球首款低通量大體積蛋白質表達、純化與功能檢測自動化一體機,可在24小時內不間斷地完成100余個蛋白質的表達、純化與檢測任務,較人力效率提高近10倍,將大大減少研發過程中的人力、物力和時間成本投入,顯著提高蛋白質工程與合成生物學研究的效率。
洪亮說,Venus系列模型具備兩大核心功能:“AI定向進化”與“AI挖酶”。所謂“AI定向進化”是指Venus系列模型可以對一個不盡如人意的蛋白質產品的多種性能進行優化,讓它成為一個“六邊形戰士”滿足應用需求。“AI挖酶”則是指Venus系列模型基於其海量的未知功能蛋白質數據集,可以“海選超能力戰士”,去精準發掘並滿足苛刻應用需求的具備超常規功能的蛋白質,比如極度耐熱、極度耐酸、極度耐鹼、極度耐胃腸消化等。這些超常規功能的蛋白質在生物技術、醫藥研發和工業生產中具有巨大的應用潛力,能夠為相關領域帶來創新和突破。
據悉,經過Venus系列模型設計的多款蛋白質已實現落地產業化,將助力阿爾茨海默病等疾病的診斷。