近年來,人工智能(AI)已在醫學、生物學及制藥領域中展示出廣闊的發展前景。特別是在蛋白質設計和工程領域,基于 AI 技術創建人工的蛋白質序列已經成為現實,并可能被用于**各種**。
日前,來自 AI 研究企業 Salesforce Research 、合成生物學公司 Tierra Biosciences 和加州大學舊金山分校的一組研究人員合作開展研究,創建了一個能夠從頭開始生造酶的人工智能系統——ProGen。
ProGen 系統基于 AI 語言模型發展而來,其能夠以類似“遣詞造句”的方式生成跨多個蛋白質家族、且功能可預測的蛋白質序列。經檢測,該系統生成的酶與自然界中發現的酶同樣有效,即使這些人工生成的氨基酸序列與已知的天然蛋白質之間存在顯著差異。
該研究以:Large language models generate functional protein sequences across diverse families 為題,于2023年1月26日發表于 Nature Biotechnology 期刊。
研究團隊表示,該技術可能超越獲得諾貝爾獎的蛋白質定向進化技術,因為其幾乎可以用于加速所有種類新蛋白質的開發工作,無論是**開發還是塑料降解酶的制備。
“人工設計的性能比受進化過程啟發的設計要好得多”,論文的作者之一,來自加州大學舊金山分校藥學院的 James Fraser 表示,“當前的人工智能模型能夠通過學習蛋白質進化的過程從而實現**,但其與正常的進化過程不同,人們能夠調整結構以獲得特定的功能。例如,讓一種酶具有超乎想象的熱穩定性或耐酸性等?!?
73%的人造溶菌酶具備功能性
為了開發 ProGen 系統,研究團隊將來自于 19000 個家族的 2.8 億種不同蛋白質的氨基酸序列輸入機器學習模型中,同時提供相關蛋白質特性作為控制標簽,然后讓系統花費數周時間來“消化”這些信息。
“對于蛋白質研究領域而言,*重要的信息包括蛋白質家族、生物過程和分子功能等屬性?!毖芯咳藛T介紹道,通過調節這些控制標簽,ProGen 能夠根據所需屬性生成特定的蛋白質序列,并且具備****的進化序列多樣性。隨著輸入氨基酸序列和條件標簽的增多,研究者能夠實現對于產生蛋白質的功能控制。
在此之后,研究者向模型提供來自五個溶菌酶家族的 56000 個序列以及相關信息,從而對模型進行微調?;谏鲜霈F有的“學習材料”,AI 模型迅速生成了一百萬個序列。根據這些序列與天然蛋白質序列的相似程度及其氨基酸序列構成的自然程度,研究團隊從中選擇了 100 個序列展開研究。
“來自五個溶菌酶家族的所有人工蛋白質均顯示出活性,并且在這些人工制造的溶菌酶中,有 73% 被發現具有**功能,而在天然蛋白質中僅有 59% 具備功能性?!毖芯咳藛T對此表示。
在**批進行體外篩選的 100 種蛋白質中,研究團隊選擇了其中五種人工蛋白質在大腸桿菌中進行重組表達,并將它們的活性與雞蛋清溶菌酶(HEWL)進行比較。后者主要存在于雞蛋白、以及人類的眼淚、唾液和牛奶中,具有抵御**和**的作用。
比較數據表明,五種人工蛋白質中有兩種能夠以相當于 HEWL 的活性分解**的細胞壁,盡管它們之間僅有約 18% 的序列是相同的。另一方面,存在于自然界中的已知蛋白質與這兩個序列的相似度分別為 90% 和 70% 左右。
“這一結果證實,ProGen 系統不僅能夠學習生成結構穩定且‘合理’的氨基酸序列,并且其產生的序列已被證實能夠在現實世界中執行其預期功能?!毖芯咳藛T進一步介紹道,ProGen 生成的人工蛋白質不僅可以正確表達,并且展示出與天然折疊相類似的結構。
在另一輪篩選中,研究團隊發現,即使只有 31.4% 的序列與目前已知的天然蛋白質相似,這些由 AI 生成的酶類依然顯示出活性。與之相比,天然蛋白質中發生任何一個突變就有可能讓其停止工作。
“這項工作表明,蛋白質可以被理解為是一種由氨基酸組成的‘語言’。就像單詞一個接一個地串在一起形成句子一樣,氨基酸一個接一個地串在一起形成蛋白質?!毖芯咳藛T對此表示,當前的人工智能技術已經可以通過研究原始序列數據來了解酶應該如何形成,在此之后,通過 X 射線晶體學測量發現,這些人造蛋白質的原子結構完全符合其設計預期,盡管這些序列此前并不存在。
開箱即用,像處理語言文本一樣從頭“書寫”蛋白質
在生物學領域中,按需制造蛋白質可說是其中*復雜也*具影響力的工作之一。在過去幾十年間,盡管蛋白質工程研究領域經過不斷發展,取得了一系列舉世矚目的成就。然而,此前的蛋白質工程實驗技術仍然依賴于啟發式和隨機突變的方式,從而選擇出可用的初始序列。
2020 年,來自硅谷的 AI 技術企業 Salesforce Research 開發了 ProGen 系統,該系統基于一種用于生成英語文本的自然語言編程發展而來,以便將自然語言處理(NLP)方法應用至蛋白質屬性分類,進一步研究并生成新的蛋白質。
“當前結果證實,自然語言處理技術雖然是為讀寫語言文本而開發的,但其也可以用于學習一些生物學的基本原理?!毖芯繄F隊認為,就像 AI 生成圖片或文本的方式一樣。有了足夠的信息,人工智能生成的內容就可以變得類似于自然界中天然存在的事物,從而難以區分。
而對于蛋白質領域而言,其體現在設計上的廣度就更加龐大。僅以溶菌酶為例,其長度*多約為 300 個氨基酸左右,但是考慮到有 20 種天然氨基酸作為制造“單元”,那么制造一個溶菌酶就存在大約 20300 種搭配??紤]到這種近乎于無限的制造可行性,使用 AI 技術輕松、快速地推動蛋白質設計工作就顯得迫在眉睫。
“當你使用大量數據訓練 AI 模型時,它們對于結構和制造規則方面表現出十分強大的學習能力,”Salesforce Research 的人工智能研究總監、該論文的通訊作者 Nikhil Naik 對此介紹道,“人工智能了解哪些‘單詞’可以同時出現,以及它們組合在一起的可行性?!?
該研究的通訊作者之一、基于 AI 技術的蛋白質設計公司 Profluent Bio 創始人 Ali Madani 博士此前曾在 Salesforce Research 擔任研究科學家。任職期間,他領導了該公司的機器學習研究計劃,并且擔任 ProGen moonshot 的架構師,從而推進了蛋白質設計的生成建模項目。2022 年,他與加州大學舊金山分校教授 James Fraser 等人合作創立了 Profluent Bio,以跨學科合作的方式推動 AI 設計蛋白質工作的研究進展。
Ali Madani 認為,“這種開箱即用、從頭開始生成功能性蛋白質的能力表明人們正在進入蛋白質設計的新時代。其為蛋白質開發工程師提供了一種多功能的新工具,我們期待看到該技術在各種****應用領域中的下一步發展?!?
總體而言,該研究突出了人工智能語言模型在蛋白質設計和工程中的潛力,使用深度學習語言模型對蛋白質進行**的從頭設計將在生物學、醫學和環境問題中展示出發展前景。不過,研究人員同時指出,在使用 AI 語言模型進行蛋白質設計和制造時,必須考慮倫理影響。