AI系統(tǒng)可以生成滿足結(jié)構(gòu)設(shè)計目標(biāo)的新型蛋白
麻省理工學(xué)院的研究人員正在使用人工智能來設(shè)計超越自然界中發(fā)現(xiàn)的新蛋白質(zhì)。
他們開發(fā)了機器學(xué)習(xí)算法,可以生成具有特定結(jié)構(gòu)特征的蛋白質(zhì),可用于制造具有某些機械性能的材料,如剛度或彈性。這種受生物啟發(fā)的材料有可能取代由石油或陶瓷制成的材料,但碳足跡要小得多。
來自麻省理工學(xué)院、麻省理工學(xué)院-IBM 沃森人工智能實驗室和塔夫茨大學(xué)的研究人員采用了生成模型,這與 DALL-E 2 等人工智能系統(tǒng)中使用的機器學(xué)習(xí)模型架構(gòu)類型相同。但是,他們沒有像DALL-E 2那樣使用它從自然語言提示中生成逼真的圖像,而是調(diào)整了模型架構(gòu),以便它可以預(yù)測實現(xiàn)特定結(jié)構(gòu)目標(biāo)的蛋白質(zhì)的氨基酸序列。
在即將發(fā)表在《化學(xué)》雜志上的一篇論文中,研究人員展示了這些模型如何產(chǎn)生現(xiàn)實而新穎的蛋白質(zhì)。這些模型學(xué)習(xí)控制蛋白質(zhì)形成方式的生化關(guān)系,可以產(chǎn)生新的蛋白質(zhì),可以實現(xiàn)獨特的應(yīng)用,資深作者Markus Buehler說,他是Jerry McAfee工程教授,土木與環(huán)境工程和機械工程教授。
例如,該工具可用于開發(fā)受蛋白質(zhì)啟發(fā)的食品涂層,它可以使農(nóng)產(chǎn)品保持更長時間的新鮮,同時人類可以安全食用。他補充說,這些模型可以在幾天內(nèi)產(chǎn)生數(shù)百萬種蛋白質(zhì),迅速為科學(xué)家提供一系列新想法供探索。
“當(dāng)你考慮設(shè)計大自然尚未發(fā)現(xiàn)的蛋白質(zhì)時,這是一個如此巨大的設(shè)計空間,你不能只用鉛筆和紙來整理它。你必須弄清楚生命的語言,氨基酸被DNA編碼的方式,然后聚集在一起形成蛋白質(zhì)結(jié)構(gòu)。在我們進行深度學(xué)習(xí)之前,我們真的無法做到這一點,“Buehler說,他也是MIT-IBM Watson AI實驗室的成員。
與Buehler一起發(fā)表論文的是主要作者Bo Ni,他是Buehler原子和分子力學(xué)實驗室的博士后;以及塔夫茨大學(xué)斯特恩家族工程學(xué)教授和生物工程教授大衛(wèi)·卡普蘭。
為任務(wù)調(diào)整新工具
蛋白質(zhì)由氨基酸鏈形成,以3D模式折疊在一起。氨基酸的序列決定了蛋白質(zhì)的機械性能。雖然科學(xué)家們已經(jīng)確定了數(shù)千種通過進化產(chǎn)生的蛋白質(zhì),但他們估計仍有大量的氨基酸序列尚未被發(fā)現(xiàn)。
為了簡化蛋白質(zhì)發(fā)現(xiàn),研究人員最近開發(fā)了深度學(xué)習(xí)模型,可以預(yù)測一組氨基酸序列的蛋白質(zhì)3D結(jié)構(gòu)。但事實證明,相反的問題——預(yù)測滿足設(shè)計目標(biāo)的氨基酸結(jié)構(gòu)序列——更具挑戰(zhàn)性。
機器學(xué)習(xí)的新出現(xiàn)使Buehler和他的同事能夠應(yīng)對這一棘手的挑戰(zhàn):基于注意力的擴散模型。
Buehler說,基于注意力的模型可以學(xué)習(xí)非常長程的關(guān)系,這是開發(fā)蛋白質(zhì)的關(guān)鍵,因為長氨基酸序列中的一個突變可以成就或破壞整個設(shè)計。擴散模型通過向訓(xùn)練數(shù)據(jù)添加噪聲的過程學(xué)習(xí)生成新數(shù)據(jù),然后學(xué)習(xí)通過消除噪聲來恢復(fù)數(shù)據(jù)。在生成高質(zhì)量、真實的數(shù)據(jù)方面,它們通常比其他模型更有效,這些數(shù)據(jù)可以調(diào)節(jié)以滿足一組目標(biāo)以滿足設(shè)計需求。
研究人員使用這種架構(gòu)構(gòu)建了兩個機器學(xué)習(xí)模型,可以預(yù)測各種新的氨基酸序列,這些序列形成滿足結(jié)構(gòu)設(shè)計目標(biāo)的蛋白質(zhì)。
“在生物醫(yī)學(xué)行業(yè),你可能不想要一種完全未知的蛋白質(zhì),因為那樣你就不知道它的特性。但在某些應(yīng)用中,您可能想要一種全新的蛋白質(zhì),類似于自然界中發(fā)現(xiàn)的蛋白質(zhì),但做一些不同的事情。我們可以用這些模型生成頻譜,我們通過調(diào)整某些旋鈕來控制,“Buehler說。
氨基酸的常見折疊模式,稱為二級結(jié)構(gòu),產(chǎn)生不同的機械性能。例如,具有α螺旋結(jié)構(gòu)的蛋白質(zhì)產(chǎn)生彈性材料,而具有β折疊結(jié)構(gòu)的蛋白質(zhì)產(chǎn)生剛性材料。結(jié)合α螺旋和β片可以創(chuàng)造出有彈性和堅固的材料,如絲綢。
研究人員開發(fā)了兩種模型,一種在蛋白質(zhì)的整體結(jié)構(gòu)特性上起作用,另一種在氨基酸水平上起作用。這兩種模型都通過結(jié)合這些氨基酸結(jié)構(gòu)來產(chǎn)生蛋白質(zhì)。對于對整體結(jié)構(gòu)屬性進行操作的模型,用戶輸入所需百分比的不同結(jié)構(gòu)(例如,40%α螺旋和60%β表)。然后,模型生成滿足這些目標(biāo)的序列。對于第二個模型,科學(xué)家還指定了氨基酸結(jié)構(gòu)的順序,這給出了更細(xì)粒度的控制。
這些模型與預(yù)測蛋白質(zhì)折疊的算法相關(guān)聯(lián),研究人員使用該算法來確定蛋白質(zhì)的3D結(jié)構(gòu)。然后,他們計算其結(jié)果屬性,并根據(jù)設(shè)計規(guī)范進行檢查。
逼真而新穎的設(shè)計
他們通過將新蛋白質(zhì)與具有相似結(jié)構(gòu)特性的已知蛋白質(zhì)進行比較來測試他們的模型。許多與現(xiàn)有的氨基酸序列有一些重疊,在大多數(shù)情況下約為50%至60%,但也有一些全新的序列。相似性水平表明,許多生成的蛋白質(zhì)是可合成的,Buehler補充道。
為了確保預(yù)測的蛋白質(zhì)是合理的,研究人員試圖通過輸入物理上不可能的設(shè)計目標(biāo)來欺騙模型。令他們印象深刻的是,這些模型沒有產(chǎn)生不可能的蛋白質(zhì),而是產(chǎn)生了最接近的可合成溶液。
“學(xué)習(xí)算法可以發(fā)現(xiàn)自然界中隱藏的關(guān)系。這讓我們有信心說,無論從我們的模型中得出什么結(jié)果,都很可能是現(xiàn)實的,“倪說。
接下來,研究人員計劃通過在實驗室中制造一些新的蛋白質(zhì)設(shè)計來實驗驗證它們。他們還希望繼續(xù)增強和完善模型,以便開發(fā)滿足更多標(biāo)準(zhǔn)的氨基酸序列,例如生物學(xué)功能。
“對于我們感興趣的應(yīng)用,如可持續(xù)性、醫(yī)藥、食品、健康和材料設(shè)計,我們需要超越大自然所做的。這是一個新的設(shè)計工具,我們可以用來創(chuàng)建潛在的解決方案,幫助我們解決我們面臨的一些真正緊迫的社會問題,“Buehler說。
免責(zé)聲明:本文為轉(zhuǎn)載,非本網(wǎng)原創(chuàng)內(nèi)容,不代表本網(wǎng)觀點。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關(guān)內(nèi)容。