繼 2017 年 AlphaGo 擊敗前世界第一圍棋選手柯潔之后,2020 年 AlphaFold 2 的橫空出世,讓人工智能(AI)再次成功出圈。
2 年之后,如今的 AlphaFold 又怎樣了?
今年 7 月,DeepMind 與 EMBL-EBI 利用 AlphaFold 幾乎預測出了地球上的所有已知蛋白質(zhì),超過 100 萬個物種的 2.14 億個蛋白質(zhì)結(jié)構(gòu),堪稱生物學領(lǐng)域的一項重大飛躍,一度在國內(nèi)外的社交媒體上引發(fā)熱議。
但是,作為 " 圈內(nèi)人 " 的生命科學領(lǐng)域科學家們,卻對 AlphaFold 取得的成果褒貶不一。
上個月,美國藥物發(fā)現(xiàn)化學家 Derek Lowe 就給 AlphaFold 潑了一盆冷水。在一篇題為 "Why AlphaFold won ’ t revolutionise drug discovery" 的文章中,Lowe 寫道,AlphaFold 的整個計算技術(shù)都建立在尋找已知結(jié)構(gòu)的類比上,在沒有可比較結(jié)構(gòu)的情況下,AlphaFold 就無計可施了。

(來源:Twitter)
如今,來自麻省理工學院、哈佛大學和 Broad 研究所的研究團隊,在一項新研究中再次揭示了 AlphaFold 局限性。
研究團隊希望能夠利用 AlphaFold(預測出的)結(jié)構(gòu)找到與特定細菌蛋白結(jié)合的藥物。但他們發(fā)現(xiàn),AlphaFold 在這一方面表現(xiàn)得并不好。" 事實上,它們的預測比偶然性好不了多少。"
相關(guān)研究論文以 "Benchmarking AlphaFold-enabled molecular docking predictions for antibiotic discovery" 為題,已發(fā)表在科學期刊 Molecular Systems Biology 上。
麻省理工學院教授、論文通訊作者 James Collins 說 : " 諸如 AlphaFold 這樣的突破正在擴大計算機藥物發(fā)現(xiàn)工作的可能性,但是這些發(fā)展需要與作為藥物發(fā)現(xiàn)工作一部分的建模其他方面的進步相結(jié)合。"
準確性不足
在過去的幾十年里,很少有新的抗生素被研發(fā)出來,主要原因是目前篩選潛在藥物的方法過于昂貴和耗時。一個有前途的新策略是使用計算模型,從而更快、更便宜地進行新藥研發(fā)。
此前,AlphaFold 已經(jīng)從它們的氨基酸序列中準確地預測了蛋白質(zhì)結(jié)構(gòu),這項突破讓致力于尋找新抗生素的科學家感到興奮。
據(jù)介紹,這項新研究是 Collins 實驗室最近發(fā)起的抗生素 - 人工智能項目(Antibiotics-AI Project)的一部分,該項目的目標是利用人工智能發(fā)現(xiàn)和設計新的抗生素。
在此次工作中,研究團隊利用 AlphaFold 生成的蛋白質(zhì)結(jié)構(gòu),探索了現(xiàn)有模型是否能夠準確預測細菌蛋白與抗菌化合物的相互作用。
如果答案是肯定的,科學家們就可以使用這種類型的模型進行新化合物的大規(guī)模篩選,而這些化合物可以靶向于之前不能靶向的蛋白質(zhì)。這將使研發(fā)出具有前所未有作用機制的抗生素成為可能,是解決抗生素抗藥性危機的關(guān)鍵任務。

為了測試這一策略的可行性,Collins 團隊決定研究 296 種來自大腸桿菌(E. coli)的必需蛋白質(zhì)與 218 種抗菌化合物的相互作用,其中包括四環(huán)素(Tetracyclines)等抗生素。
他們使用分子對接模擬分析了這些化合物如何與大腸桿菌的蛋白質(zhì)相互作用,根據(jù)它們的形狀和物理性質(zhì),來預測兩個分子結(jié)合在一起的強度。
這種模擬已經(jīng)成功地應用于針對單個蛋白質(zhì)靶標篩選大量化合物的研究中,來確定可以實現(xiàn)最佳結(jié)合的化合物。但是,當他們試圖針對許多潛在目標篩選多種化合物時,預測的準確性要低得多。
通過將模型產(chǎn)生的預測與實驗室實驗中獲得的 12 種必需蛋白質(zhì)的實際相互作用進行比較,研究團隊發(fā)現(xiàn),模型的假陽性率與真陽性率相似。這就表明,該模型無法一致地識別現(xiàn)有藥物與其靶標之間的真正相互作用。

圖 | 細胞中復雜的蛋白質(zhì)網(wǎng)絡(來源:Cellsignal)
此外,研究團隊借助常用于評估計算模型的測量方法 auROC 發(fā)現(xiàn),模型表現(xiàn)出的性能也比較差。
對此,Collins 表示:" 我們利用這些標準的分子對接模擬,得到了一個大約為 0.5 的 auROC 值,這一數(shù)字表明,模型的表現(xiàn)并不比隨機猜測的表現(xiàn)更好。" 當研究團隊對實驗確定的蛋白質(zhì)結(jié)構(gòu)使用這種建模方法時,他們發(fā)現(xiàn)了類似的結(jié)果。
Collins 說:"AlphaFold 預測的結(jié)構(gòu)似乎與實驗確定的結(jié)構(gòu)大致相同,但如果我們要在藥物發(fā)現(xiàn)中有效和廣泛地使用 AlphaFold,我們需要在分子對接模型方面做得更好。"
更好的預測
對于以上結(jié)論,研究團隊表示,AlphaFold 模型性能差的一個可能原因是,輸入模型的蛋白質(zhì)結(jié)構(gòu)是靜態(tài)的,然而在生物系統(tǒng)中,蛋白質(zhì)是動態(tài)的,它們的構(gòu)型經(jīng)常會發(fā)生變化。

為了提高建模方法的成功率,研究團隊使用其他 4 個機器學習模型進行了預測。這些模型是根據(jù)描述蛋白質(zhì)和其他分子如何相互作用的數(shù)據(jù)進行訓練的,能夠在預測中加入更多信息。
" 機器學習模型不僅學習已知相互作用的形狀,還學習已知相互作用的化學和物理特性,然后利用這些信息重新評估對接預測," 論文共同一作 Felix Wong 說," 數(shù)據(jù)顯示,這些額外的模型可以幫助我們得到更高的真陽性和假陽性的比率。"
然而,研究團隊表示,在這種類型的模型被用來成功識別新藥之前,還需要進一步的改進,一個可能的方法是在模型訓練中加入更多的數(shù)據(jù),包括蛋白質(zhì)的生物物理和生化特性及其不同構(gòu)象,以及這些特征如何影響它們與潛在藥物化合物的結(jié)合。
Collins 認為,隨著進一步的進展,科學家或許不僅可以利用人工智能產(chǎn)生的蛋白質(zhì)結(jié)構(gòu)發(fā)現(xiàn)新的抗生素,而且還能發(fā)現(xiàn)治療包括癌癥在內(nèi)的各種疾病的藥物。
" 我們樂觀地認為,隨著建模方法的改進和計算能力的增強,這些技術(shù)將在藥物發(fā)現(xiàn)中變得越來越重要。然而,我們還有很長的路要走。"
原文地址:http://www.myzaker.com/article/631860c5b15ec022bd4e572f
轉(zhuǎn)載請注明:AlphaFold能不能用?MIT新研究:比隨機猜測好不了多少,仍需繼續(xù)改進 | 快導航網(wǎng)