從這幾年的勢(shì)頭看起來(lái)
,21 世紀(jì),應(yīng)該也是人工智能(AI)的世紀(jì)。前腳是 2016 年會(huì)下圍棋的AlphaGOAI
而這其中,對(duì)生命科學(xué)震撼最大的要屬當(dāng)然是前兩年的 AlphaFold2:超高準(zhǔn)確度的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)能力
,幾乎完全改寫了結(jié)構(gòu)生物學(xué)的研究方式,也讓相關(guān)的生物學(xué)研究更加便利。(資料圖片僅供參考)
(往期推送鏈接)
但是
,你要是以為生命科學(xué)里的 AI 只有 AlphaFold,那你就大錯(cuò)特錯(cuò)了。從預(yù)測(cè)到創(chuàng)造,AI 要顛覆蛋白質(zhì)世界!
不過(guò)要展開聊生命科學(xué)里的 AI,蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)還是繞不過(guò)去的話題
。自從 2021 年 DeepMind 公司推出了AlphaFold2
,和華盛頓大學(xué)開發(fā)出的RoseTTAFold這兩項(xiàng)充滿代表性的蛋白質(zhì)預(yù)測(cè)工具之后,這個(gè)領(lǐng)域就變得一發(fā)不可收拾了。首先是持續(xù)發(fā)力的 AlphaFold2
。正式發(fā)布后只過(guò)了半年多,2022 年 7 月
,DeepMind 公司的 CEO,杰米斯 · 哈薩比斯 ( Demis Hassabis ) 就在新聞發(fā)布會(huì)宣布:我們已經(jīng)掌握了 " 整個(gè)蛋白質(zhì)世界 "(The entire protein universe)—— AlphaFold 馬不停蹄地運(yùn)轉(zhuǎn),成功完成了現(xiàn)有蛋白質(zhì)數(shù)據(jù)庫(kù)中全部2.14 億種蛋白質(zhì)的結(jié)構(gòu)預(yù)測(cè)。DeepMind 公司 CEO,杰米斯 · 哈薩比斯 ( Demis Hassabis ) | 圖源:Jung Yeon-Je/AFP/Getty2.14 億種蛋白質(zhì)中,有 35% 被評(píng)估為高度準(zhǔn)確
,雖然這個(gè)數(shù)字看起來(lái)不高,但是按照目前實(shí)驗(yàn)檢測(cè)的水平,全部做完也就差不多這個(gè)水平——更何況,截至目前實(shí)驗(yàn)檢測(cè)花了幾十年也只測(cè)出了 14 萬(wàn)種。這些蛋白質(zhì)結(jié)構(gòu)
,也已經(jīng)發(fā)布在 AlphaFold 和歐洲生物信息學(xué)研究所 ( EMBL-EBI ) 建立的數(shù)據(jù)庫(kù)中,供科研工作者們使用(https://alphafold.ebi.ac.uk/,前文圖)。但這也只是 AI 在蛋白質(zhì)領(lǐng)域發(fā)力的開始。
我們知道
,蛋白質(zhì)是由 DNA 轉(zhuǎn)錄、翻譯形成的,而 DNA 測(cè)序也遠(yuǎn)比蛋白質(zhì)測(cè)序更加快速、價(jià)格更低在過(guò)去幾年
僅在 DeepMind 公司宣布完成了 " 整個(gè)蛋白質(zhì)世界 " 三個(gè)月后
,2022 年 10 月,Meta 公司(原名 Facebook)就拓寬了這個(gè) " 蛋白質(zhì)世界 " 的邊界(‘ dark matter ’ of the protein universe)——他們利用自己開發(fā)的大型語(yǔ)言模型算法ESMFold,預(yù)測(cè)了6.17 億種來(lái)自宏基因組信息的微生物蛋白質(zhì)結(jié)構(gòu)。ESMFold 算法的準(zhǔn)確度雖然略遜于 AlphaFold
,但它的優(yōu)勢(shì)在于能以 60 倍于 AlphaFold 的速度去預(yù)測(cè)短序列蛋白質(zhì)的結(jié)構(gòu),這就使得它在預(yù)測(cè)結(jié)構(gòu)相對(duì)簡(jiǎn)單的微生物蛋白質(zhì)上有了很大的優(yōu)勢(shì)。6.17 億種蛋白質(zhì)結(jié)構(gòu)的全覽| 圖源:ESM Metagenomic Atlas
這讓人不禁好奇
,差不多全預(yù)測(cè)完之后,AI 下一步會(huì)在蛋白質(zhì)結(jié)構(gòu)上做些什么?沒過(guò)幾天,AI 又開始顛覆生物學(xué)家的認(rèn)知了——創(chuàng)造蛋白質(zhì)。這其實(shí)是一個(gè)和蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)剛好相反的問題:蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)是從序列到結(jié)構(gòu)
,而創(chuàng)造蛋白質(zhì)是要求從我們希望得到的結(jié)構(gòu),反推出合適的蛋白質(zhì)序列。過(guò)去這是個(gè)計(jì)算量巨大的工作,現(xiàn)在 AI 也能完成了。四種目前常用的設(shè)計(jì)蛋白質(zhì)策略 | 圖片翻譯自:Nature相比于大批量預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)
,創(chuàng)造蛋白質(zhì)的目的就更加明確——我們希望能創(chuàng)造出自然界不存在,但是對(duì)人類非常有用的蛋白質(zhì)。實(shí)際上
,目前大部分嘗試設(shè)計(jì)都很精彩,但是實(shí)驗(yàn)驗(yàn)證階段就不那么順利了—— AI 設(shè)計(jì)出來(lái)的蛋白質(zhì)結(jié)構(gòu)不過(guò)設(shè)計(jì)蛋白質(zhì)的嘗試還在不斷進(jìn)步和迭代
AI 會(huì)取代我們的大腦嗎 在生命科學(xué)研究中 那 也許馬上就可以了 功能核磁共振技術(shù)(fMRI)可以檢測(cè)到當(dāng)我們?cè)谧瞿臣虑闀r(shí)大腦血流的變化 隨著 AI 的發(fā)展 于是研究者首先給志愿者看了成千上萬(wàn)張不同的圖片 結(jié)果其實(shí)不算特別理想。因?yàn)?fMRI 數(shù)據(jù)比較少 但是 當(dāng)然 除此以外