AI預(yù)測(cè)出幾乎所有已知蛋白質(zhì)結(jié)構(gòu),有望加快新藥研發(fā)。
DeepMind的研究人員匯集了來自結(jié)構(gòu)生物學(xué),物理學(xué)和機(jī)器學(xué)習(xí)領(lǐng)域的專家,應(yīng)用尖端技術(shù)僅根據(jù)其基因序列預(yù)測(cè)蛋白質(zhì)的3D結(jié)構(gòu)。
(資料圖片僅供參考)
而最近DeepMind公司與歐洲生物信息研究所的合作團(tuán)隊(duì)公布了生物學(xué)領(lǐng)域的一項(xiàng)重大飛躍。他們利用人工智能(AI)系統(tǒng)AlphaFold預(yù)測(cè)出超過100萬個(gè)物種的2.14億個(gè)蛋白質(zhì)結(jié)構(gòu),幾乎涵蓋了地球上所有已知蛋白質(zhì)。這一突破將加速新藥開發(fā),并為基礎(chǔ)科學(xué)帶來全新革命。
AlphaFold工具已經(jīng)確定了大約2億種蛋白質(zhì)的結(jié)構(gòu),這些蛋白質(zhì)來自地球上幾乎所有已知的生物體。該研究發(fā)布于《Nature》。
作者:Kiara Cuter|
編譯:劉唐詩 |
蛋白質(zhì)結(jié)構(gòu)有什么大不了的?
“蛋白質(zhì)是維持生命所必需的大而復(fù)雜的分子。我們身體執(zhí)行的幾乎每一項(xiàng)功能——收縮肌肉、感知光或?qū)⑹澄镛D(zhuǎn)化為能量——都可以追溯到一種或多種蛋白質(zhì)以及它們?nèi)绾我苿?dòng)和變化?!?/p>
蛋白質(zhì)的功能完全取決于其形式(3D結(jié)構(gòu))。以抗體蛋白為例,這些蛋白質(zhì)可以在我們的免疫系統(tǒng)中找到,它們是“Y形”的,其功能類似于鉤子。通過鎖定病毒和細(xì)菌,抗體蛋白可以檢測(cè)并標(biāo)記惡性微生物以進(jìn)行滅絕??赡苓€有人聽說過CRISPR和Cas9蛋白,它們的作用就像剪刀一樣剪切和粘貼DNA。
我們已經(jīng)在蛋白質(zhì)方面做了很多工作,但純粹從蛋白質(zhì)的基因序列中找出蛋白質(zhì)的3D形狀是科學(xué)家們幾十年來一直試圖帶頭的任務(wù)。
挑戰(zhàn)在于DNA僅包含有關(guān)蛋白質(zhì)構(gòu)建塊序列的信息,稱為氨基酸殘基,這些氨基酸殘基形成長鏈。預(yù)測(cè)這些鏈將如何折疊成蛋白質(zhì)的復(fù)雜3D結(jié)構(gòu)就是所謂的“蛋白質(zhì)折疊問題”。
在較大的蛋白質(zhì)中,計(jì)算氨基酸相互作用以產(chǎn)生可能的結(jié)構(gòu)的方式將是一項(xiàng)幾乎不可能完成的任務(wù),這需要太多時(shí)間。
然而從現(xiàn)在開始,確定幾乎所有科學(xué)已知的蛋白質(zhì)的3D形狀將像使用搜索引擎一樣簡(jiǎn)單。
研究人員已經(jīng)使用AlphaFold(革命性的人工智能(AI)網(wǎng)絡(luò))來預(yù)測(cè)來自100萬個(gè)物種的約2億種蛋白質(zhì)的結(jié)構(gòu),幾乎涵蓋了地球上所有已知的蛋白質(zhì)。從本質(zhì)上講,它涵蓋了整個(gè)蛋白質(zhì)世界。
蛋白質(zhì)的3D形狀或結(jié)構(gòu)決定了它在細(xì)胞中的功能。大多數(shù)藥物都是使用結(jié)構(gòu)信息設(shè)計(jì)的,準(zhǔn)確的地圖通常是發(fā)現(xiàn)蛋白質(zhì)如何工作的第一步。
倫敦大學(xué)學(xué)院的計(jì)算生物學(xué)家使用AlphaFold數(shù)據(jù)庫來鑒定新的蛋白質(zhì)家族,她評(píng)價(jià)說研究人員正在為這個(gè)巨大寶庫的釋放做好準(zhǔn)備。
這對(duì)我們意味著什么?
預(yù)測(cè)蛋白質(zhì)形狀的能力對(duì)科學(xué)家很有用,因?yàn)樗鼘?duì)于了解其在體內(nèi)的作用以及診斷和治療被認(rèn)為由錯(cuò)誤折疊的蛋白質(zhì)引起的疾病至關(guān)重要,例如阿爾茨海默氏癥,帕金森氏癥,亨廷頓氏癥和囊性纖維化。
這意味著獲得有關(guān)蛋白質(zhì)形狀及其運(yùn)作方式的知識(shí)在藥物發(fā)現(xiàn)中開辟了新的潛力。
這使我們能夠獲得新的見解,從而提高我們對(duì)身體及其工作原理的理解。
這將使科學(xué)家能夠更有效地創(chuàng)造新的、更有效的疾病治療方法。
這最終可以改善全球數(shù)百萬患者的生活質(zhì)量。
科學(xué)家們已經(jīng)能夠使用各種實(shí)驗(yàn)技術(shù)在實(shí)驗(yàn)室中確定蛋白質(zhì)的形狀,但每種方法都依賴于大量的試驗(yàn)和錯(cuò)誤,并且每個(gè)結(jié)構(gòu)的成本要花費(fèi)數(shù)萬美元。
這正是研究人員轉(zhuǎn)向人工智能方法來破譯困難蛋白質(zhì)的原因。
什么是神經(jīng)網(wǎng)絡(luò)?
神經(jīng)網(wǎng)絡(luò)是一組算法(由計(jì)算機(jī)運(yùn)行的過程),它們松散地以人腦為模型。這些網(wǎng)絡(luò)旨在識(shí)別模式。他們識(shí)別的模式是數(shù)字的,包含在向量中,所有現(xiàn)實(shí)世界的數(shù)據(jù),無論是圖像,聲音,文本還是時(shí)間序列,都必須被翻譯成向量。
神經(jīng)網(wǎng)絡(luò)幫助我們聚類和分類。您可以將它們視為存儲(chǔ)和管理的數(shù)據(jù)之上的聚類和分類圖層。它們有助于根據(jù)示例輸入之間的相似性對(duì)未標(biāo)記的數(shù)據(jù)進(jìn)行分組,并且在您為它們提供標(biāo)記數(shù)據(jù)集后對(duì)數(shù)據(jù)進(jìn)行排序/分類(例如,一個(gè)帶有“貓”字樣的框,其中包含一些貓的圖片)。
分類用法示例:狗+貓
這對(duì)于在大型數(shù)據(jù)集中查找模式非常有用?;蚪M學(xué)領(lǐng)域的數(shù)據(jù)已經(jīng)變得非常豐富。這意味著,在過去幾年中,基于基因組數(shù)據(jù)的深度學(xué)習(xí)方法來解決我們的預(yù)測(cè)問題已經(jīng)變得越來越流行,這已經(jīng)不是什么大相徑庭的事情了。
深度神經(jīng)網(wǎng)絡(luò)(顧名思義)比普通神經(jīng)網(wǎng)絡(luò)具有更大的深度。也就是說,在模式識(shí)別的多步驟過程中,數(shù)據(jù)通過的節(jié)點(diǎn)層數(shù)量增加。我們可以將這些節(jié)點(diǎn)層設(shè)想為水過濾系統(tǒng)中的不同步驟,其中每個(gè)步驟都旨在篩選特定類型的沉積物。對(duì)于 DNN,此沉積物是基于前一個(gè)圖層的輸出的一組獨(dú)特特征。
越深入神經(jīng)網(wǎng)絡(luò),節(jié)點(diǎn)可以識(shí)別的特征就越復(fù)雜,因?yàn)樗鼈儼饲耙粚拥奶卣鳌?/p>
AlphaFold如何使用 DNN?
為了創(chuàng)建蛋白質(zhì)的3D表示。深度思維訓(xùn)練了兩個(gè)神經(jīng)網(wǎng)絡(luò)。一個(gè)網(wǎng)絡(luò)預(yù)測(cè)兩件事:
? 氨基酸對(duì)之間的距離
? 連接這些氨基酸的化學(xué)鍵之間的角度
這些將用于估計(jì)氨基酸對(duì)是否彼此靠近。
另一個(gè)神經(jīng)網(wǎng)絡(luò)被訓(xùn)練來預(yù)測(cè)蛋白質(zhì)中每對(duì)殘基之間的可能距離(氨基酸殘基是氨基酸的一部分,使其與其他所有殘基不同)。
“未折疊”蛋白片
然后將這些概率組合成一個(gè)分?jǐn)?shù),用于估計(jì)所提出的蛋白質(zhì)結(jié)構(gòu)的準(zhǔn)確性。訓(xùn)練了一個(gè)單獨(dú)的神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)一致地使用所有距離來估計(jì)所提出的結(jié)構(gòu)與正確答案的接近程度。
然后使用這些評(píng)分函數(shù)來搜索蛋白質(zhì)數(shù)據(jù),以找到與AlphaFold預(yù)測(cè)相匹配的結(jié)構(gòu)。
重要的是要注意這種方法可以與結(jié)構(gòu)生物學(xué)中常用的技術(shù)進(jìn)行比較,其中蛋白質(zhì)結(jié)構(gòu)的片段被新的蛋白質(zhì)片段反復(fù)替換。DeepMind使用生成神經(jīng)網(wǎng)絡(luò)發(fā)明了新的片段,這些片段在結(jié)構(gòu)中進(jìn)行了測(cè)試,以提高所提出的蛋白質(zhì)結(jié)構(gòu)的分?jǐn)?shù)——本質(zhì)上是為了更接近結(jié)構(gòu)可能是什么。
第二種方法試圖通過一種名為梯度下降的數(shù)學(xué)技術(shù)來達(dá)到更高的分?jǐn)?shù),其中進(jìn)行小的,漸進(jìn)的改進(jìn)以達(dá)到局部/全局最優(yōu)值(在這種情況下是理想的分?jǐn)?shù))。
該技術(shù)應(yīng)用于整個(gè)蛋白質(zhì)鏈,而不是組裝前必須單獨(dú)折疊的片段,從而降低了預(yù)測(cè)過程的復(fù)雜性。
未來會(huì)怎樣?
AlphaFold作為一個(gè)整體真實(shí)地代表了機(jī)器學(xué)習(xí)系統(tǒng)如何整合各種信息來源,以幫助科學(xué)家快速為復(fù)雜問題提出創(chuàng)造性的解決方案。
人工智能在科學(xué)研究中的應(yīng)用有可能支持比以往更大的社會(huì)影響。它將使我們能夠理解和探索新材料和新技術(shù)的使用,同時(shí)深入研究舊結(jié)構(gòu)(如蛋白質(zhì)的功能)。藥物發(fā)現(xiàn)和醫(yī)學(xué)研究也將受益于這些新的人工智能驅(qū)動(dòng)的科學(xué)技術(shù)。
對(duì)蛋白質(zhì)折疊的理解也將有助于蛋白質(zhì)設(shè)計(jì),這可以釋放出巨大的好處。例如,可生物降解酶的進(jìn)步 - 可以通過蛋白質(zhì)設(shè)計(jì)來實(shí)現(xiàn) - 可以幫助管理塑料和石油等污染物,幫助我們以對(duì)環(huán)境更友好的方式分解廢物。
多倫多一家名為Genecis的生物技術(shù)初創(chuàng)公司目前正在使用細(xì)菌來消化食物垃圾,并用它來在其微小的微生物腸道中形成可生物降解的塑料。這是兩個(gè)世界問題合二為一,他們的下一步是快速設(shè)計(jì)細(xì)菌,將有機(jī)廢物轉(zhuǎn)化為高級(jí)化學(xué)品。
雖然仍然存在許多問題,但似乎對(duì)蛋白質(zhì)如何工作的理解將成為我們解決地球面臨的最大問題的基石——從確定疾病發(fā)生的原因以及如何治療疾病,到創(chuàng)造可以消除塑料廢物的酶以防止對(duì)環(huán)境造成有毒威脅。
歸根結(jié)底,這些類型的研究突破將使我們的人口過上更有用和更充實(shí)的生活。我們完全有理由相信人工智能會(huì)加速我們到達(dá)他們。
延伸閱讀
大量采購與疫情雙重壓力加速醫(yī)藥數(shù)字化轉(zhuǎn)型,醫(yī)藥企業(yè)開始追求有限的資源投入以最大限度提升營銷效果,醫(yī)藥營銷數(shù)字化已經(jīng)來到了效果為王的階段。其中,大型跨國醫(yī)藥企業(yè)與創(chuàng)新型醫(yī)藥企業(yè)在現(xiàn)階段數(shù)字化轉(zhuǎn)型需求最為迫切。
疫情后主數(shù)據(jù)管理系統(tǒng)及線上醫(yī)生運(yùn)營平臺(tái)這兩個(gè)醫(yī)藥營銷數(shù)字化工具受到企業(yè)的歡迎。
醫(yī)藥營銷數(shù)字化發(fā)展的五大特征,分別為
(1)國內(nèi)外醫(yī)藥企業(yè)營銷模式和組織架構(gòu)差異大,企業(yè)需要更加靈活的數(shù)字化解決方案;
(2)跨國醫(yī)藥企業(yè)與本土創(chuàng)新藥企業(yè)挑選醫(yī)藥營銷數(shù)字化供應(yīng)商的標(biāo)準(zhǔn)差異大;
(3)跨系統(tǒng)間醫(yī)藥數(shù)據(jù)清洗難度大,企業(yè)需要靈活智能的數(shù)據(jù)管理系統(tǒng);
(4)醫(yī)藥企業(yè)內(nèi)部培養(yǎng)相關(guān)團(tuán)隊(duì)周期長;
(5)團(tuán)隊(duì)磨合成本高以及醫(yī)藥企業(yè)偏好使用設(shè)計(jì)簡(jiǎn)潔且產(chǎn)品功能豐富的營銷數(shù)字化產(chǎn)品。
未來,隨著醫(yī)藥企業(yè)數(shù)字化轉(zhuǎn)型的深入,營銷數(shù)字化的市場(chǎng)規(guī)模將迎來快速增長,其中聚焦醫(yī)藥領(lǐng)域的本土醫(yī)藥營銷數(shù)字化企業(yè)有望占領(lǐng)更多的市場(chǎng)份額。
本文提供的信息僅用于一般指導(dǎo)和信息目的,本文的內(nèi)容在任何情況下均不應(yīng)被視為投資、業(yè)務(wù)、法律或稅務(wù)建議。
本文首發(fā)于微信公眾號(hào):出新研究。文章內(nèi)容屬作者個(gè)人觀點(diǎn),不代表和訊網(wǎng)立場(chǎng)。投資者據(jù)此操作,風(fēng)險(xiǎn)請(qǐng)自擔(dān)。
關(guān)鍵詞: