新型冠狀病毒全球累計確診已超過400萬人,疫苗是終結(jié)疫情的關(guān)鍵勝負手。在所有正在研發(fā)的疫苗路徑中,研發(fā)速度更快、更具潛力的mRNA疫苗作為一種新興技術(shù)受到了國內(nèi)外的重點關(guān)注。但同時,mRNA疫苗由于穩(wěn)定性不足容易在保存、運輸中降解,也成為制約疫苗大規(guī)模推廣和使用最亟待解決的問題。
現(xiàn)在,這個困擾世界頂級疫苗公司和學界的生物學難題有望通過AI解決!5月13日,百度研究院重磅推出全球首個mRNA疫苗基因序列設計算法LinearDesign。該算法能夠在理論上設計出結(jié)構(gòu)最穩(wěn)定、蛋白質(zhì)表達效率最高的mRNA序列,而這只需要90分鐘。如果進一步應用線性時間近似算法,時間更可以縮短到16分鐘!
美國羅徹斯特大學生物化學與生理系教授Dr. David H. Mathews表示:“LinearDesign的優(yōu)勢在于速度!它能夠快速提供一系列的優(yōu)良序列,研究者可以進一步通過實驗來測試其穩(wěn)定性是否足以充當疫苗?!?/p>
事實上,從能夠轉(zhuǎn)譯同一種蛋白質(zhì)的眾多同源序列中找到二級結(jié)構(gòu)足夠穩(wěn)定、密碼子足夠優(yōu)化的mRNA序列挑戰(zhàn)難度是相當巨大的。以新型冠狀病毒為例,它的刺突蛋白(抗原)共有1273氨基酸,能翻譯成刺突蛋白的mRNA序列有10的632次方之多!
遍歷所有可能?這顯然難以完成。
假設一臺超級計算機能做到一秒鐘計算一個mRNA結(jié)構(gòu),那么從宇宙形成開始計算到現(xiàn)在,計算140億年,連mRNA序列所有可能的億萬分之一都無法算完!
要找出最優(yōu)的mRNA,科學家們的傳統(tǒng)做法是隨機改變序列,再看看是否有益。當前,科學界也在尋找解決問題的不同策略,比如,卡耐基梅隆大學和斯坦福大學聯(lián)合百度合作開發(fā)的平臺Eterna,就旨在在通過解謎的方式吸引全球玩家共同設計安全穩(wěn)定的mRNA。Eterna平臺所使用的,正是今年1月底百度開放的LinearFold算法作為其結(jié)構(gòu)分析引擎。
LinearFold是十分成功的實驗性項目,它將生物學上的難題成功轉(zhuǎn)化為形式語言理論和計算機語言學上的經(jīng)典問題。在LinearFold的啟發(fā)之下,百度研究院的研究團隊想到了不只是結(jié)構(gòu)分析,而可以進一步運用計算機科學來設計出更穩(wěn)定、蛋白質(zhì)表達水平更高的mRNA序列。由此,LinearDesign應運而生。
針對多達10的632次方mRNA序列,LinearDesign采用了動態(tài)規(guī)劃算法來縮小搜索空間。我們知道直到AlphaGo出來之前,AI一直都無法戰(zhàn)勝人類棋手,主要原因就是圍棋的搜索空間太大了,有3的19x19次方個狀態(tài),約合10的172次方??梢钥吹?,mRNA序列設計問題的搜索空間遠遠大于下圍棋的搜索空間。
而LinearDesign的動態(tài)規(guī)劃算法首先用確定有限狀態(tài)自動機(DFA)來表達氨基酸和蛋白質(zhì),這樣不同位置上密碼子的選擇就可以抽象為計算理論中常用的DFA圖。如下圖,分別把三種氨基酸(A: methionine, B: valine, C: serine)以及終止密碼子(D)抽象為DFA圖。
在此基礎上,將氨基酸的DFA串聯(lián)起來,即可得到一段蛋白質(zhì)序列的DFA圖。如下圖是示例序列“methionineleucine stop”的DFA圖。
接下來,我們需要通過DFA來找出二級結(jié)構(gòu)最穩(wěn)定的mRNA序列。在這里,百度研究院借用了通常用于計算機語言學的常見工具,也就是隨機上下文無關(guān)文法(SCFG),用于指代RNA折疊。RNA二級結(jié)構(gòu)可以通過SCFG構(gòu)建語法樹來表示。
mRNA疫苗序列設計優(yōu)化問題實際上是將單個RNA序列的二級結(jié)構(gòu)計算(RNAfolding)推廣到多個RNA序列。在用DFA抽象表示多個RNA序列后,研究人員通過取DFA與SCFG的交集,來從多個mRNA序列中找到具有最穩(wěn)定二級結(jié)構(gòu)的序列。
從上圖的新型冠狀病毒突刺蛋白實驗結(jié)果可以看出,對比最左側(cè)圖A自然界存在抗體所對應的mRNA序列,右邊人工智能設計的二級結(jié)構(gòu)非常緊密。其中的全局最優(yōu)序列圖C,設計時間只需要1.6小時!而如果進一步應用線性時間近似算法,如圖B其設計時間將縮短到16分鐘。這項技術(shù)同樣適用于所有mRNA疫苗設計。
疫苗研發(fā)是一項耗時耗力的全世界性難題,運用人工智能,計算機科學技術(shù)疫苗研發(fā)正在不斷加速。目前,百度研究院已將LinearDesign網(wǎng)站免費開放,同時相關(guān)論文已發(fā)布于arXiv,全球研究機構(gòu)及疫苗研發(fā)企業(yè)均可使用。百度已與中國疾病預防控制中心病毒病預防控制所簽署戰(zhàn)略合作協(xié)議,后續(xù)也將使用百度LinearDesign算法設計的mRNA疫苗序列進行體外實驗,驗證疫苗的穩(wěn)定性和蛋白質(zhì)表達效率。相信在全球研究者的共同努力下,疫苗研發(fā)進度將不斷提速。
責任編輯:pj
-
AI
+關(guān)注
關(guān)注
91文章
40126瀏覽量
301743 -
百度
+關(guān)注
關(guān)注
9文章
2379瀏覽量
95005 -
引擎
+關(guān)注
關(guān)注
1文章
368瀏覽量
23482
發(fā)布評論請先 登錄
NVIDIA推出面向語言、機器人和生物學的全新開源AI技術(shù)
北京理工大學:在AI輔助生物傳感器改造領(lǐng)域取得重要進展
【「AI芯片:科技探索與AGI愿景」閱讀體驗】+具身智能芯片
【「AI芯片:科技探索與AGI愿景」閱讀體驗】+化學或生物方法實現(xiàn)AI
【「AI芯片:科技探索與AGI愿景」閱讀體驗】+可期之變:從AI硬件到AI濕件
【「AI芯片:科技探索與AGI愿景」閱讀體驗】+內(nèi)容總覽
AI 芯片浪潮下,職場晉升新契機?
掃描電鏡圖像分辨率評估新方法
NVIDIA AI助力科學研究領(lǐng)域持續(xù)突破
劃片機在生物晶圓芯片制造中的高精度切割解決方案
【書籍評測活動NO.64】AI芯片,從過去走向未來:《AI芯片:科技探索與AGI愿景》
任正非說 AI已經(jīng)確定是第四次工業(yè)革命 那么如何從容地加入進來呢?
高壓功率放大器在生物和超聲領(lǐng)域中的作用和實驗
霍爾傳感器在直流電機轉(zhuǎn)速測量中的應用研究
調(diào)Q納秒激光器在生物成像領(lǐng)域-光聲成像方面的應用
AI算法LinearDesign在生物學領(lǐng)域的應用研究
評論