生命科學(xué)是前沿科技創(chuàng)新的關(guān)鍵領(lǐng)域。AI、云計算、大數(shù)據(jù)等互聯(lián)網(wǎng)技術(shù)的發(fā)展,正在為基因測序、生物醫(yī)藥、AI 與大數(shù)據(jù)應(yīng)用等方面注入新動能,加速生命科學(xué)領(lǐng)域相關(guān)企業(yè)的智能化升級。
12 月 27 日,“2022 百度云智峰會·智算峰會”成功舉辦。NVIDIA 資深解決方案架構(gòu)師翟健分享了以“GPU 加速藥物研發(fā)與基因組學(xué)分析”為題的演講,介紹了 NVIDIA 如何利用 GPU 和加速軟件推動 AI 驅(qū)動的藥物研發(fā)與基因組學(xué)分析,包括 NVIDIA 與百度智能云在賦能藥物研發(fā)、基因測序分析方面的合作。以下為內(nèi)容概要。

GPU 加速助力藥物研發(fā)
CLARA 是 NVIDIA 在醫(yī)療方向的 SDK 平臺,它借助于 NVIDIA 的基礎(chǔ)軟硬件平臺,為醫(yī)療用戶提供了醫(yī)療設(shè)備、制藥、影像、基因以及智慧醫(yī)院等五個方面的能力,從而為醫(yī)療的終端用戶,針對具體的應(yīng)用場景提供完備的加速能力。
而其中的 CLARA Discovery 是 CLARA 平臺下面向藥物研發(fā)場景的重要解決方案,它基于 NVIDIA 的 AI 和 HPC 能力來輔助加速藥物研發(fā)的工作流程。目前該方案已經(jīng)納入到了百度智能云賦能藥物研發(fā)的解決方案中。

醫(yī)療領(lǐng)域的前期研發(fā)過程當(dāng)中會涵蓋如下幾個過程:集靶點發(fā)現(xiàn)、化學(xué)分子生成、蛋白質(zhì)性質(zhì)結(jié)構(gòu)預(yù)測、藥物分子與蛋白質(zhì)進(jìn)行對接打分,構(gòu)建自由能 FEP 等。
整個制藥行業(yè)涉及到兩個學(xué)科,結(jié)構(gòu)生物學(xué)與計算化學(xué)。而這兩個學(xué)科都涉及到傳統(tǒng)的 HPC 與新興的 AI 方法,而且 AI 的方法相較于 HPC 的方法會有比較明顯的速度上的優(yōu)勢。
目前 AI 正在顛覆整個藥物研發(fā)的過程,包括在靶點發(fā)現(xiàn)方面、虛擬篩選以及分子生成、結(jié)構(gòu)預(yù)測,甚至在臨床上應(yīng)用的自然語言模型,都是 AI 加速的體現(xiàn)。
AI 中 Transformer 模型正在逐漸地應(yīng)用在藥物研發(fā)領(lǐng)域中。左邊的四張小圖來自于 MegaMolBART 與 Protrans 一系列突破性的論文,表明基于 Transformer 的預(yù)訓(xùn)練模型可以有效地加速分子生成和蛋白質(zhì)的結(jié)構(gòu)預(yù)測。

右上角展示的就是 Transformer 模型的 Encoder-Decoder 的架構(gòu)形式,它們可以用在諸如右下方的幾個典型領(lǐng)域,包括:小分子模型的生成、反應(yīng)序列的預(yù)測、蛋白質(zhì)結(jié)構(gòu)預(yù)測、生物醫(yī)學(xué)領(lǐng)域的 NLP 以及圖像分析等。
NVIDIA 基于在大語言模型上的經(jīng)驗,推出了 BioNeMo 的解決方案,它是一款可以在云端進(jìn)行訓(xùn)練和部署的服務(wù)框架,主要面向有大語言模型需求的藥物研發(fā)人員。此外,它基于 NVIDIA 的 GPU 硬件也做了很好的優(yōu)化工作,并且提供了多種預(yù)訓(xùn)練模型,支持云原生的服務(wù),極大地加速了藥物研發(fā)的工作流程。

這一頁展示的是 BioNeMo 的邏輯架構(gòu),最底層的是 NVIDIA 加速的計算平臺。下面開始第二層是 NVIDIA 的大語言模型平臺 NeMo Megatron,是 BioNeMo 的快速訓(xùn)練和部署的重要保證。
BioNeMo 提供了多種預(yù)訓(xùn)練的 Transformer 類的模型,分別針對化學(xué)分子生成、蛋白質(zhì)結(jié)構(gòu)序列預(yù)測、DNA 的 embedding 等幾個方面。最終這些都服務(wù)于我們最上層中,藥物研發(fā)領(lǐng)域里幾個典型應(yīng)用場景。
BioNeMo 的三個典型特點是:
一,它支持分子、蛋白質(zhì)和核苷酸的 SMMILES 和 FASTA 的表征。
二,它含有多種預(yù)訓(xùn)練模型,像我們剛才提到的 MegaMolBART 等。
三,它可以在云端部署相應(yīng)的、可視化界面的服務(wù)。
這里跟大家分享一個案例,Vyasa 是一個面向藥物研發(fā)的 AI 解決方案提供商,他們在方案中整合了 BioNeMo 中的 MegaMolBART 模型,從而實現(xiàn)了終端用戶在本地和云端都可以利用 GPU 對藥物分子生成過程進(jìn)行加速。也正因為如此,他們的用戶 Memorial Solan Kettering 學(xué)院采購了 NVIDIA 的 DGX 服務(wù)器用于加速這一類型的工作負(fù)載。
除了在分子生成、蛋白質(zhì)結(jié)構(gòu)性質(zhì)預(yù)測方面,NVIDIA 提供了很好的加速優(yōu)化。在虛擬篩選和仿真的過程當(dāng)中,NVIDIA 也協(xié)同了眾多的開源社區(qū)、高校,加速了傳統(tǒng) HPC 領(lǐng)域當(dāng)中的對接、分子動力學(xué)和量子化學(xué)里的常用軟件。

這張圖中展示的就是我們在三個領(lǐng)域當(dāng)中常用的一些軟件。這些軟件 NVIDIA 都提供了相應(yīng)的 GPU 加速版本,大家可以在 NVIDIA 的 NGC 平臺(https://catalog.ngc.nvidia.com/ )進(jìn)行下載。
下面展示的是分子動力學(xué)軟件 Gromacs 的 GPU 版本的性能評測。可以看到,在 NVIDIA 的 A100 和 V100 GPU 上,Gromacs 都同比 CPU 獲得了極好的加速。

類似的,這一頁展示的是量子化學(xué)軟件 VASP CPU-GPU 的性能對比。NVIDIA 的 V100 和 A100 GPU 同樣都獲得了極高的加速。

GPU 加速突破基因測序分析瓶頸
接下來讓我們介紹一下 NVIDIA GPU 在加速基因組學(xué)方面的方案。
在今年春季的 NVIDIA GTC 大會上,來自于斯坦福大學(xué)的團隊介紹了他們?nèi)绾位?NVIDIA GPU 打破了基因測序的世界紀(jì)錄。他們將人類的基因測序縮短到了 7 小時 18 分鐘,完成了濕實驗和在計算機上的數(shù)據(jù)分析等過程。
而在基因測序方面,一般包括如下三個環(huán)節(jié):一,通過測序儀得到數(shù)據(jù)之后進(jìn)行的一級分析過程,完成四分類任務(wù);二,在計算機上完成一致性對比處理、變體識別等二級分析過程;三,最后的三級分析則是對大量的數(shù)據(jù)進(jìn)行處理。而這三個過程目前都是可以用 GPU 實現(xiàn)加速的。分別可以通過 GPU 加速的 TensorFlow、PyTorch,以及 TensorRT 進(jìn)行一級分析加速。通過 CLARA Parabricks 對二級分析進(jìn)行加速。利用 RAPIDS、MONAI 等可以加速三級分析。
下面讓我們來介紹一下二級分析的軟件 CLARA Parabricks。CLARA Parabricks 是一款利用 GPU 加速高通量、高精度的 DNA 和 RNA 測序分析工具,主要用于人類基因組學(xué)分析、癌癥基因篩查、RNA 測序分析等。目前其中含有 60 多個工具模塊,包括基因數(shù)據(jù)的一致性比對、金標(biāo)準(zhǔn)處理和質(zhì)量把控、高精度遍體識別等范疇類的多種常用工具。
這一頁展示的是 CLARA Parabricks 目前支持的工具模塊的部分內(nèi)容,基本上涵蓋了主流的基因測序二級分析中的大部分工具。

使用 CLARA Parabricks 可以實現(xiàn)對典型的應(yīng)用的加速,它是針對金標(biāo)準(zhǔn)的種系、體細(xì)胞和 RNA 的加速工具。而且目前使用 Ampere 架構(gòu)的 GPU 可以實現(xiàn) 80 倍的加速,精度方面也能夠保證,且具有比較靈活的工作流程。
那么談到這里就要說一下 CLARA Parabricks 的幾大特點了。因為它是模塊化的工具,所以可以通過各種傾向性的組合,可以靈活選擇 CLARA Parabricks 當(dāng)中的各種模塊。
同時剛才提到它的工作流程靈活,是因為它對主流的基因組學(xué)分析中的 workflow 管理器都支持,包括 WDL,nextflow 等。此外,它還對 Google 的 DeepVariant 1.4 版本的變體識別工具也做了很好的支持。
接下來我們來看看 Parabricks 的 benchmark。可以看到,列舉的幾個模塊在 GPU 上,同比 CPU 都具有非常好的加速效果。而且在 A100 上可以最高實現(xiàn) 80 倍的加速。這一頁展示的就是分別在 2 張、4 張和 8 張 A100 上同比 CPU 實現(xiàn)加速的效果。

同時,在癌癥的基因篩查中,端到端的流程也可以在 GPU 上實現(xiàn)比較明顯的加速。
2022 年春季 GTC 大會上,NVIDIA 發(fā)布了 Hopper 架構(gòu)的 GPU。該架構(gòu)的 GPU 對于動態(tài)編程做了很好的加速,單就動態(tài)編程這一特性,Hopper 架構(gòu)就比上一代的 Ampere 架構(gòu)有了 7 倍的理論加速。而在基因組學(xué)分析中,動態(tài)編程技術(shù)是需要被頻繁使用到的,也因此,Hopper 架構(gòu)的 GPU 可以給基因測序帶來重大的收益。
上文提到的,斯坦福大學(xué)創(chuàng)造的基因測序世界紀(jì)錄就是借助 NVIDIA CLARA Parabricks 實現(xiàn)的。
這里再跟大家分享一個案例,就是英國的 BioBank 這家公司,他們要處理 50 萬個外顯子,這些在 CPU 上需要 1 個小時才能得到結(jié)果,而 GPU 將這個過程僅僅縮短到了 5 分鐘,成本下降了 60%。
這里展示了 CLARA Parabricks 的資料參考頁,感興趣的聽眾可以登陸 CLARA Parabricks 的網(wǎng)頁了解更多的內(nèi)容。同時,CLARA Parabricks 已經(jīng)可以在百度智能云上使用了,在云上的 GPU 最佳實踐專欄中還提供了 CLARA Parabricks 的使用方式和詳盡介紹,感興趣的同學(xué)可以登陸https://cloud.baidu.com/doc/GPU/s/pl6vzliqu了解更多內(nèi)容。
在加速三級分析這部分,同樣可以使用 GPU 版本的大數(shù)據(jù)處理 SDK RAPIDS。RAPIDS 是一個端到端的 GPU 加速數(shù)據(jù)科學(xué)的 SDK。它包括數(shù)據(jù)處理的 SDK cuDF,用于傳統(tǒng)機器學(xué)習(xí)的 SDK cuML,圖計算 SDK cuGraph,以及一些可視化的庫、眾多延伸的庫等?;旧?NVIDIA 非深度學(xué)習(xí)類的 GPU 加速庫都在這里了。
單個細(xì)胞的三級分析依賴于眾多的傳統(tǒng)機器學(xué)習(xí)與大數(shù)據(jù)的方法,比如回歸聚類等算法以及一些可視化的方法。右邊展示的就是針對 scRNA 序列處理的聚類,回歸與可視化端到端運行的時間??梢钥吹剑褂?GPU 可以降低整體的運行時間。

最后讓我們再次回顧一下這張圖,NVIDIA GPU 在一級至三級分析上都有相應(yīng)的解決方案。尤其在二級分析和三級分析上,NVIDIA 提供 CLARA Parabricks 和 RAPIDS 方案,可以帶給用戶更好的性能與性價比的提升。這也是斯坦福大學(xué)利用 GPU 打破基因測序世界紀(jì)錄的根本原因。
上面提到的這些軟件,大家可以登陸 NVIDIA NGC 平臺(https://catalog.ngc.nvidia.com/ )下載相應(yīng)的軟件進(jìn)行體驗。
原文標(biāo)題:百度智算峰會精彩回顧:GPU 加速藥物研發(fā)與基因組學(xué)分析
文章出處:【微信公眾號:NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
-
英偉達(dá)
+關(guān)注
關(guān)注
23文章
4087瀏覽量
99187
原文標(biāo)題:百度智算峰會精彩回顧:GPU 加速藥物研發(fā)與基因組學(xué)分析
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
百度地圖開放平臺與400萬開發(fā)者共赴智能時空新未來
中興通訊第五屆戰(zhàn)略峰會精彩回顧
格靈深瞳精彩亮相百度世界2025大會
第十二屆全國功能基因組學(xué)高峰論壇在京舉辦:聚焦人工智能與多組學(xué)融合發(fā)展
2025百度世界大會精彩回顧
百度世界大會亮點 五年五芯 百度宣布打造最硬AI云
百度世界2025進(jìn)行中 百度昆侖芯超節(jié)點亮相 性能巨幅提升
一文了解Mojo編程語言
序禎達(dá)生物利用NVIDIA Parabricks技術(shù)加速多組學(xué)分析
中科曙光構(gòu)建全國產(chǎn)化基因組學(xué)高性能計算平臺
百度智能云兩大基礎(chǔ)設(shè)施再升級
上汽大眾與百度地圖達(dá)成戰(zhàn)略合作
格靈深瞳與百度智能云達(dá)成戰(zhàn)略合作,共筑AI算力新基建
智能算力服務(wù)器應(yīng)用領(lǐng)域
百度智算峰會精彩回顧:GPU 加速藥物研發(fā)與基因組學(xué)分析
評論