在計算機視覺和模式識別會議( CVPR )上, NVIDIA 研究人員發(fā)表了 35 多篇論文。這包括對 移動窗口 UNEt TRansformers ( Swin-UNETR )的研究,這是第一個基于變壓器的預訓練框架,專為 3D 醫(yī)學圖像分析中的自我監(jiān)督任務而設計。這項研究是創(chuàng)建用于數(shù)據(jù)注釋的預訓練、大規(guī)模和自監(jiān)督三維模型的第一步。
作為一種基于 transformer 的計算機視覺方法, Swin UNETR 采用了 MONAI ,這是一種開源的 PyTorch 框架,用于深入學習醫(yī)療成像,包括放射學和病理學。使用這種預訓練方案, Swin UNETR 為各種醫(yī)學圖像分割任務設定了新的最先進的基準,并一致證明了其有效性,即使只有少量的標記數(shù)據(jù)。
Swin UNETR 模型培訓
Swin UNETR 模型在 NVIDIA DGX-1 集群 使用八個 GPU 和 AdamW 優(yōu)化算法。對 5050 張來自健康和不健康受試者不同身體部位的公開 CT 圖像進行預訓練,以保持數(shù)據(jù)集的平衡。
對于 3D Swin transformer 編碼器的自我監(jiān)督預訓練,研究人員使用了各種借口任務。隨機裁剪的標記使用不同的變換(如旋轉(zhuǎn)和剪切)進行增強。這些標記用于掩蔽體修復、旋轉(zhuǎn)和對比學習,用于編碼器學習訓練數(shù)據(jù)的上下文表示,而不會增加數(shù)據(jù)注釋的負擔。

圖 1 :。預培訓框架概述。輸入的 CT 圖像被隨機裁剪成子體積,并通過隨機內(nèi)部剪切和旋轉(zhuǎn)進行增強,然后作為輸入饋送到 Swin-UNETR 編碼器
Swin UNETR 背后的技術(shù)
Swin Transformers 采用分層視覺 transformer ( ViT )進行非重疊窗口的局部自我注意計算。這打開了為大型公司創(chuàng)建醫(yī)療專用 ImageNet 的機會,消除了創(chuàng)建醫(yī)療 AI 模型需要大量高質(zhì)量注釋數(shù)據(jù)集的瓶頸。
與 CNN 體系結(jié)構(gòu)相比, ViT 在從未標記數(shù)據(jù)(數(shù)據(jù)集越大,預訓練主干越強)進行全局和局部表示的自監(jiān)督學習方面表現(xiàn)出非凡的能力。用戶可以在下游任務(例如,分割、分類和檢測)中使用極少量的標記數(shù)據(jù)微調(diào)預訓練模型。
這種體系結(jié)構(gòu)在本地窗口中計算自我注意,與 ViT 相比表現(xiàn)出更好的性能。此外, Swin Transformers 的層次性使其非常適合需要多尺度建模的任務。
繼領先的 UNETR 模型成功使用直接使用 3D 補丁嵌入的基于 ViT 的編碼器之后, Swin UNETR 使用了具有金字塔結(jié)構(gòu)的 3D Swin transformer 編碼器。
在 Swin UNETR 的編碼器中,由于計算簡單的全局自我注意對于高分辨率特征地圖是不可行的,因此在本地窗口中計算自我注意。為了增加局部窗口以外的感受野,使用窗口移位來計算不同窗口的區(qū)域相互作用。
Swin UNETR 的編碼器通過跳過連接以五種不同的分辨率連接到剩余的類似 UNet 的解碼器。它可以為密集的預測任務(如醫(yī)學圖像分割)捕獲多尺度特征表示。
Swin UNETR 模型性能
在對 CT 中的 13 個腹部器官和 醫(yī)學分段十項全能( MSD ) 數(shù)據(jù)集中的分割任務使用 超越顱穹窿( BTCV )分割挑戰(zhàn) 進行微調(diào)后,該模型在公共排行榜上達到了最先進的精度。
BTCV
在 BTCV 中, SwinUnetr 的平均骰子數(shù)為 0.918 ,優(yōu)于其他排名靠前的模型。

圖 2 :。 BTCV 挑戰(zhàn)多器官分割排行榜骰子結(jié)果
對于較小的器官,如脾靜脈和門靜脈( 3.6% )、胰腺( 1.6% )和腎上腺( 3.8% ),與之前的最先進方法相比,有了改進小器官數(shù)據(jù)標簽分割對于放射科醫(yī)生來說是一項極其困難的任務。
通訊簿標簽
在 MSD 中, Swin UNETR 在腦腫瘤、肺、胰腺和結(jié)腸方面取得了最先進的表現(xiàn)。心臟、肝臟、海馬、前列腺、肝血管和脾臟的結(jié)果具有可比性??偟膩碚f, Swin UNETR 在所有 10 項任務中的平均骰子率為 78.68% ,是最好的,并在 MSD 排行榜上排名第一。

圖 4 :。使用 MSD 數(shù)據(jù)集進行肝血管分割任務的定性輸出。你可以看到, Swin UNETR 比 SOTA DiNTS 跑贏了 3% 。這一變化很重要,因為它會導致更準確的分段輸出
與DiNTS(一種用于醫(yī)學圖像分割的強大AutoML方法)相比,Swin UNETR使用更少的訓練時間,顯示出更好的分割性能。例如,肝血管分割任務的定性分割輸出證明了Swin UNETR能夠更好地建模長期空間依賴性。

圖 5 :。 Swin UNETR 模型體系結(jié)構(gòu)由一個 Swin transformer 編碼器組成,該編碼器使用 3D 補丁,并通過不同分辨率的跳過連接連接到基于 CNN 的解碼器
結(jié)論
Swin UNETR 體系結(jié)構(gòu)在使用變壓器的醫(yī)療成像方面提供了急需的突破。鑒于醫(yī)學成像需要快速構(gòu)建準確的模型, Swin UNETR 體系結(jié)構(gòu)使數(shù)據(jù)科學家能夠?qū)Υ罅课礃擞洈?shù)據(jù)進行預訓練。這減少了放射科醫(yī)生、病理學家和其他臨床團隊進行專家注釋的成本和時間。這里我們展示了用于器官檢測和自動體積測量的 SOTA 分割性能。
審核編輯:郭婷
-
編碼器
+關(guān)注
關(guān)注
45文章
3953瀏覽量
142653 -
計算機
+關(guān)注
關(guān)注
19文章
7807瀏覽量
93204
發(fā)布評論請先 登錄
如何快速查找工業(yè)部件的 3D CAD 模型
常見3D打印材料介紹及應用場景分析
技術(shù)資訊 I 圖文詳解 Allegro X PCB Designer 中的 3D 模型映射
玩轉(zhuǎn) KiCad 3D模型的使用
iTOF技術(shù),多樣化的3D視覺應用
EtherCAT科普系列(17):EtherCAT技術(shù)在多自由度 3D 打印領域應用
TechWiz LCD 3D應用:FFS仿真
文件嵌入詳解(一):在PCB封裝庫中嵌入3D模型
UFI濾清器液壓系統(tǒng)公司(UFI Filter Hydraulics)3D零部件產(chǎn)品數(shù)據(jù)庫
答疑|3D打印能打印立體字母嗎?
一種以圖像為中心的3D感知模型BIP3D
新型transformer模型實現(xiàn)3D醫(yī)學圖像分析最新基準
評論