91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

解決量子神經(jīng)網(wǎng)絡(luò)消失梯度問題 更好利用 NISQ 設(shè)備資源

Tensorflowers ? 來源: Andrea Skolik ? 作者: Andrea Skolik ? 2020-09-02 16:41 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

文 /大眾汽車公司和萊頓大學(xué)的 Andrea Skolik

3 月初,Google 與滑鐵盧大學(xué)和大眾汽車公司共同發(fā)布了 TensorFlow Quantum(TFQ)。TensorFlow Quantum 是一個量子機(jī)器學(xué)習(xí) (QML) 軟件框架,允許研究員聯(lián)合使用 Cirq 和 TensorFlow 的功能。Cirq 和 TFQ 都用于模擬噪聲中等規(guī)模量子 (NISQ) 的設(shè)備。這些設(shè)備當(dāng)前仍處于實驗階段,因此未經(jīng)糾錯,還會受到噪聲輸出的影響。

本文介紹的訓(xùn)練策略可以解決量子神經(jīng)網(wǎng)絡(luò) (QNN) 中的消失梯度問題,并更好地利用 NISQ 設(shè)備提供的資源。

量子神經(jīng)網(wǎng)絡(luò)

訓(xùn)練 QNN 與訓(xùn)練經(jīng)典神經(jīng)網(wǎng)絡(luò)沒有太大不同,區(qū)別僅在于優(yōu)化量子電路的參數(shù)而不是優(yōu)化網(wǎng)絡(luò)權(quán)重。量子電路的外形如下所示:

用于四個量子位分類任務(wù)的簡化 QNN

電路從左到右讀取,每條水平線對應(yīng)量子計算機(jī)寄存器中的一個量子位,每個量子位都初始化為零狀態(tài)。方框表示對按順序執(zhí)行的量子位的參數(shù)化運算(或“門”)。在這種情況下,我們有三種不同類型的運算,X、Y 和 Z。垂直線表示兩個量子邏輯門,可用于在 QNN 中產(chǎn)生糾纏 - 一種使量子計算機(jī)勝過經(jīng)典計算機(jī)的資源。我們在每個量子位上將一層表示為一個運算,然后將一系列的門連接成對的量子位,產(chǎn)生糾纏。

上圖為用于學(xué)習(xí) MNIST 數(shù)字分類的簡化 QNN。

首先,將數(shù)據(jù)集編碼為量子態(tài)。使用數(shù)據(jù)編碼層來完成這一操作,上圖中標(biāo)記為橙色。在這種情況下,我們將輸入數(shù)據(jù)轉(zhuǎn)換為向量,并將向量值用作數(shù)據(jù)編碼層運算的參數(shù) d ?;诖溯斎雸?zhí)行電路中藍(lán)色標(biāo)記的部分,這一部分代表 QNN 的可訓(xùn)練門,用 p表示。

量子電路的最后一個運算是測量。計算期間,量子設(shè)備對經(jīng)典位串的疊加執(zhí)行運算。當(dāng)我們在電路上執(zhí)行讀出時,疊加狀態(tài)坍縮為一個經(jīng)典位串,這就是最后的計算輸出。所謂的量子態(tài)坍縮是概率性的,要獲得確定性結(jié)果,我們需要對多個測量結(jié)果取平均值。

上圖中,綠色標(biāo)記的部分是第三個量子位上的測量,這些測量結(jié)果用于預(yù)測 MNIST 樣本的標(biāo)簽。將其與真實數(shù)據(jù)標(biāo)簽對比,并像經(jīng)典神經(jīng)網(wǎng)絡(luò)一樣計算損失函數(shù)的梯度。由于參數(shù)優(yōu)化是經(jīng)典計算機(jī)使用 Adam 等優(yōu)化器處理,因此這些類型的 QNN 稱為“混合量子經(jīng)典算法”。

消失的梯度,又稱貧瘠高原

事實證明,QNN 與經(jīng)典神經(jīng)網(wǎng)絡(luò)一樣,也存在消失梯度的問題。由于 QNN 中梯度消失的原因與經(jīng)典神經(jīng)網(wǎng)絡(luò)有著本質(zhì)的不同,因此采用了一個新術(shù)語:貧瘠高原 (Barren Plateaus)。本文不探討這一重要現(xiàn)象的所有細(xì)節(jié),建議感興趣的讀者閱讀首次介紹 QNN 訓(xùn)練景觀 (Training Landscapes) 中貧瘠高原的文章。

簡而言之,當(dāng)量子電路被隨機(jī)初始化,就會出現(xiàn)貧瘠高原 - 在上述電路中,這意味著隨機(jī)選擇運算及其參數(shù)。這是訓(xùn)練參數(shù)化量子電路的一個重點問題,并且會隨著量子位數(shù)量和電路中層數(shù)的增加而越發(fā)嚴(yán)重,如下圖所示。

梯度方差根據(jù)隨機(jī)電路中量子位和層數(shù)的變化而衰減

對于下面介紹的算法,關(guān)鍵在于電路中添加的層越多,梯度的方差就越小。另一方面,類似于經(jīng)典神經(jīng)網(wǎng)絡(luò),QNN 的表示能力也隨著深度的增加而增加。這里的問題是,隨著電路尺寸的增加,優(yōu)化景觀在很多位置都會趨于平坦,以至于難以找到局部最小值。

注意,對于 QNN,輸出通過多次測量的平均值進(jìn)行估算。想要估算的量越小,獲得準(zhǔn)確結(jié)果所需的測量就越多。如果這些量與測量不確定性或硬件噪聲造成的影響相比要小得多,這些量就無法可靠確定,電路優(yōu)化基本上會變成隨機(jī)游走。

為了成功訓(xùn)練 QNN,必須避免參數(shù)的隨機(jī)初始化,同時也要阻止 QNN 在訓(xùn)練過程中由于梯度變小而隨機(jī)化,例如在接近局部最小值的時候。為此,我們可以限制 QNN 的架構(gòu)(例如,通過選擇某些門配置,這需要根據(jù)當(dāng)前任務(wù)調(diào)整架構(gòu)),或控制參數(shù)的更新,使其不會變得隨機(jī)。

分層學(xué)習(xí)

在我們與 Volkswagen Data:Lab(Andrea Skolik、Patrick van der Smagt、Martin Leib)和 Google AI Quantum(Jarrod R. McClean、Masoud Mohseni)網(wǎng)絡(luò)聯(lián)合發(fā)表的論文 Layerwise learning for quantum neural networks 中,我們介紹了一種避免初始化在高原上并避免網(wǎng)絡(luò)在訓(xùn)練過程中在高原上結(jié)束的方法。接下來是一個關(guān)于 MNIST 數(shù)字二進(jìn)制分類學(xué)習(xí)任務(wù)的分層學(xué)習(xí) (Layerwise Learning) 示例。首先,我們需要定義待堆疊的層的結(jié)構(gòu)。當(dāng)前的學(xué)習(xí)任務(wù)未經(jīng)任何假設(shè),因此各層選擇的布局與上圖相同:一層由每個初始化為零的量子位上的隨機(jī)門和兩個量子邏輯門組成,兩個量子邏輯門連接量子位以實現(xiàn)糾纏。

我們指定了若干個起始層,在本例中只有一個,將在訓(xùn)練過程中始終保持活躍狀態(tài),并指定訓(xùn)練每組層的周期數(shù)。另外兩個超參數(shù)是每個步驟中添加的新層數(shù),以及一次被最大訓(xùn)練的層數(shù)。在這里選擇一種配置,其中每個步驟中添加兩個層,并凍結(jié)除起始層之外的所有先前層的參數(shù),以在每個步驟中僅訓(xùn)練三個層。將每組層訓(xùn)練 10 個周期,然后重復(fù)此過程十次,直到電路總共由 21 層組成。這里的事實依據(jù)是淺層電路會比深層電路產(chǎn)生更大梯度,由此避免了高原上的初始化。

這提供了一個優(yōu)化過程的良好起點,可以繼續(xù)訓(xùn)練更大的連續(xù)層集。對另一個超參數(shù),我們定義了算法第二階段一起訓(xùn)練的層的百分比。在此將電路分成兩半,交替訓(xùn)練兩個部分,其中不活動部分的參數(shù)始終凍結(jié)。一個所有分區(qū)都訓(xùn)練過一次的訓(xùn)練序列稱為掃描,對這個電路執(zhí)行掃描,直到損失收斂。當(dāng)完整參數(shù)集始終完成訓(xùn)練時,我們將這種情況稱為“完全深度學(xué)習(xí)”(Complete Depth Learning),一個欠佳的更新步驟會影響整個電路并將其引入隨機(jī)配置,導(dǎo)致無從逃脫的貧瘠高原。

接下來將我們的訓(xùn)練策略與訓(xùn)練 QNN 的標(biāo)準(zhǔn)技術(shù) CDL 進(jìn)行比較。為了得到公平的結(jié)果,我們使用與先前 LL 策略生成的電路架構(gòu)完全相同的電路架構(gòu),但現(xiàn)在在每一步中同時更新所有參數(shù)。為了給 CDL 提供訓(xùn)練的機(jī)會,參數(shù)將優(yōu)化為零,而不是隨機(jī)優(yōu)化。由于無法使用真正的量子計算機(jī),因此我們模擬 QNN 的概率輸出,并選擇一個相對較低的值來估計 QNN 每次預(yù)測的測量次數(shù)——此例中為 10。假設(shè)真正的量子計算機(jī)上的采樣率為 10kHZ,我們可以估算出訓(xùn)練運行的實驗性掛鐘時間,如下所示:

不同學(xué)習(xí)率 η 的分層深度學(xué)習(xí)和完全深度學(xué)習(xí)的比較。每種配置訓(xùn)練了 100 個電路,并對最終測試誤差低于 0.5(圖例中成功運行的次數(shù))的電路取平均值

通過少量的測量,可以研究 LL 和 CDL 方法不同梯度幅度的影響:如果梯度值較大,則與較小值相比,10 次測量可以提供更多信息。執(zhí)行參數(shù)更新的信息越少,損失的方差就越大,執(zhí)行錯誤更新的風(fēng)險也就越大,這將使更新的參數(shù)隨機(jī)化,并導(dǎo)致 QNN 進(jìn)入高原。這一方差可以通過更小的學(xué)習(xí)率降低,因此上圖比較了學(xué)習(xí)率不同的 LL 和 CDL 策略。

值得注意的是,CDL 運行的測試誤差會隨運行時間的增加而增加,最初看起來像是過擬合。然而,這張圖中的每條曲線都是多次運行的平均值,實際情況是,越來越多的 CDL 運行在訓(xùn)練過程中隨機(jī)化,無法恢復(fù)。如圖例所示,與 CDL 相比,LL 運行中有更大一部分在測試集上實現(xiàn)了小于 0.5 的分類誤差,所用時間也更少。

綜上所述,分層學(xué)習(xí)提高了在更少訓(xùn)練時間內(nèi)成功訓(xùn)練 QNN 的概率,總體上具有更好的泛化誤差,這在 NISQ 設(shè)備上尤其實用。
原文標(biāo)題:介紹量子神經(jīng)網(wǎng)絡(luò)訓(xùn)練策略,解決消失梯度問題

文章出處:【微信公眾號:TensorFlow】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:介紹量子神經(jīng)網(wǎng)絡(luò)訓(xùn)練策略,解決消失梯度問題

文章出處:【微信號:tensorflowers,微信公眾號:Tensorflowers】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    神經(jīng)網(wǎng)絡(luò)的初步認(rèn)識

    日常生活中的智能應(yīng)用都離不開深度學(xué)習(xí),而深度學(xué)習(xí)則依賴于神經(jīng)網(wǎng)絡(luò)的實現(xiàn)。什么是神經(jīng)網(wǎng)絡(luò)?神經(jīng)網(wǎng)絡(luò)的核心思想是模仿生物神經(jīng)系統(tǒng)的結(jié)構(gòu),特別是大腦中神經(jīng)
    的頭像 發(fā)表于 12-17 15:05 ?323次閱讀
    <b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的初步認(rèn)識

    CNN卷積神經(jīng)網(wǎng)絡(luò)設(shè)計原理及在MCU200T上仿真測試

    數(shù)的提出很大程度的解決了BP算法在優(yōu)化深層神經(jīng)網(wǎng)絡(luò)時的梯度耗散問題。當(dāng)x&gt;0 時,梯度恒為1,無梯度耗散問題,收斂快;當(dāng)x&lt;0 時,該層的輸出為0。 CNN
    發(fā)表于 10-29 07:49

    NMSIS神經(jīng)網(wǎng)絡(luò)庫使用介紹

    NMSIS NN 軟件庫是一組高效的神經(jīng)網(wǎng)絡(luò)內(nèi)核,旨在最大限度地提高 Nuclei N 處理器內(nèi)核上的神經(jīng)網(wǎng)絡(luò)的性能并最??大限度地減少其內(nèi)存占用。 該庫分為多個功能,每個功能涵蓋特定類別
    發(fā)表于 10-29 06:08

    構(gòu)建CNN網(wǎng)絡(luò)模型并優(yōu)化的一般化建議

    整個模型非常巨大。所以要想實現(xiàn)輕量級的CNN神經(jīng)網(wǎng)絡(luò)模型,首先應(yīng)該避免嘗試單層神經(jīng)網(wǎng)絡(luò)。 2)減少卷積核的大?。篊NN神經(jīng)網(wǎng)絡(luò)是通過權(quán)值共享的方式,利用卷積運算從圖像中提取線性紋理。
    發(fā)表于 10-28 08:02

    在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗

    本帖欲分享在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗。我們采用jupyter notebook作為開發(fā)IDE,以TensorFlow2為訓(xùn)練框架,目標(biāo)是訓(xùn)練一個手寫數(shù)字識別的神經(jīng)網(wǎng)絡(luò)
    發(fā)表于 10-22 07:03

    CICC2033神經(jīng)網(wǎng)絡(luò)部署相關(guān)操作

    在完成神經(jīng)網(wǎng)絡(luò)量化后,需要將神經(jīng)網(wǎng)絡(luò)部署到硬件加速器上。首先需要將所有權(quán)重數(shù)據(jù)以及輸入數(shù)據(jù)導(dǎo)入到存儲器內(nèi)。 在仿真環(huán)境下,可將其存于一個文件,并在 Verilog 代碼中通過 readmemh 函數(shù)
    發(fā)表于 10-20 08:00

    液態(tài)神經(jīng)網(wǎng)絡(luò)(LNN):時間連續(xù)性與動態(tài)適應(yīng)性的神經(jīng)網(wǎng)絡(luò)

    1.算法簡介液態(tài)神經(jīng)網(wǎng)絡(luò)(LiquidNeuralNetworks,LNN)是一種新型的神經(jīng)網(wǎng)絡(luò)架構(gòu),其設(shè)計理念借鑒自生物神經(jīng)系統(tǒng),特別是秀麗隱桿線蟲的神經(jīng)結(jié)構(gòu),盡管這種微生物的
    的頭像 發(fā)表于 09-28 10:03 ?1198次閱讀
    液態(tài)<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>(LNN):時間連續(xù)性與動態(tài)適應(yīng)性的<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>

    神經(jīng)網(wǎng)絡(luò)的并行計算與加速技術(shù)

    隨著人工智能技術(shù)的飛速發(fā)展,神經(jīng)網(wǎng)絡(luò)在眾多領(lǐng)域展現(xiàn)出了巨大的潛力和廣泛的應(yīng)用前景。然而,神經(jīng)網(wǎng)絡(luò)模型的復(fù)雜度和規(guī)模也在不斷增加,這使得傳統(tǒng)的串行計算方式面臨著巨大的挑戰(zhàn),如計算速度慢、訓(xùn)練時間長等
    的頭像 發(fā)表于 09-17 13:31 ?1124次閱讀
    <b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的并行計算與加速技術(shù)

    基于神經(jīng)網(wǎng)絡(luò)的數(shù)字預(yù)失真模型解決方案

    在基于神經(jīng)網(wǎng)絡(luò)的數(shù)字預(yù)失真(DPD)模型中,使用不同的激活函數(shù)對整個系統(tǒng)性能和能效有何影響?
    的頭像 發(fā)表于 08-29 14:01 ?3471次閱讀

    無刷電機(jī)小波神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)子位置檢測方法的研究

    摘要:論文通過對無刷電機(jī)數(shù)學(xué)模型的推導(dǎo),得出轉(zhuǎn)角:與三相相電壓之間存在映射關(guān)系,因此構(gòu)建了一個以三相相電壓為輸人,轉(zhuǎn)角為輸出的小波神經(jīng)網(wǎng)絡(luò)來實現(xiàn)轉(zhuǎn)角預(yù)測,并采用改進(jìn)遺傳算法來訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu)與參數(shù),借助
    發(fā)表于 06-25 13:06

    神經(jīng)網(wǎng)絡(luò)專家系統(tǒng)在電機(jī)故障診斷中的應(yīng)用

    摘要:針對傳統(tǒng)專家系統(tǒng)不能進(jìn)行自學(xué)習(xí)、自適應(yīng)的問題,本文提出了基于種經(jīng)網(wǎng)絡(luò)專家系統(tǒng)的并步電機(jī)故障診斷方法。本文將小波神經(jīng)網(wǎng)絡(luò)和專家系統(tǒng)相結(jié)合,充分發(fā)揮了二者故障診斷的優(yōu)點,很大程度上降低了對電機(jī)
    發(fā)表于 06-16 22:09

    神經(jīng)網(wǎng)絡(luò)RAS在異步電機(jī)轉(zhuǎn)速估計中的仿真研究

    眾多方法中,由于其結(jié)構(gòu)簡單,穩(wěn)定性好廣泛受到人們的重視,且已被用于產(chǎn)品開發(fā)。但是MRAS仍存在在低速區(qū)速度估計精度下降和對電動機(jī)參數(shù)變化非常敏感的問題。本文利用神經(jīng)網(wǎng)絡(luò)的特點,使估計更為簡單、快速
    發(fā)表于 06-16 21:54

    基于FPGA搭建神經(jīng)網(wǎng)絡(luò)的步驟解析

    本文的目的是在一個神經(jīng)網(wǎng)絡(luò)已經(jīng)通過python或者M(jìn)ATLAB訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型,將訓(xùn)練好的模型的權(quán)重和偏置文件以TXT文件格式導(dǎo)出,然后通過python程序?qū)xt文件轉(zhuǎn)化為coe文件,(coe
    的頭像 發(fā)表于 06-03 15:51 ?1194次閱讀
    基于FPGA搭建<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的步驟解析

    NVIDIA實現(xiàn)神經(jīng)網(wǎng)絡(luò)渲染技術(shù)的突破性增強功能

    近日,NVIDIA 宣布了 NVIDIA RTX 神經(jīng)網(wǎng)絡(luò)渲染技術(shù)的突破性增強功能。NVIDIA 與微軟合作,將在 4 月的 Microsoft DirectX 預(yù)覽版中增加神經(jīng)網(wǎng)絡(luò)著色技術(shù),讓開
    的頭像 發(fā)表于 04-07 11:33 ?1163次閱讀

    神經(jīng)網(wǎng)絡(luò)壓縮框架 (NNCF) 中的過濾器修剪統(tǒng)計數(shù)據(jù)怎么查看?

    無法觀察神經(jīng)網(wǎng)絡(luò)壓縮框架 (NNCF) 中的過濾器修剪統(tǒng)計數(shù)據(jù)
    發(fā)表于 03-06 07:10