91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

強(qiáng)化學(xué)習(xí)正在推進(jìn)AI應(yīng)用

h1654155275.5753 ? 來(lái)源:fysydfdsfw ? 作者:fysydfdsfw ? 2022-12-30 09:40 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

就在幾年前,能夠感知周圍環(huán)境、識(shí)別重要細(xì)節(jié)——并忽略其余部分——然后利用這些細(xì)節(jié)來(lái)完成任務(wù)的技術(shù)應(yīng)用似乎還只是科幻小說(shuō)中的內(nèi)容。

然而,現(xiàn)在有幾種技術(shù)已經(jīng)成為我們?nèi)粘I钪胁豢苫蛉钡囊徊糠郑豪斫夂晚憫?yīng)人類語(yǔ)言的許多細(xì)微差別的智能語(yǔ)音助手,使用成像比人類醫(yī)生更準(zhǔn)確地預(yù)測(cè)癌癥的醫(yī)學(xué)應(yīng)用程序,以及自動(dòng)駕駛汽車導(dǎo)航動(dòng)態(tài)環(huán)境。它們只是成為頭條新聞的一些技術(shù)。

強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的三個(gè)分支之一,正在推動(dòng)其中的許多創(chuàng)新。它使計(jì)算機(jī)能夠識(shí)別其環(huán)境的重要特征以做出最佳決策——這是一種直到最近才出現(xiàn)的技能。對(duì)強(qiáng)化學(xué)習(xí) (RL)、人工神經(jīng)網(wǎng)絡(luò) (ANN) 和深度學(xué)習(xí) (DL) 的更詳細(xì)研究揭示了旨在在人類層面上實(shí)現(xiàn) AI人工智能應(yīng)用的新潛力以及仍然存在的挑戰(zhàn)。

機(jī)器學(xué)習(xí)方法

機(jī)器學(xué)習(xí) (ML) 是 AI 的一個(gè)子集,它使計(jì)算機(jī)能夠從示例和經(jīng)驗(yàn)中學(xué)習(xí)。在 ML 的三個(gè)分支中,監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)可能是最著名的,用于解決定義明確且相對(duì)可預(yù)測(cè)的問(wèn)題。

監(jiān)督學(xué)習(xí)

監(jiān)督學(xué)習(xí) (SL) 方法用于解決帶有注釋輸入數(shù)據(jù)的問(wèn)題。這些算法嘗試從這些已知示例中學(xué)習(xí)模式和關(guān)聯(lián),進(jìn)而處理未知示例。一個(gè)典型的例子是圖像識(shí)別,其中使用手動(dòng)注釋的圖像來(lái)訓(xùn)練模型以正確分類新捕獲的圖像。

無(wú)監(jiān)督學(xué)習(xí)

無(wú)監(jiān)督學(xué)習(xí) (UL) 方法用于推斷未注釋數(shù)據(jù)記錄中的隱藏結(jié)構(gòu)或關(guān)系。這些方法可以在沒(méi)有太多準(zhǔn)備的情況下應(yīng)用,但通常更具描述性和探索性。它們通常用于為監(jiān)督方法的使用做準(zhǔn)備。一個(gè)常見(jiàn)的例子是在交易數(shù)據(jù)中識(shí)別不同的客戶群體,這可以在以后促進(jìn)各種有針對(duì)性的營(yíng)銷活動(dòng)。

強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí) (RL) 是 ML 的第三個(gè)分支,它使一些最復(fù)雜和最人性化的應(yīng)用程序成為當(dāng)今的頭條新聞。RL 是一種機(jī)器學(xué)習(xí),其中獎(jiǎng)勵(lì)和懲罰評(píng)估個(gè)人行為和可以計(jì)劃未來(lái)行為的輸入變量。RL 不是明確地告訴如何解決問(wèn)題,而是基于最大化獎(jiǎng)勵(lì)和最小化懲罰。RL 不局限于特定的問(wèn)題或環(huán)境,而是專注于根據(jù)來(lái)自動(dòng)態(tài)環(huán)境的復(fù)雜輸入做出最佳決策的機(jī)器。

RL 的基本思想是以類似于人類或任何足夠聰明的生物如何學(xué)習(xí)的方式對(duì)學(xué)習(xí)進(jìn)行建模:通過(guò)嘗試實(shí)現(xiàn)與獎(jiǎng)勵(lì)相關(guān)的特定目標(biāo),使用所提供的技能和工具,但沒(méi)有明確的關(guān)于如何解決問(wèn)題的說(shuō)明。一個(gè)簡(jiǎn)單的例子是一個(gè)機(jī)器人,它可以張開和合上手來(lái)將球放入盒子中。機(jī)器人必須學(xué)會(huì)它可以抓住球,將它的手臂移動(dòng)到正確的位置,然后讓它落下。這通常涉及多次迭代和重新開始實(shí)驗(yàn)。機(jī)器人只接收關(guān)于其行為是否成功的反饋,并嘗試調(diào)整其動(dòng)作直到達(dá)到目標(biāo)。

這與 SL 形成鮮明對(duì)比,在 SL 中,一個(gè)好的結(jié)果需要很多例子——比如大量不同的帶注釋的貓圖像集合——來(lái)描述問(wèn)題的所有維度。這是算法準(zhǔn)確了解哪些特征(例如形狀或顏色)與正確決策相關(guān)的唯一方法。對(duì)于機(jī)器人的例子,相當(dāng)于準(zhǔn)確而仔細(xì)地描述過(guò)程的每個(gè)步驟——比如將手移動(dòng)到哪里,施加多大的壓力等。對(duì)于這個(gè)變量很少的例子,也許可以實(shí)現(xiàn)這一點(diǎn)詳細(xì)程度,但如果變量發(fā)生變化,則需要重新學(xué)習(xí)。給定一個(gè)更大的球,機(jī)器人會(huì)不知所措。

在實(shí)際應(yīng)用中,輸入、輸出和訓(xùn)練數(shù)據(jù)的平衡變得異常復(fù)雜。例如,自動(dòng)駕駛汽車幾乎實(shí)時(shí)處理大量傳感器數(shù)據(jù)。忽視環(huán)境中的細(xì)微差別可能會(huì)產(chǎn)生重大后果,并且關(guān)系重大。這就是為什么強(qiáng)化學(xué)習(xí)是在禁止或不可能創(chuàng)建訓(xùn)練示例或指令的環(huán)境中的首選工具。

強(qiáng)化學(xué)習(xí)的子類型

與 ML 的其他分支一樣,RL 具有共同推動(dòng)創(chuàng)新的子流派。特別是,特征學(xué)習(xí) (FL) 使系統(tǒng)能夠識(shí)別輸入數(shù)據(jù)的不同細(xì)節(jié)。人工神經(jīng)網(wǎng)絡(luò) (ANN) 和深度學(xué)習(xí) (DL) 為高級(jí)解析、處理和學(xué)習(xí)提供了所需的框架,并支持深度強(qiáng)化學(xué)習(xí) (DRL) 的子領(lǐng)域。

特征學(xué)習(xí)

特征學(xué)習(xí)(也稱為表示學(xué)習(xí))是一種 ML 技術(shù),它使機(jī)器能夠識(shí)別通常無(wú)法在算法中表示的輸入數(shù)據(jù)的特征和獨(dú)立組件。例如,在自動(dòng)駕駛汽車中,周圍環(huán)境由多個(gè)攝像頭、雷達(dá)和其他傳感器感知。這意味著有很多信息可用于決定下一步行動(dòng),但只有一小部分是相關(guān)的。例如,天空的顏色通常是無(wú)關(guān)緊要的,而交通燈的顏色卻高度相關(guān)。一只鳥飛過(guò)的速度遠(yuǎn)不如行人接近路邊的速度重要。

為什么表示這種級(jí)別的輸入函數(shù)的能力如此重要?用于訓(xùn)練的數(shù)據(jù)集對(duì)模型的準(zhǔn)確性起著關(guān)鍵作用。訓(xùn)練數(shù)據(jù)越多越好。特別是,數(shù)據(jù)集中包含的具有清晰和可識(shí)別特征的示例越多樣化越好。換句話說(shuō),輸入數(shù)據(jù)的獨(dú)特和獨(dú)立特征幫助計(jì)算機(jī)彌合了它們已經(jīng)學(xué)過(guò)的知識(shí)和需要學(xué)習(xí)的知識(shí)之間的差距,以確保無(wú)論上下文如何,都能確保 100% 的準(zhǔn)確性和一致性。識(shí)別獨(dú)特的特征還有助于識(shí)別任何可以忽略的特征和異常值,這反過(guò)來(lái)又有助于隨著時(shí)間的推移顯著減少數(shù)據(jù)量。

人工神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)

這些高度可變的應(yīng)用程序需要一個(gè)健壯且可擴(kuò)展的框架。一種受到廣泛關(guān)注的方法,特別是在監(jiān)督學(xué)習(xí)中,是深度學(xué)習(xí)。結(jié)合強(qiáng)化學(xué)習(xí)的原理,我們稱之為深度強(qiáng)化學(xué)習(xí)。

人工神經(jīng)網(wǎng)絡(luò) (ANN) 的基本思想可以追溯到 1960 年代,大致基于人腦的網(wǎng)絡(luò)狀神經(jīng)結(jié)構(gòu)。人工神經(jīng)網(wǎng)絡(luò)包含一個(gè)巨大的人工神經(jīng)元網(wǎng)絡(luò),稱為感知器,感知器接收輸入信號(hào),評(píng)估各種輸入特征,然后通過(guò)網(wǎng)絡(luò)中繼信號(hào),直到達(dá)到輸出信號(hào)。

該網(wǎng)絡(luò)由神經(jīng)元的數(shù)量、連接的強(qiáng)度和數(shù)量以及神經(jīng)元的激活閾值來(lái)定義。這是輸入信號(hào)必須傳遞的強(qiáng)度。人工神經(jīng)網(wǎng)絡(luò)具有包含多個(gè)輸入和輸出級(jí)別的可擴(kuò)展結(jié)構(gòu),使用中間的隱藏級(jí)別將輸入轉(zhuǎn)換為輸出級(jí)別可以使用的內(nèi)容。專業(yè)術(shù)語(yǔ)深度學(xué)習(xí)源自具有許多連續(xù)神經(jīng)元層的網(wǎng)絡(luò),因此是深度的。

人工神經(jīng)網(wǎng)絡(luò)特別適合從復(fù)雜的輸入數(shù)據(jù)和動(dòng)態(tài)環(huán)境中生成最佳答案,因?yàn)樗鼈兺ㄟ^(guò)反向傳播進(jìn)行學(xué)習(xí)。對(duì)于任何給定的訓(xùn)練信號(hào)——例如,描述圖像坐標(biāo)和顏色值的向量——網(wǎng)絡(luò)會(huì)檢查生成的輸出是否正確,然后稍微調(diào)整網(wǎng)絡(luò)中的權(quán)重以獲得所需的結(jié)果。經(jīng)過(guò)足夠多的訓(xùn)練迭代后,網(wǎng)絡(luò)變得穩(wěn)定,現(xiàn)在可以識(shí)別以前未知的情況。

人工神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的局限性

ANN 和 DL 具有巨大的潛力,因?yàn)樗鼈兡軌虮硎咎卣鞑⒃趧?dòng)態(tài)環(huán)境中做出最佳響應(yīng)。然而,它們的能力帶來(lái)了更多挑戰(zhàn),并揭示了在模仿人類智能的某些方面仍存在的一些差距。

需要數(shù)百萬(wàn)個(gè)節(jié)點(diǎn)、連接和訓(xùn)練迭代

建模相關(guān)問(wèn)題需要 ANN 具有大量節(jié)點(diǎn)和連接,以處理需要分析和存儲(chǔ)的數(shù)百萬(wàn)個(gè)不同變量?,F(xiàn)代計(jì)算機(jī)直到最近才使這成為可能。同樣,所需的訓(xùn)練循環(huán)次數(shù)可以達(dá)到數(shù)十億,并隨著環(huán)境變量的數(shù)量呈指數(shù)增長(zhǎng)。強(qiáng)化學(xué)習(xí)的第一個(gè)重大突破是在圍棋等游戲中取得的,這并非巧合,名為 AlphaGo 的人工智能現(xiàn)在設(shè)法擊敗了最好的人類棋手:游戲規(guī)則——例如可能的行動(dòng)和結(jié)果——以及由于目標(biāo)明確,讓 AI 與自己對(duì)弈,很容易快速執(zhí)行許多模擬游戲。下一個(gè)進(jìn)化步驟是玩電子游戲,例如超級(jí)馬里奧?或星際爭(zhēng)霸,其中行動(dòng)和結(jié)果之間的關(guān)系更為復(fù)雜。盡管如此,環(huán)境仍然有限,許多迭代的快速模擬也是可能的。

然而,對(duì)于像自動(dòng)駕駛這樣的現(xiàn)實(shí)問(wèn)題,情況就不同了。安全到達(dá)目的地這個(gè)首要任務(wù)還是比較容易制定的。然而,環(huán)境明顯更加多樣化,模擬需要更加復(fù)雜才能使它們對(duì)了解實(shí)際問(wèn)題有用。最終,模擬仍然需要用實(shí)際駕駛來(lái)代替,以考慮其他無(wú)法建模的因素,并且在實(shí)現(xiàn)人類績(jī)效之前,將繼續(xù)需要密切監(jiān)控。例如,自動(dòng)駕駛汽車制造商 Waymo 在 2020 年的一份新聞稿中表示,其汽車需要 1400 年的駕駛經(jīng)驗(yàn)才能與人類司機(jī)競(jìng)爭(zhēng)。這是令人驚訝的,因?yàn)橐粋€(gè)人只需練習(xí)幾周就可以安全地駕駛汽車。為什么不是

與抽象和推理相關(guān)的能力

人們可以快速學(xué)會(huì)玩游戲或開車,因?yàn)槿四X可以通過(guò)抽象和推理來(lái)學(xué)習(xí)。通過(guò)這種類型的學(xué)習(xí),例如,由于人類天生的空間意識(shí),駕駛員可以從另一個(gè)角度或在另一個(gè)環(huán)境中想象交通燈的樣子。人類還可以在道路上發(fā)現(xiàn)顏色與之前看到的不同的汽車,并根據(jù)觀察和經(jīng)驗(yàn)得出結(jié)論。

此類功能最近才在 ANN 中得到探索。盡管網(wǎng)絡(luò)的不同層級(jí)可以捕獲輸入的不同方面,例如形狀和顏色,但網(wǎng)絡(luò)只能處理明確包含在訓(xùn)練數(shù)據(jù)中的特征。如果 AI 在白天接受訓(xùn)練,則該模型不太可能在晚上處理其他情況。即使使用 DL,也必須在訓(xùn)練數(shù)據(jù)中考慮到這種差異,并且與訓(xùn)練數(shù)據(jù)的可接受偏差程度非常小。

目前正在探索通過(guò)抽象和推理進(jìn)行學(xué)習(xí)的各種技術(shù),但它們揭示了更多的挑戰(zhàn)和局限性。人工神經(jīng)網(wǎng)絡(luò)失敗的一個(gè)常見(jiàn)例子是計(jì)算機(jī)視覺(jué)系統(tǒng),該系統(tǒng)以極高的可靠性檢測(cè)到西伯利亞哈士奇犬——比其他犬種更可靠。仔細(xì)檢查后發(fā)現(xiàn),網(wǎng)絡(luò)將注意力集中在幾乎所有哈士奇圖像中出現(xiàn)的雪上,而忽略了狗本身。換句話說(shuō),該模型沒(méi)有看到地面的顏色——對(duì)人類來(lái)說(shuō)是一個(gè)微不足道的細(xì)節(jié)——并不是狗的固有屬性。

這個(gè)例子看起來(lái)平庸和人為,但現(xiàn)實(shí)世界的后果可能是可怕的。讓我們?cè)倏纯醋詣?dòng)駕駛汽車的例子,事故很少見(jiàn),但可以追溯到模棱兩可的情況。2018 年一名行人在四車道高速公路上推著自行車意外死亡就是一個(gè)例子,這種情況對(duì)于人類司機(jī)來(lái)說(shuō)很容易處理,但由于 ANN 處理不當(dāng)而導(dǎo)致碰撞和死亡。在許多小時(shí)的訓(xùn)練中沒(méi)有觀察到這種情況,并且沒(méi)有足夠的故障轉(zhuǎn)移——“如果你不知道該怎么做,就停下來(lái)!”——已實(shí)施。結(jié)果,該系統(tǒng)似乎做出了不合理的反應(yīng),因?yàn)樗狈θ祟愔悄艿幕净?/p>

更糟糕的是,人工智能中的這些盲點(diǎn)可能會(huì)被那些企圖傷害他人的人利用。例如,如果在訓(xùn)練過(guò)程中插入經(jīng)過(guò)處理的圖像,圖像分類可能會(huì)完全被誤導(dǎo)。盡管圖像中的微小變化人類無(wú)法察覺(jué),但相同的變化在 ANN 中可能會(huì)有不同的感知和解釋。在一個(gè)示例中,帶有不起眼貼紙的停車標(biāo)志被錯(cuò)誤地識(shí)別為其他標(biāo)志。如果這個(gè)經(jīng)過(guò)訓(xùn)練的模型用于實(shí)際的汽車,這可能會(huì)導(dǎo)致事故。另一方面,人類司機(jī)當(dāng)然仍然可以毫無(wú)問(wèn)題地識(shí)別停車標(biāo)志。

克服障礙和限制

這些以及其他障礙和限制引發(fā)了如何向前推進(jìn)并使 ANN 能夠進(jìn)一步填補(bǔ)做出最佳決策方面的差距的問(wèn)題。簡(jiǎn)單的答案是更多的培訓(xùn)。如果訓(xùn)練數(shù)據(jù)的可變性和質(zhì)量足夠好,它可以將錯(cuò)誤率降低到模型精度可以接受的程度。已經(jīng)表明,自動(dòng)駕駛汽車發(fā)生事故的頻率已經(jīng)低于人類駕駛員,但“異常事故”的可能性阻礙了更廣泛的接受。

另一種系統(tǒng)方法是明確編碼所需的背景知識(shí),并使其在 ML 過(guò)程中可用。例如,Cycorp 創(chuàng)建的知識(shí)庫(kù)已經(jīng)存在多年,包含數(shù)百萬(wàn)個(gè)概念和關(guān)系,包括前面提到的停車標(biāo)志的含義。目的是以機(jī)器可讀的形式手動(dòng)編碼人類知識(shí),以便 AI 可以依靠訓(xùn)練數(shù)據(jù)并得出結(jié)論并評(píng)估未知情況,至少在某種程度上,以類似于人類直覺(jué)的方式。

結(jié)論

能夠感知周圍環(huán)境并識(shí)別重要細(xì)節(jié)并做出最佳決策的技術(shù)不再是科幻小說(shuō)。強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的三個(gè)分支之一,它提供了可以處理高維變量和動(dòng)態(tài)環(huán)境的工具和框架。然而,這些解決方案也帶來(lái)了新的挑戰(zhàn),特別是需要廣泛的神經(jīng)網(wǎng)絡(luò)、全面的訓(xùn)練,以及通過(guò)抽象和推理來(lái)模仿人類的學(xué)習(xí)能力以適應(yīng)新的情況。盡管人工智能能夠取得令人矚目的成就,并且在許多現(xiàn)實(shí)世界的應(yīng)用中變得越來(lái)越不可或缺,但它距離實(shí)現(xiàn)人類水平的學(xué)習(xí)能力還有很長(zhǎng)的路要走。體驗(yàn)中間步驟或許比科幻小說(shuō)本身更有趣。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    40425

    瀏覽量

    302015
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8558

    瀏覽量

    137101
  • 強(qiáng)化學(xué)習(xí)

    關(guān)注

    4

    文章

    272

    瀏覽量

    11986
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    Momenta R6強(qiáng)化學(xué)習(xí)大模型上車東風(fēng)日產(chǎn)NX8

    3月20日,東風(fēng)日產(chǎn)NX8技術(shù)暨預(yù)售發(fā)布會(huì)在廣州舉辦,官宣Momenta R6強(qiáng)化學(xué)習(xí)大模型正式上車東風(fēng)日產(chǎn)新能源SUV——NX8。以全球頂級(jí)大廠合力,融合先鋒科技力量,打造更適配全家出行的智能SUV,開啟合資品牌智能化全新賽道。
    的頭像 發(fā)表于 03-24 09:08 ?589次閱讀

    Momenta強(qiáng)化學(xué)習(xí)大模型助力別克至境世家純電版正式上市

    3月17日,別克至境世家純電版正式上市,這是別克與Momenta強(qiáng)化學(xué)習(xí)大模型的又一次深度聯(lián)手。融合別克在MPV市場(chǎng)深耕27年的技術(shù)積淀,以更從容的智慧駕控,重新定義豪華與自在的出行體驗(yàn)。
    的頭像 發(fā)表于 03-18 15:48 ?163次閱讀

    Momenta R7強(qiáng)化學(xué)習(xí)世界模型即將推出

    3月16日,上汽大眾舉辦以“人本科技”為主題的ID. ERA技術(shù)發(fā)布會(huì),首次揭曉了ID. ERA 系列包括智能輔助駕駛在內(nèi)的諸多核心技術(shù)亮點(diǎn)。會(huì)上,Momenta CEO曹旭東正式宣布:Momenta R7強(qiáng)化學(xué)習(xí)世界模型即將推出,并將全球首發(fā)搭載于上汽大眾全新旗艦SUV ID. ERA 9X。
    的頭像 發(fā)表于 03-17 13:57 ?1054次閱讀

    自動(dòng)駕駛中常提的離線強(qiáng)化學(xué)習(xí)是什么?

    [首發(fā)于智駕最前沿微信公眾號(hào)]在之前談及自動(dòng)駕駛模型學(xué)習(xí)時(shí),詳細(xì)聊過(guò)強(qiáng)化學(xué)習(xí)的作用,由于強(qiáng)化學(xué)習(xí)能讓大模型通過(guò)交互學(xué)到策略,不需要固定的規(guī)則,從而給自動(dòng)駕駛的落地創(chuàng)造了更多可能。 強(qiáng)化學(xué)習(xí)
    的頭像 發(fā)表于 02-07 09:21 ?276次閱讀
    自動(dòng)駕駛中常提的離線<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>是什么?

    強(qiáng)化學(xué)習(xí)會(huì)讓自動(dòng)駕駛模型學(xué)習(xí)更快嗎?

    [首發(fā)于智駕最前沿微信公眾號(hào)]在談及自動(dòng)駕駛大模型訓(xùn)練時(shí),有的技術(shù)方案會(huì)采用模仿學(xué)習(xí),而有些會(huì)采用強(qiáng)化學(xué)習(xí)。同樣作為大模型的訓(xùn)練方式,強(qiáng)化學(xué)習(xí)有何不同?又有什么特點(diǎn)呢? 什么是強(qiáng)化學(xué)習(xí)
    的頭像 發(fā)表于 01-31 09:34 ?735次閱讀
    <b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>會(huì)讓自動(dòng)駕駛模型<b class='flag-5'>學(xué)習(xí)</b>更快嗎?

    多智能體強(qiáng)化學(xué)習(xí)(MARL)核心概念與算法概覽

    訓(xùn)練單個(gè)RL智能體的過(guò)程非常簡(jiǎn)單,那么我們現(xiàn)在換一個(gè)場(chǎng)景,同時(shí)訓(xùn)練五個(gè)智能體,而且每個(gè)都有自己的目標(biāo)、只能看到部分信息,還能互相幫忙。這就是多智能體強(qiáng)化學(xué)習(xí)
    的頭像 發(fā)表于 01-21 16:21 ?246次閱讀
    多智能體<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>(MARL)核心概念與算法概覽

    上汽別克至境E7首發(fā)搭載Momenta R6強(qiáng)化學(xué)習(xí)大模型

    別克至境家族迎來(lái)新成員——大五座智能SUV別克至境E7首發(fā)。新車將搭載Momenta R6強(qiáng)化學(xué)習(xí)大模型,帶來(lái)全場(chǎng)景的智能出行體驗(yàn)。
    的頭像 發(fā)表于 01-12 16:23 ?400次閱讀

    Cadence Conformal AI Studio三大核心引擎重塑IC驗(yàn)證

    Cadence 以 Conformal AI Studio 結(jié)合強(qiáng)化學(xué)習(xí)與分布式架構(gòu),全面升級(jí) LEC、低功耗驗(yàn)證和 ECO,在 AI 設(shè)計(jì)時(shí)代開創(chuàng)新范式。
    的頭像 發(fā)表于 01-05 10:12 ?574次閱讀

    今日看點(diǎn):智元推出真機(jī)強(qiáng)化學(xué)習(xí);美國(guó)軟件公司SAS退出中國(guó)市場(chǎng)

    智元推出真機(jī)強(qiáng)化學(xué)習(xí),機(jī)器人訓(xùn)練周期從“數(shù)周”減至“數(shù)十分鐘” ? 近日,智元機(jī)器人宣布其研發(fā)的真機(jī)強(qiáng)化學(xué)習(xí)技術(shù),已在與龍旗科技合作的驗(yàn)證產(chǎn)線中成功落地。據(jù)介紹,此次落地的真機(jī)強(qiáng)化學(xué)習(xí)方案,機(jī)器人
    發(fā)表于 11-05 09:44 ?1126次閱讀

    自動(dòng)駕駛中常提的“強(qiáng)化學(xué)習(xí)”是個(gè)啥?

    [首發(fā)于智駕最前沿微信公眾號(hào)]在談及自動(dòng)駕駛時(shí),有些方案中會(huì)提到“強(qiáng)化學(xué)習(xí)(Reinforcement Learning,簡(jiǎn)稱RL)”,強(qiáng)化學(xué)習(xí)是一類讓機(jī)器通過(guò)試錯(cuò)來(lái)學(xué)會(huì)做決策的技術(shù)。簡(jiǎn)單理解
    的頭像 發(fā)表于 10-23 09:00 ?767次閱讀
    自動(dòng)駕駛中常提的“<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>”是個(gè)啥?

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI的科學(xué)應(yīng)用

    和量子計(jì)算的兩項(xiàng)新興的技術(shù),將在生產(chǎn)假說(shuō)方面發(fā)揮重要作用,從而改變科學(xué)發(fā)現(xiàn)的范式。 生成式AI: 2、窮舉搜索 3、分析排錯(cuò)與組合優(yōu)化 分析排錯(cuò)是生成假說(shuō)的重要手段。強(qiáng)化學(xué)習(xí)也在優(yōu)化假說(shuō)組合、尋找科學(xué)發(fā)現(xiàn)
    發(fā)表于 09-17 11:45

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+化學(xué)或生物方法實(shí)現(xiàn)AI

    21世紀(jì)是生命科學(xué)的世紀(jì),生物技術(shù)的潛力將比電子技術(shù)更深遠(yuǎn)----- 里卡多-戈蒂爾 半導(dǎo)體實(shí)現(xiàn)AI應(yīng)該沒(méi)什么疑問(wèn)了吧?化學(xué)、生物怎么實(shí)現(xiàn)AI呢? 生物大腦是一個(gè)由無(wú)數(shù)神經(jīng)元通過(guò)突觸連接而成的復(fù)雜
    發(fā)表于 09-15 17:29

    NVIDIA Isaac Lab可用環(huán)境與強(qiáng)化學(xué)習(xí)腳本使用指南

    Lab 是一個(gè)適用于機(jī)器人學(xué)習(xí)的開源模塊化框架,其模塊化高保真仿真適用于各種訓(xùn)練環(huán)境,Isaac Lab 同時(shí)支持模仿學(xué)習(xí)(模仿人類)和強(qiáng)化學(xué)習(xí)(在嘗試和錯(cuò)誤中進(jìn)行學(xué)習(xí)),為所有機(jī)器
    的頭像 發(fā)表于 07-14 15:29 ?2463次閱讀
    NVIDIA Isaac Lab可用環(huán)境與<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>腳本使用指南

    18個(gè)常用的強(qiáng)化學(xué)習(xí)算法整理:從基礎(chǔ)方法到高級(jí)模型的理論技術(shù)與代碼實(shí)現(xiàn)

    本來(lái)轉(zhuǎn)自:DeepHubIMBA本文系統(tǒng)講解從基本強(qiáng)化學(xué)習(xí)方法到高級(jí)技術(shù)(如PPO、A3C、PlaNet等)的實(shí)現(xiàn)原理與編碼過(guò)程,旨在通過(guò)理論結(jié)合代碼的方式,構(gòu)建對(duì)強(qiáng)化學(xué)習(xí)算法的全面理解。為確保內(nèi)容
    的頭像 發(fā)表于 04-23 13:22 ?1686次閱讀
    18個(gè)常用的<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>算法整理:從基礎(chǔ)方法到高級(jí)模型的理論技術(shù)與代碼實(shí)現(xiàn)

    【「零基礎(chǔ)開發(fā)AI Agent」閱讀體驗(yàn)】+初品Agent

    。 Agent在發(fā)展過(guò)程中,經(jīng)歷了5個(gè)階段,即: 1)符號(hào)Agent階段 2)反應(yīng)式Agent階段 3)基于強(qiáng)化學(xué)習(xí)的Agent階段 4)帶遷移學(xué)習(xí)和元學(xué)習(xí)的Agent階段 5)基于大模型的Agent階段 關(guān)于Agent的
    發(fā)表于 04-22 11:51