成人AV激情四射性吧,日韩A级视频免费看特级黄色,欧美日韩在线成人

[首發(fā)于智駕最前沿微信公眾號]今天繼續(xù)來回答小伙伴的提問，最近有一位小伙伴提問，VLA模型中的理解是不是也基于一些預置的規(guī)則指導行動的？其實這個問題非常值得討論，今天智駕最前沿就帶大家詳細聊一聊。

視覺-語言-動作（VLA）模型是什么？

在講今天的內(nèi)容之前，要先把VLA講清楚。視覺-語言-動作模型（Vision-Language-Ac tion Model，簡稱VLA）是近年來機器人和人工智能領(lǐng)域興起的一類模型。它的目標是讓一臺機器“看懂世界”、“理解任務(wù)指令”，然后自己去執(zhí)行動作。

圖片源自：網(wǎng)絡(luò)

舉個例子，一臺機器人面對一個裝滿玩具的桌子，你用語言告訴它“把紅色球放進盒子里”，它就需要先“看見”桌子上的東西，分辨出哪個是紅色球和盒子；然后它要理解你說的這句話的意思；最后它得控制自己的機械臂抓起球并放到指定位置。VLA模型的意義就在于把這三個任務(wù)整合起來，而不是像傳統(tǒng)機械那樣把每個步驟拆開做。

一個典型的VLA模型會包括兩個核心部分，一個是視覺-語言編碼器（Vision-Language Encoder），負責把圖像和語言輸入映射成機器內(nèi)部可以處理的表示；另一個是動作解碼器（Action Decoder），負責根據(jù)這種內(nèi)部表示生成具體執(zhí)行動作的命令。這樣的架構(gòu)可以在一次前向計算中把視覺信息和語言指令結(jié)合起來，直接輸出機械動作或控制信號。

之所以會提出VLA模型，是因為傳統(tǒng)機器人系統(tǒng)會將視覺感知、語言理解和動作規(guī)劃拆成不同模塊，這種模塊化系統(tǒng)在復雜環(huán)境下很難協(xié)同，而且對場景變化的適應(yīng)性較差。VLA模型的端到端方法試圖讓感知、理解和行動融成一個整體，從而具備更自然、更接近人類操作的能力。

VLA模型里所謂的“理解”到底是什么？

很多人聽到AI具備“理解能力”，就會自然而然聯(lián)想到傳統(tǒng)程序里如“如果看到紅色球，就執(zhí)行抓取動作”這樣的規(guī)則判斷。這種規(guī)則式的思考可以讓行為動作有據(jù)可循，但VLA模型的理解并不是這種有明確規(guī)則的程序邏輯。恰恰相反，它沒有預定義的、用編程手寫的規(guī)則來指導每一次動作如何執(zhí)行。它的理解來自于大量示例學習出來的關(guān)聯(lián)模式。

換句話說，VLA模型的“理解”不是提前寫好的指令集，而是一種端到端學習得到的內(nèi)部能力。在訓練階段，模型會被喂入大規(guī)模的訓練數(shù)據(jù)，這些數(shù)據(jù)是由很多真實或模擬場景組成的三元組，即視覺輸入+自然語言指令+與之對應(yīng)的動作軌跡。如在數(shù)據(jù)里可能有這樣的記錄，“圖像是桌面場景，語言是把杯子放進箱子，動作序列是機械手臂移動并完成抓取動作”。模型通過反復“看見+讀懂+對比正確動作”這樣的樣本，逐漸學習出視覺特征、語言表征和動作輸出之間的統(tǒng)計關(guān)系。

這種學習是統(tǒng)計意義上的，而不是邏輯規(guī)則式的。模型并沒有一個明確的代碼告訴它“紅色就是要抓取”，它只是從數(shù)據(jù)里看到在大量場景中，當出現(xiàn)“紅色球”和相關(guān)指令時，執(zhí)行某些動作是合適的。

從這個角度看，“理解”在VLA中更像是一種統(tǒng)計上的推斷能力，模型不是在判斷一個明確的規(guī)則是否滿足，而是在根據(jù)它已經(jīng)學到的多模態(tài)關(guān)聯(lián)進行預測。理解語言成分時，就類似人類語言模型的方式；理解視覺信息時，責利用視覺編碼器提取場景特征；動作的輸出則是在學習中形成的概率式策略。這種能力的組成是多種網(wǎng)絡(luò)層結(jié)構(gòu)和訓練方法協(xié)同的結(jié)果，而不是單個模塊的規(guī)則引擎決定的。

VLA模型內(nèi)部是怎么做到“理解”的?

為了更清楚地解釋VLA模型內(nèi)部“理解”是怎么發(fā)生的，可以把VLA模型拆成幾個部分來簡單理解。

在視覺模塊，計算機視覺網(wǎng)絡(luò)會把攝像頭捕獲的畫面轉(zhuǎn)換成一組高維特征，這些特征描述了場景里物體的位置、顏色、形狀等信息，而且這種轉(zhuǎn)換過程不是通過預定義規(guī)則實現(xiàn)的，而是通過視覺編碼器（比如Transformer或深度學習某些架構(gòu)）學習得到的。這些視覺編碼器能夠把像素轉(zhuǎn)換成更抽象、對任務(wù)有意義的表示，這是一種由數(shù)據(jù)學習出來的視覺理解能力。

語言模塊和現(xiàn)在流行的大語言模型類似，它會把自然語言指令轉(zhuǎn)換成機器內(nèi)部可以處理的語義向量。語言模塊并不把指令拆成明確步驟，而是把語言映射成一種語義空間表示，在這個表示里任務(wù)目標、動作意圖等信息可以被進一步處理。這樣的語言編碼能力本身也是從大量文本和指令數(shù)據(jù)中學習出來的。

在視覺和語言的編碼結(jié)果都轉(zhuǎn)化成內(nèi)部表示之后，模型內(nèi)部有一個融合層或者共同的潛在空間表示，它把兩種不同模態(tài)的表示合并起來，使視覺信息和語言目標能夠結(jié)合成一個綜合的表示。在這一層，模型學習到視覺場景中的哪些對象和語義指令相關(guān)聯(lián)。就拿前文中機器人拿紅球的例子來簡單理解下，如果語言里提到了“紅色球”，視覺編碼器的特征里有一種與紅色物體相關(guān)的高維向量，模型就會將它們關(guān)聯(lián)起來。

融合后的內(nèi)部表示會傳到動作解碼器，這一步負責將綜合表達轉(zhuǎn)化成具體的動作命令。動作解碼器的輸出可以是機器人關(guān)節(jié)的控制信號、路徑規(guī)劃參數(shù)等。在訓練時模型已經(jīng)見過大量這樣的輸入—輸出對，所以它能學會在給定視覺和語言條件下如何輸出正確動作。這樣的輸出并不是由預設(shè)規(guī)則決定的，而是由模型內(nèi)部網(wǎng)絡(luò)結(jié)構(gòu)和權(quán)重計算得到的最優(yōu)動作預測。

上面說的整個過程看上去像一個黑箱，輸入是一張圖像和一句話，輸出是一組動作命令，中間有大量的矩陣乘法和非線性變換在發(fā)生，而這些都是統(tǒng)計學習得到的映射關(guān)系。

最后的話

回到最初的問題，VLA模型里的理解是不是基于一些預置的規(guī)則來指導行動？

答案是：不是。VLA模型內(nèi)部不依賴傳統(tǒng)意義上的預先寫好的規(guī)則。它的理解和動作生成能力來自于對大量視覺—語言—動作示例的學習過程。在學習結(jié)束后，模型能在看到新的圖像和語言指令時，通過內(nèi)部的潛在空間表示和映射關(guān)系生成合理的動作輸出，這種能力更像是一種通過數(shù)據(jù)訓練出來的模式匹配和策略生成能力，而不是靠寫好的規(guī)則集合。

這樣的設(shè)計讓VLA模型具備了更強的泛化能力和適應(yīng)性，但同時也意味著它不像規(guī)則驅(qū)動系統(tǒng)那樣容易解釋或明確驗證。這種“學習出來的理解”是一種統(tǒng)計形式的能力，這類模型有望在更多復雜任務(wù)中表現(xiàn)得越來越像我們所理解的“智能體”。

審核編輯黃宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴