人工智能作為推動(dòng)當(dāng)下科技創(chuàng)新和生產(chǎn)力整體提升的重要戰(zhàn)略性技術(shù),受到世界范圍內(nèi)的普遍關(guān)注,尤其是隨著云計(jì)算和大數(shù)據(jù)的迅速興起。人工智能迎來了新的發(fā)展契機(jī),而算法則是在幕後推動(dòng)人工智能實(shí)現(xiàn)的“核心引擎”,過去六十多年來以大腦模擬、神經(jīng)處理再以神經(jīng)網(wǎng)絡(luò)為代表的機(jī)器學(xué)習(xí),每一次突破都推動(dòng)著人工智能技術(shù)的迭代演進(jìn)。
當(dāng)前,人工智能已經(jīng)在物聯(lián)網(wǎng)、智能家居、機(jī)器人等多領(lǐng)域中落地應(yīng)用,與實(shí)體經(jīng)濟(jì)深度融合,迎來了發(fā)展的大好時(shí)期。豐富的應(yīng)用場(chǎng)景也對(duì)算法提出了新需求。自動(dòng)機(jī)器學(xué)習(xí)、聯(lián)邦遷移學(xué)習(xí)、可解釋深度學(xué)習(xí)等,一批算法促進(jìn)新產(chǎn)品的發(fā)展,加快社會(huì)向智能化不斷躍升。
值此之際,8月30日,由世界人工智能大會(huì)組委會(huì)主辦,上海交通大學(xué)、第四范式承辦的“2019世界人工智能大會(huì)國際前沿算法峰會(huì)”在上海世博展覽館舉行,作為此次世界人工智能大會(huì)十大主題峰會(huì)之一,國際算法峰會(huì)聚集超過1000位人工智能研究者和產(chǎn)業(yè)界實(shí)踐者,共同向底層技術(shù)發(fā)問,求解能夠推動(dòng)產(chǎn)業(yè)變革的未來算法。
會(huì)上,美國卡內(nèi)基梅隆大學(xué)CMU計(jì)算機(jī)學(xué)院院長(zhǎng)、機(jī)器學(xué)習(xí)教父、乂學(xué)教育-松鼠AI首席AI科學(xué)家Tom Mitchell教授以“Learning from Unlabeled Data”為題,做了精彩的主題報(bào)告。
機(jī)器學(xué)習(xí)教父、乂學(xué)教育-松鼠AI首席人工智能科學(xué)家Tom Mitchell發(fā)表演講
Tom Mitchell長(zhǎng)期從事機(jī)器學(xué)習(xí)、認(rèn)知神經(jīng)學(xué)科等研究,曾編寫Machine Learning (《機(jī)器學(xué)習(xí)》)一書,這是人工智能領(lǐng)域最經(jīng)典的教材之一,他也因此被稱為機(jī)器學(xué)習(xí)之父。近年,Tom Mitchell開始深度關(guān)注AI對(duì)教育的應(yīng)用,2018年11月起任中國AI教育獨(dú)角獸公司乂學(xué)教育-松鼠AI首席AI科學(xué)家,作為松鼠AI人工智能領(lǐng)域第一負(fù)責(zé)人,Mitchell 帶領(lǐng)團(tuán)隊(duì)十多位AI科學(xué)家和幾百位AI應(yīng)用工程師以及技術(shù)團(tuán)隊(duì),進(jìn)行人工智能在智適應(yīng)教育領(lǐng)域的基礎(chǔ)研究和相關(guān)產(chǎn)品的研發(fā)應(yīng)用等。
在此次大會(huì)上,Tom Mitchell教授指出,在我們的世界,非標(biāo)記的數(shù)據(jù)要比已標(biāo)記的數(shù)據(jù)龐大,機(jī)器學(xué)習(xí)非常重要的一點(diǎn)就是學(xué)習(xí)如何將非標(biāo)記數(shù)據(jù)進(jìn)行分類,來改善機(jī)器學(xué)習(xí)的能力。實(shí)現(xiàn)這一目標(biāo)就要求學(xué)習(xí)程序必須要具備某種架構(gòu),能弄清楚不同的函數(shù)及不同的限制關(guān)系。如果能對(duì)海量未經(jīng)標(biāo)注的數(shù)據(jù)進(jìn)行分類,不管對(duì)機(jī)器學(xué)習(xí)還是自我反思預(yù)測(cè)錯(cuò)誤都將非常有意義。
當(dāng)前,以機(jī)器學(xué)習(xí)為核心的人工智能技術(shù)正在逐步推動(dòng)各行各業(yè)產(chǎn)業(yè)升級(jí),機(jī)器學(xué)習(xí)作為AI的一個(gè)重要分支,為人工智能提供了新的發(fā)展機(jī)遇。盡管如此、和人類學(xué)習(xí)的方式相比,機(jī)器學(xué)習(xí)的方法依然非常狹窄。
Tom Mitchell教授著重介紹了一種被稱之為永無止境的語言學(xué)習(xí)項(xiàng)目模型——NELL(Never-Ending Language Learner)框架。NELL像人類一樣,學(xué)習(xí)很多類型的知識(shí),已經(jīng)具有自我監(jiān)督的經(jīng)驗(yàn),能利用學(xué)到的知識(shí)改善后續(xù)學(xué)習(xí),并通過充分的自我反思來避免學(xué)習(xí)中的平臺(tái)期。
“NELL理念非常簡(jiǎn)單,相當(dāng)于有一位程序員每天24小時(shí)不間斷工作,每天程序都會(huì)有兩個(gè)任務(wù):第一是閱讀提取來自網(wǎng)絡(luò)的更多信息,并刪除舊的錯(cuò)誤信息,以填充不斷增長(zhǎng)的知識(shí)庫,其中包含對(duì)每個(gè)信息的信心和來源,比如說水是一種飲料,或者比爾蓋茨創(chuàng)立的微軟;第二,自我進(jìn)化,學(xué)習(xí)如何比昨天做得更好,如果任務(wù)跟昨天一樣,可以簡(jiǎn)單挖掘更多準(zhǔn)確的數(shù)據(jù)。”
NELL在初始階段會(huì)有少量分類,如飲料、人、植物、城市等是本體,同時(shí)加入關(guān)系,比如說人創(chuàng)建了公司,或者飲料是食物產(chǎn)生。除此之外還會(huì)輸入樣本,大部分情況下輸入網(wǎng)端的是末標(biāo)注的數(shù)據(jù),未標(biāo)注數(shù)據(jù)的信息分類問題也是目前大部分機(jī)器學(xué)習(xí)過程中的問題所在。
Tom Mitchell教授稱,其2010年開始NELL項(xiàng)目,每天24小時(shí)運(yùn)作,直到去年九月,其擁有1.2億三元數(shù)據(jù)知識(shí)庫,并且每一年的邏輯推理能力、學(xué)習(xí)能力都在提升。而且基于十幾個(gè)沒有標(biāo)注的原始樣本數(shù)據(jù),NELL可以擴(kuò)展已知的關(guān)系本體,并能參加一些新型的關(guān)系。通過不斷的累計(jì),目前每個(gè)知識(shí)庫中擁有數(shù)億個(gè)三元數(shù)據(jù)庫。比如說楓葉國是加拿大,多倫多是屬于加拿大的一座城市等,像這樣的例子均是程序從網(wǎng)絡(luò)當(dāng)中學(xué)習(xí)攫取的數(shù)據(jù)。
在教育領(lǐng)域也是如此,現(xiàn)在已經(jīng)有幾百萬人在使用人工智能教育系統(tǒng),積累了許多數(shù)據(jù),機(jī)器學(xué)習(xí)可以利用這些數(shù)據(jù)進(jìn)一步發(fā)展。
“如果機(jī)器學(xué)習(xí)應(yīng)用在智適應(yīng)教育當(dāng)中,應(yīng)該在每一領(lǐng)域都具備一種功能,去了解學(xué)生現(xiàn)在的學(xué)習(xí)狀態(tài),機(jī)器學(xué)習(xí)就是能夠發(fā)現(xiàn)這個(gè)功能是什么,我們可以用機(jī)器學(xué)習(xí)來不斷的修改它,這是機(jī)器學(xué)習(xí)在其中的核心作用?!盡itchell談到。
新的機(jī)器學(xué)習(xí)和人工智能的工具出現(xiàn)后,或許一個(gè)機(jī)器就可以收集高達(dá)十萬名學(xué)生的答卷,就可以去分析這些答卷當(dāng)中學(xué)生出錯(cuò)的規(guī)律,在過去,一位老師窮其一生都不可能接觸多達(dá)這么多學(xué)生。
Tom Mitchell認(rèn)為,目前正在進(jìn)入AI對(duì)如何教育孩子產(chǎn)生重大影響的十年。
因?yàn)锳I的進(jìn)步,研究人員和公司正在不斷更迭新一代系統(tǒng)。例如松鼠AI智適應(yīng)學(xué)習(xí)系統(tǒng)運(yùn)用進(jìn)化算法、深度神經(jīng)網(wǎng)絡(luò)、貝葉斯網(wǎng)絡(luò)、遷移學(xué)習(xí)、圖論、及其他機(jī)器學(xué)習(xí)等多種AI技術(shù),通過對(duì)學(xué)生學(xué)習(xí)過程中多維數(shù)據(jù)的全方位評(píng)估,給與最高效的學(xué)習(xí)內(nèi)容、學(xué)習(xí)路徑、學(xué)習(xí)節(jié)奏的把握以及深度的效果評(píng)估,最大化學(xué)習(xí)效率的提升,進(jìn)而實(shí)現(xiàn)在模擬優(yōu)秀特級(jí)教師的基礎(chǔ)之上,達(dá)到超越真人教學(xué)的目的。
回到NELL,其可以用擴(kuò)展kb、OntExt考慮NELL當(dāng)前本體中的每對(duì)類別,在三個(gè)步驟中搜索類別對(duì)成員之間經(jīng)常討論的關(guān)系的證據(jù)、提取兩個(gè)類別的已知實(shí)例的句子、從提取的句子中通過上下文共生矩陣構(gòu)建上下文,然后將相關(guān)的上下文聚類在一起。 每個(gè)集群對(duì)應(yīng)于兩個(gè)輸入類別實(shí)例之間可能的新關(guān)系。
如果嘗試去訓(xùn)練這兩個(gè)函數(shù),即通常所說的協(xié)同訓(xùn)練,只要這些函數(shù)有足量多的標(biāo)注數(shù)據(jù),誤差就會(huì)接近于零。并且最后能使用這些未標(biāo)注的數(shù)據(jù)學(xué)習(xí)這些函數(shù)。
比如,松鼠AI系統(tǒng)成果之中的“非關(guān)聯(lián)性知識(shí)點(diǎn)關(guān)聯(lián)概率”及“用錯(cuò)因重構(gòu)知識(shí)地圖”。
在將學(xué)科中的知識(shí)點(diǎn)進(jìn)行超納米級(jí)拆分的基礎(chǔ)上,非關(guān)聯(lián)性知識(shí)點(diǎn)關(guān)聯(lián)概率基于知識(shí)地圖理論中不僅對(duì)知識(shí)點(diǎn)建立關(guān)聯(lián)性,追根溯源還對(duì)非關(guān)聯(lián)性的知識(shí)點(diǎn)建立了關(guān)聯(lián)概率,讓測(cè)試效率和學(xué)習(xí)效率可以分別比同類產(chǎn)品的知識(shí)地圖理論模型提高3-10倍。從而提高測(cè)試效率和學(xué)習(xí)效率,更加精準(zhǔn)的檢測(cè)到孩子的知識(shí)薄弱點(diǎn)。
用錯(cuò)因重構(gòu)知識(shí)地圖就是將每一道題標(biāo)注不同種的錯(cuò)因。進(jìn)一步重構(gòu)知識(shí)地圖。更加精準(zhǔn)定位學(xué)生錯(cuò)因,知識(shí)薄弱點(diǎn)、精準(zhǔn)的給出最適合每一個(gè)孩子的學(xué)習(xí)路徑、從而提高學(xué)習(xí)效率。
“NELL理念一個(gè)非常重要的特點(diǎn)是能夠不斷的學(xué)習(xí)、不斷的改善,盡管它大部分使用的是網(wǎng)絡(luò)上未經(jīng)標(biāo)注的數(shù)據(jù),但用未標(biāo)記的數(shù)據(jù)來訓(xùn)練機(jī)器學(xué)習(xí)的邏輯,對(duì)我以及對(duì)團(tuán)隊(duì)其他成員來說都非常驚艷,希望更多的人能參與進(jìn)來,不斷優(yōu)化?!?/p>
-
物聯(lián)網(wǎng)
+關(guān)注
關(guān)注
2947文章
47874瀏覽量
415733 -
人工智能
+關(guān)注
關(guān)注
1818文章
50129瀏覽量
265700 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8556瀏覽量
137036
發(fā)布評(píng)論請(qǐng)先 登錄
機(jī)器學(xué)習(xí)特征工程:分類變量的數(shù)值化處理方法
人工智能與機(jī)器學(xué)習(xí)在這些行業(yè)的深度應(yīng)用
機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中需避免的 7 個(gè)常見錯(cuò)誤與局限性
基于ETAS嵌入式AI工具鏈將機(jī)器學(xué)習(xí)模型部署到量產(chǎn)ECU
穿孔機(jī)頂頭檢測(cè)儀 機(jī)器視覺深度學(xué)習(xí)
量子機(jī)器學(xué)習(xí)入門:三種數(shù)據(jù)編碼方法對(duì)比與應(yīng)用
如何在機(jī)器視覺中部署深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)
如何解決開發(fā)機(jī)器學(xué)習(xí)程序時(shí)Keil項(xiàng)目只能在調(diào)試模式下運(yùn)行,但無法正常執(zhí)行的問題?
AI 驅(qū)動(dòng)三維逆向:點(diǎn)云降噪算法工具與機(jī)器學(xué)習(xí)建模能力的前沿應(yīng)用
超小型Neuton機(jī)器學(xué)習(xí)模型, 在任何系統(tǒng)級(jí)芯片(SoC)上解鎖邊緣人工智能應(yīng)用.
FPGA在機(jī)器學(xué)習(xí)中的具體應(yīng)用
機(jī)器學(xué)習(xí)異常檢測(cè)實(shí)戰(zhàn):用Isolation Forest快速構(gòu)建無標(biāo)簽異常檢測(cè)系統(tǒng)
使用MATLAB進(jìn)行無監(jiān)督學(xué)習(xí)
機(jī)器學(xué)習(xí)教父:從未標(biāo)記數(shù)據(jù)中促進(jìn)機(jī)器學(xué)習(xí)能力
評(píng)論