如果說人工智能是未來的“電力”,那么數(shù)據(jù)就是發(fā)電的“燃料”。在面向未來技術(shù)升級的過程中,那些擁有大量數(shù)據(jù)的組織有機會最早利用這些“燃料”來發(fā)“電”。這其中,世界知識產(chǎn)權(quán)組織(WIPO)在使用人工智能技術(shù)方面的實踐可以作為有價值的案例之一。
WIPO是聯(lián)合國領(lǐng)導的發(fā)展國際知識產(chǎn)權(quán)制度的專門機構(gòu),是由191個成員國組成的關(guān)于知識產(chǎn)權(quán)服務(wù)、政策、合作與信息的全球論壇。WIPO的專利合作條約(PCT)是一個國際專利體系,方便申請人在國際上尋求對其發(fā)明的國際專利保護,幫助專利局出專利授權(quán)決定。通過PCT提交國際專利申請,申請人可以同時在全世界大多數(shù)國家尋求對其發(fā)明的保護。WIPO的特性決定了其在專利領(lǐng)域擁有海量的專業(yè)數(shù)據(jù)。隨著全球知識產(chǎn)權(quán)申請數(shù)量不斷增加,相關(guān)數(shù)據(jù)的數(shù)量增長使得不使用AI工具采集和分析數(shù)據(jù)變得幾乎不可能。
截至2017年2月,PCT已經(jīng)授權(quán)了300萬件國際專利。由于在WIPO的專利申請數(shù)據(jù)庫中,大約只有三分之一的文件為英文,因此在國際專利保護領(lǐng)域,涉及到大量專利申請文件的翻譯工作。
對于像WIPO這樣的非技術(shù)性組織來說,如何進一步運用自身積累的大量數(shù)據(jù)資源?如何使用新技術(shù)減少巨大、枯燥并且重復性人工勞動的工作量?有沒有可能通過技術(shù)手段,幫助工作人員提高專利、商標等知識產(chǎn)權(quán)方面的審查工作?在這一波人工智能的熱潮來臨之前,WIPO早在2010年就已經(jīng)開始進行人工智能技術(shù)在專利領(lǐng)域方面的應用探索。
WIPO在知識產(chǎn)權(quán)領(lǐng)域開發(fā)和應用人工智能方面一直處于領(lǐng)先地位。2010年,WIPO全球數(shù)據(jù)庫部門的Christophe MAZENC招聘到了人工智能應用開發(fā)的第一位員工。兩人開始了WIPO機器翻譯工具的開發(fā)工作,兩年以后,WIPO有了第一個版本的機器翻譯工具。到今天,這個團隊發(fā)展成為先進技術(shù)應用中心(ATAC),第一位AI開發(fā)者Bruno Pouliquen也已經(jīng)成為部門負責人,管理著5人的團隊。
ATAC作為WIPO內(nèi)部的AI技術(shù)開發(fā)部門,負責自下而上的規(guī)劃WIPO的AI應用開發(fā)路線,工作之一是掃描各部門所擁有的數(shù)據(jù),分析在這些數(shù)據(jù)的基礎(chǔ)上可以開發(fā)出怎樣的應用;另一方面,ATAC與WIPO各成員國的知識產(chǎn)權(quán)局保持溝通,交換數(shù)據(jù),跟蹤成員國知識產(chǎn)權(quán)局的人工智能應用進展。
WIPO采用內(nèi)部開發(fā)而非外包的方式,自己開發(fā)了基于神經(jīng)網(wǎng)絡(luò)的機器學習翻譯工具WIPO Translate。 與早期的工具相比,WIPO Translate對專利文件的翻譯更加自然,尤其是像英文和中文這樣差別很大的語言。與市面上通用的翻譯工具使用更廣泛的文檔進行訓練不同,WIPO Translate完全依靠知識產(chǎn)權(quán)相關(guān)文檔進行訓練。
因此WIPO的翻譯工具在全球?qū)@g領(lǐng)域處于領(lǐng)先地位。在WIPO內(nèi)部的專利數(shù)據(jù)中用中文、日文和韓文這三種語言撰寫的專利占全世界專利申請量的一半以上。通過翻譯軟件幫助工作人員理解專利的內(nèi)容,可以減少WIPO對外包翻譯公司的依賴,同時提高內(nèi)部職員的工作效率。為了評估WIPO機器翻譯工具的翻譯質(zhì)量,研究人員使用了一個名為 Bleu 的程序,由 AI 專家來評估機器翻譯系統(tǒng)。
結(jié)果表明,在專利文獻翻譯領(lǐng)域,WIPO的表現(xiàn)優(yōu)于我們常用的 Google 翻譯。
2010年開始做機器翻譯項目的只是兩個人的微型團隊。發(fā)展到今天也僅是五個人的小團隊。WIPO總干事弗朗西斯?高銳(Francis Gurry)認為,一方面專利可以幫助發(fā)明人保護和促進他們的發(fā)明,另一方面還披露了其他人可能用來開發(fā)新創(chuàng)新的重要細節(jié)。WIPO Translate工具有助于在全球傳播這種知識。
微型技術(shù)團隊的細分領(lǐng)域探索
任何的機器學習技術(shù),都需要經(jīng)過合適的訓練數(shù)據(jù)集的“訓練”才能產(chǎn)生作用。因此,ATAC需要找到足夠的訓練數(shù)據(jù),才能在此基礎(chǔ)上開發(fā)。這個小型開發(fā)團隊決定在擁有高質(zhì)量數(shù)據(jù)、最新數(shù)據(jù)的領(lǐng)域做開發(fā)。
ATAC是如何為算法找到大量訓練數(shù)據(jù)集的?與谷歌翻譯所不同的是,WIPO沒有海量的互聯(lián)網(wǎng)數(shù)據(jù)做“燃料”。但Bruno認為,一個高質(zhì)量數(shù)據(jù)訓練集比一個更大的數(shù)據(jù)訓練集更好。而且,使用最新的數(shù)據(jù)比更多的數(shù)據(jù)更重要。
在專利領(lǐng)域,使用最新的術(shù)語能夠訓練出更好的模型。ATAC使用高質(zhì)量數(shù)據(jù)的辦法是這樣的,他們找出曾經(jīng)在美國和中國都申請過的中文專利,從中國專利局和美國專利局獲得同一個專利文件,用這些經(jīng)過官方認證的翻譯文件來訓練機器學習算法。在中英翻譯方面,ATAC將中國國家知識產(chǎn)權(quán)局提供的共計 6000 萬句中文,與由專業(yè)人員翻譯并提交給美國專利局的英文版進行對比“學習”。
另一方面,ATAC使用開源技術(shù)進行開發(fā)。Bruno認為對于突破性技術(shù),通常開源技術(shù)會更先進。在機器翻譯領(lǐng)域,有非常好的開源圖書館,WIPO的技術(shù)開發(fā)人員基于開源的資源的基礎(chǔ)上,結(jié)合對業(yè)務(wù)的理解,開發(fā)出對自己的業(yè)務(wù)有實際幫助的AI工具。
內(nèi)部開發(fā)的優(yōu)勢是可以從內(nèi)部的角度,對業(yè)務(wù)熟悉,項目開發(fā)人員能夠更好的將業(yè)務(wù)需求和產(chǎn)品開發(fā)精準的結(jié)合起來,在技術(shù)開發(fā)團隊里既有技術(shù)人員也有業(yè)務(wù)人員,由于工程師本身知道業(yè)務(wù)是怎么運作的,可以將自己當做工具的“用戶”,因此不需要翻譯和解釋別人的需求。
利用開源軟件的另一方面的好處是,項目完成后,WIPO完全擁有這項技術(shù),并且可以將這項技術(shù)與其他組織機構(gòu)分享。目前,WIPO已經(jīng)授權(quán)韓國特許廳(KIPO)使用,為對方提供了工具并且?guī)椭鷮Ψ竭M行知識轉(zhuǎn)移。除了聯(lián)合國以外,國際電信聯(lián)盟(ITU)、國際貨幣基金組織(IMF)、國際原子能機構(gòu)(IAEA)等聯(lián)合國專門機構(gòu)都對WIPO的機器翻譯工具表示出興趣。
使用開源技術(shù)的另一個原因是,WIPO掌握的專利信息不便于與第三方分享,從知識產(chǎn)權(quán)保護的角度,開源技術(shù)可以避免相關(guān)的知識產(chǎn)權(quán)泄露。
雖然是內(nèi)部開發(fā),但Bruno的團隊還會借助“外腦”使自己能夠掌握最新技術(shù)。ATAC與學術(shù)界有很多合作,與學術(shù)界建立了良好的溝通網(wǎng)絡(luò),以此了解和掌握相關(guān)領(lǐng)域最前沿的技術(shù)。通過閱讀科學期刊上的最新論文、參加國際學術(shù)界會議等方式來保持對自信技術(shù)的追蹤。因為通常學術(shù)界的技術(shù)開發(fā)都是開源的。ATAC通過對學術(shù)界最新研究的跟蹤與學習來保持技術(shù)的領(lǐng)先性。
高銳稱,WIPO目前正在尋找知識產(chǎn)權(quán)領(lǐng)域中其他可以應用機器學習技術(shù)的業(yè)務(wù)場景。衡量的標準包括:是否能夠解決當前或者未來WIPO和成員國基于知識產(chǎn)權(quán)的大數(shù)據(jù)(如專利信息)的業(yè)務(wù)需求;可用訓練數(shù)據(jù)的數(shù)量和質(zhì)量等。高銳認為,重要的不是人工智能本身,而是知識產(chǎn)權(quán)(IP)管理部門和公眾如何通過充分利用人工智能來提高知識產(chǎn)權(quán)服務(wù)質(zhì)量并創(chuàng)造新知識。在將AI技術(shù)應用到知識產(chǎn)權(quán)管理領(lǐng)域中,WIPO與各成員國及各國知識產(chǎn)權(quán)局的協(xié)調(diào)合作非常重要。
2018年5月,WIPO在與其成員國在關(guān)于AI應用的咨詢會議上確定了以下領(lǐng)域作為AI應用的最有希望和優(yōu)先的領(lǐng)域:(1)機器翻譯和其他自然語言處理技術(shù);(2)專利自動分類和商標申請商品/服務(wù)自動分類;(3)商標和專利審查及形式審查;(4)幫助臺服務(wù)(自動回復客戶端);(5)專利現(xiàn)有技術(shù)檢索和商標圖形要素檢索。
目前,除了機器翻譯應用,WIPO與學術(shù)界進一步的技術(shù)合作進行專利自動分類的應用開發(fā)。在WIPO工作人員接觸的專利里,有一些是沒有根據(jù)國際專利分類(IPC)來分類的,如果采用機器學習的方法自動通過文檔本身的內(nèi)容來判斷出專利應該被分到哪個類別里將極大的提高分類效率。除了WIPO,在世界各地的知識產(chǎn)權(quán)局,也在商標圖形檢索、商標審查、專利現(xiàn)有技術(shù)檢索與分析、服務(wù)聊天機器人等人工智能領(lǐng)域有許多AI技術(shù)的嘗試性應用。
對其他組織轉(zhuǎn)型的建議
什么樣的組織有條件進行人工智能方面的嘗試?Bruno認為,組織需要滿足兩方面條件,(1)有足夠的應用數(shù)據(jù),(2)有AI應用場景。WIPO對于應用AI的建議是自下而上的開發(fā),審視組織內(nèi)部擁有什么樣的數(shù)據(jù),在這個基礎(chǔ)上分析可以開發(fā)哪些應用。正所謂巧婦難為無米之炊,在Bruno看來,AI是一個機器學習的過程,需要很多數(shù)據(jù)來訓練神經(jīng)網(wǎng)絡(luò)。分析組織有什么樣的數(shù)據(jù),在數(shù)據(jù)的基礎(chǔ)上分析可以開發(fā)什么樣的應用是更符合邏輯的。
如果沒有適當?shù)摹芭嘤枴睌?shù)據(jù),則不是每一項業(yè)務(wù)需求都能通過機器學習實現(xiàn)。因此WIPO的一個最佳實踐就是:首先在啟動開發(fā)之前確定數(shù)據(jù)的可用性、質(zhì)量和數(shù)量,然后遵循高科技領(lǐng)域里的慣常做法:快速建立模型,迭代開發(fā)。
WIPO僅使用開放源代碼庫,因為在這樣的尖端領(lǐng)域,通常最先進的是開源的。 此外,開源可以根據(jù)自己的需要客戶化定制/調(diào)整軟件,然后與其他公益組織共享軟件。
WIPO在使用AI開發(fā)的邏輯,給了非AI技術(shù)類組織一些有益的啟示。WIPO的經(jīng)歷證明,對于已經(jīng)有了海量訓練數(shù)據(jù)集的組織,內(nèi)部建立起應用開源框架開發(fā)的小型技術(shù)團隊,利用組織對業(yè)務(wù)模式和用戶使用需求的深刻理解,經(jīng)過海量的數(shù)據(jù)訓練,是一條走得通的轉(zhuǎn)型路線。
-
人工智能
+關(guān)注
關(guān)注
1817文章
50098瀏覽量
265414 -
機器學習
+關(guān)注
關(guān)注
66文章
8553瀏覽量
136957 -
ai技術(shù)
+關(guān)注
關(guān)注
1文章
1313瀏覽量
25750
原文標題:世界知識產(chǎn)權(quán)組織的人工智能轉(zhuǎn)型探索
文章出處:【微信號:robot-1hjqr,微信公眾號:1號機器人網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
江智機器人技術(shù)核心團隊
華科大團隊在里德堡原子光量子操控領(lǐng)域取得進展
探索Broadcom AS20系列微型編碼器:創(chuàng)新技術(shù)與卓越性能
探索PEC06 - 6 mm增量式微型編碼器:設(shè)計與應用解析
探索PEC05系列5mm增量式微型編碼器:設(shè)計與應用全解析
探索PEC04系列4mm增量式微型編碼器:設(shè)計與應用的理想之選
探索MSX - 360微型操縱桿位置傳感器:小身材大能量
探索RISC-V在機器人領(lǐng)域的潛力
Lora技術(shù)應用領(lǐng)域
從電路板到創(chuàng)新領(lǐng)袖:電子技術(shù)人才的進階之路
AI 芯片浪潮下,職場晉升新契機?
京東零售在智能供應鏈領(lǐng)域的前沿探索與技術(shù)實踐
芯盾時代入選《中國網(wǎng)絡(luò)安全細分領(lǐng)域產(chǎn)品名錄》 零信任領(lǐng)域排名第一
國家戰(zhàn)略下的細分市場領(lǐng)域新材料機會
微型技術(shù)團隊的細分領(lǐng)域探索
評論