婷婷资源五月天四区,美女视频黄a视频全免费观看蜜,国产一区AV毛片

美麗是平凡的,平凡得讓你感覺不到她的存在；美麗是平淡的,平淡得只剩下溫馨的回憶；美麗又是平靜的,平靜得只有你費(fèi)盡心思才能激起她的漣漪。

這些年計(jì)算機(jī)視覺識(shí)別和搜索這個(gè)領(lǐng)域非常熱鬧，后期出現(xiàn)了很多的創(chuàng)業(yè)公司，大公司也在這方面也花了很多力氣在做。做視覺搜索，其實(shí)是深度學(xué)習(xí)（或人工智能）領(lǐng)域最重要的研究課題之一，在現(xiàn)實(shí)生活中有著非常廣泛的應(yīng)用。

通常，視覺搜索包含了兩步任務(wù)：首先，待搜索物體的檢測(cè)與定位；其次，從庫(kù)（知識(shí)圖譜、圖片庫(kù)、信息庫(kù)等）中搜索該物體，或查詢相關(guān)聯(lián)的場(chǎng)景。比如從簡(jiǎn)單的以圖搜圖、車牌識(shí)別，到人臉識(shí)別、植物或?qū)櫸锏淖R(shí)別，人體或車輛的跟蹤，無人機(jī)、無人汽車的自動(dòng)駕駛，智能機(jī)器人等領(lǐng)域，都離不開計(jì)算機(jī)視覺搜索技術(shù)，這也是此次谷歌開源基于 TensorFlow 的物體檢測(cè)代碼的意義所在。

谷歌此次開源版本中已經(jīng)實(shí)現(xiàn)的 Faster R-CNN、R-FCN、SSD 檢測(cè)算法之外，還有不少其他檢測(cè)算法，如除 SSD 外，另一款端到端的檢測(cè)算法：YOLO（You Only Look Once），精度可能略遜于 Faster R-CNN（非絕對(duì)，不同的數(shù)據(jù)、網(wǎng)絡(luò)設(shè)計(jì)會(huì)導(dǎo)致差異），但檢測(cè)速度較快。后續(xù)的 YOLO 9000（YOLO 升級(jí)版），論文提到能夠檢測(cè)識(shí)別超過 9000 類的物體，而且檢測(cè)更加快速、準(zhǔn)確。

計(jì)算機(jī)能夠比以往更快更精準(zhǔn)的識(shí)別圖片，但它們需要大量數(shù)據(jù)。所以ImageNet 和 Pascal VOC 經(jīng)過多年積累建立了包含幾百萬張圖片的龐大且免費(fèi)的數(shù)據(jù)集，用描述圖片內(nèi)容的關(guān)鍵詞為圖片做好了標(biāo)簽，包括貓、山、披薩和體育活動(dòng)等。這些開源數(shù)據(jù)集是使用機(jī)器學(xué)習(xí)進(jìn)行圖像識(shí)別的基礎(chǔ)。

ImageNet 每年一度的圖像識(shí)別挑戰(zhàn)賽眾所周知，ImageNet 由斯坦福大學(xué)和普林斯頓大學(xué)的計(jì)算機(jī)科學(xué)家在2009年發(fā)起，當(dāng)時(shí)有 80,000 張打好標(biāo)簽的圖片，到今天這個(gè)數(shù)據(jù)已經(jīng)增加到 140 萬張，這些數(shù)據(jù)可以隨時(shí)被用來進(jìn)行機(jī)器訓(xùn)練。

Pascal VOC 由英國(guó)的幾所大學(xué)支持，他們的圖片數(shù)量較少，但每張圖片有著更加豐富的釋文。這提升了機(jī)器學(xué)習(xí)的準(zhǔn)確度和應(yīng)用范圍，加快了整個(gè)過程，因?yàn)樗梢允÷缘粢恍┓敝氐淖尤蝿?wù)。

如今，谷歌、Facebook 等科技巨頭、創(chuàng)業(yè)公司、高校等都在使用這些開源圖片集來喂養(yǎng)他們的機(jī)器學(xué)習(xí)，但科技巨頭還享受另外一項(xiàng)優(yōu)勢(shì)，谷歌和 Facebook 可以從 Google Photos 社交網(wǎng)絡(luò)上獲取數(shù)百萬張用戶已經(jīng)標(biāo)記好的圖片。你之前有沒有考慮過，為何谷歌和 Facebook 會(huì)讓你免費(fèi)上傳如此多圖片？原因就在于這些圖片可以將他們的深度學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練的更加準(zhǔn)確。

一、舉例說明：

亞馬遜出品的Firefly當(dāng)時(shí)引起了很大的轟動(dòng)雖然這個(gè)產(chǎn)品也很難說是不是成功但是當(dāng)時(shí)確實(shí)是很大膽的一個(gè)舉動(dòng)。

百度也有圖像搜索和圖像識(shí)別微軟也有。

Google很早也有了Google Goggles這個(gè)產(chǎn)品雖然技術(shù)跟現(xiàn)在有很大的差別。

Pinterest在去年也有這樣的功能問世就是在它自己的分享照片上可以去搜相似的照片或者是相似的產(chǎn)品。

阿里巴巴的一個(gè)圖片搜索——拍立淘強(qiáng)調(diào)的是用自己手機(jī)去拍照片去搜索網(wǎng)上相同或者相似的商品。

二、如果想構(gòu)建一個(gè)圖像搜索引擎，那如何對(duì)圖像進(jìn)行搜索呢？

一種方式是依賴于與圖像相關(guān)聯(lián)的標(biāo)簽、關(guān)鍵字和文字描述，這種稱為標(biāo)簽搜索，或者叫以文搜圖。

另一種方式是通過量化圖像并提取一組數(shù)字來表示圖像的顏色、紋理或者形狀，然后通過對(duì)比圖像之間相似度來搜索圖像，這種成為范例搜索，或者叫以圖搜圖。

最后一種是結(jié)合前面兩種方式，既依賴與圖像相關(guān)的文字信息，也同時(shí)量化圖像本身，稱為混合搜索。

圖像搜索引擎有3種類型：標(biāo)簽搜索、范例搜索和混合搜索

標(biāo)簽搜索

在谷歌或百度輸入關(guān)鍵字并點(diǎn)擊搜索按鈕，這是我們熟悉的文本搜索方式，而圖像的標(biāo)簽搜索與文本搜索很相似。圖像的標(biāo)簽搜索引擎很少關(guān)注圖像本身，而依賴于文字線索。這些線索可以有各種來源，但主要方法是：

手動(dòng)注釋：在這種情況下，管理員或者用戶提供圖像內(nèi)容的標(biāo)簽和關(guān)鍵字；

上下文提示：通常，上下文提示僅適用于網(wǎng)頁(yè)。與手動(dòng)注釋我們必須人工提取標(biāo)簽不同，上下文提示會(huì)自動(dòng)檢查圖像周圍的文字內(nèi)容或圖片標(biāo)簽。這種方法的缺點(diǎn)是我們要假設(shè)圖像的內(nèi)容與網(wǎng)頁(yè)上的文本有關(guān)。這可能適用于諸如百度百科這樣的網(wǎng)站，其頁(yè)面上的圖像與文章的內(nèi)容高度相關(guān)；

范例搜索：

這些類型的圖像搜索引擎嘗試量化圖像本身，稱為基于內(nèi)容的圖像檢索（CBIR）系統(tǒng)。一個(gè)簡(jiǎn)單的例子是通過圖像中像素強(qiáng)度的平均值，標(biāo)準(zhǔn)偏差和偏度來表征圖像的顏色。（如果只是構(gòu)建一個(gè)簡(jiǎn)單的圖像搜索引擎，在許多情況下，這種方法實(shí)際效果很好）

對(duì)于給定的圖像數(shù)據(jù)集，將數(shù)據(jù)集中的所有圖像都計(jì)算出特征值，并將其存儲(chǔ)在磁盤上。當(dāng)我們量化圖像時(shí)，我們描述圖像并提取圖像特征。這些圖像特征是圖像的抽象，并用于表征圖像內(nèi)容，從圖像集合中提取特征的過程稱為索引。

假定現(xiàn)在我們從數(shù)據(jù)集中的每一個(gè)圖像中都提取出了特征，如何進(jìn)行搜索呢？第一步是為我們的系統(tǒng)提供一個(gè)查詢圖像，這是我們?cè)跀?shù)據(jù)集中尋找的一個(gè)范例。查詢圖像以與索引圖像完全相同的方式提取特征。然后我們使用距離函數(shù)（如歐式距離）將我們的查詢特征與索引數(shù)據(jù)集中的特征進(jìn)行比對(duì)。然后根據(jù)相似性（歐幾里德距離越小意味著越相似）的結(jié)果進(jìn)行排序并顯示出來。

混合方式：

假如我們正在為Twitter建立一個(gè)圖像搜索引擎。Twitter允許在推文中使用圖片。同時(shí)，Twitter也允許你給自己的推文提供標(biāo)簽。我們可以使用推文標(biāo)簽來建立圖像的標(biāo)簽搜索，然后分析和量化圖像本身特征，建立范例搜索。這樣做的方式就是構(gòu)建一個(gè)混合圖像搜索引擎，其中包括文本關(guān)鍵字以及從圖像中提取的特征。

最好的例子就是谷歌的圖像搜索。谷歌的圖像搜索是實(shí)際通過分析圖像本身特征來進(jìn)行搜索，但是谷歌首先是一個(gè)文本搜索引擎，因此它也允許你通過標(biāo)簽進(jìn)行搜索。

三、文本搜索又可以細(xì)分為三種

第一種用人來對(duì)文本做標(biāo)記

最早期上個(gè)世紀(jì)七八十年代時(shí)是很小的圖片集是通過人來添加圖像的文本標(biāo)簽然后通過文本來搜索就夠了。之后就發(fā)展到了2004年前后的社交媒體時(shí)代那個(gè)時(shí)候像Flicker上圖片的Tag雖然也是人加的但是通過草根人群加的量就變得非常地大。通過這個(gè)也能做比較不錯(cuò)的圖片搜索。再往后的標(biāo)注就不是人給自己的圖片加標(biāo)簽了而是通過設(shè)計(jì)一些標(biāo)注的平臺(tái)——比較有名的是Google收購(gòu)的Image Labeler——以游戲的方式對(duì)圖片進(jìn)行標(biāo)注。這些標(biāo)注當(dāng)然可以用來做圖像的搜索這就是通過人工加文本標(biāo)注的方式進(jìn)行圖像的搜索。

第二種通過網(wǎng)頁(yè)的文本對(duì)圖片進(jìn)行索引

目前的互聯(lián)網(wǎng)通用圖片搜索引擎基本上都是基于這一套技術(shù)。通過網(wǎng)頁(yè)的文本來對(duì)圖片進(jìn)行索引當(dāng)然這里面也涉及到很多的細(xì)節(jié)包括怎樣從網(wǎng)頁(yè)上提取有效的文字以及2008年之后也有很多圖像分析的內(nèi)容引進(jìn)到基于網(wǎng)頁(yè)的圖片搜索里來。也就是說雖然圖像是網(wǎng)頁(yè)中的圖片但是也會(huì)對(duì)其進(jìn)行內(nèi)容分析——不管是打標(biāo)簽還是特征抽取等——來改進(jìn)文本搜索存在的一些缺陷提升搜索的精準(zhǔn)性。

第三種自動(dòng)標(biāo)注

大量的學(xué)術(shù)論文是這個(gè)方向上的一種叫concept detection或者叫tagging。規(guī)模上小到幾十個(gè)、幾百個(gè)大到上千個(gè)、上萬個(gè)的標(biāo)簽。

四、這一類嚴(yán)格來講又可細(xì)分為幾類：

Predefined categories。比如預(yù)先定好只分一千類然后就去訓(xùn)練一個(gè)分類器把這個(gè)圖片標(biāo)好。不限定標(biāo)簽的范圍或者說標(biāo)簽的范圍非常大然后去學(xué)習(xí)圖片和標(biāo)簽的一個(gè)共同的描述方式從而可以實(shí)現(xiàn)近似于free text的文本標(biāo)注。

Implicit tagging即隱式的自動(dòng)標(biāo)注。搜索引擎在運(yùn)行的過程中用戶在搜索時(shí)會(huì)點(diǎn)擊搜索結(jié)果這個(gè)時(shí)候搜索的詞和搜索的結(jié)果就通過被點(diǎn)擊這個(gè)動(dòng)作建立起了一個(gè)關(guān)聯(lián)這種方式也可以認(rèn)為是一種標(biāo)注。雖然它有一些噪聲但是實(shí)際上也是非常有效的并且也可以用一些方法降低其噪聲甚至在相似圖像之間傳遞標(biāo)簽從而擴(kuò)大標(biāo)簽的覆蓋率。這種標(biāo)注對(duì)基于網(wǎng)頁(yè)的圖像搜索引擎對(duì)搜索質(zhì)量的提升起到了非常關(guān)鍵的作用。

五、圖像搜索——從火熱到?jīng)]落再到興起

最早在二十世紀(jì)九十年代時(shí)那個(gè)時(shí)候叫做CBIR(Content-Based Image Retrieval)即基于內(nèi)容的圖像檢索。但是那時(shí)基本上只能在幾千、幾萬幅圖上進(jìn)行檢索而且檢索的效果很難保證。當(dāng)時(shí)有一個(gè)一直流行到現(xiàn)在的詞叫做“語義鴻溝”這也是當(dāng)時(shí)我們經(jīng)常用來質(zhì)疑基于圖像的搜索或CBIR到底靠不靠譜。

圖像搜索的沒落直到2008年左右才有所起色當(dāng)時(shí)出現(xiàn)了一家叫TinEye的公司提供這樣一種網(wǎng)絡(luò)服務(wù)你提交一個(gè)圖片后它可以幫你找互聯(lián)網(wǎng)上跟此圖非常相似的圖片。當(dāng)你的圖像再往大到千萬、億級(jí)甚至到十億、千億級(jí)別的時(shí)候就沒有辦法了。所以此時(shí)就要把圖片進(jìn)行索引，索引在文本搜索里面是通過倒排的方法來做這個(gè)是非常容易實(shí)現(xiàn)的。但是圖像不一樣圖像的描述是它的特征而這個(gè)特征是一個(gè)向量。

那如何用高維的特征去建索引的方法：

Partition tree是用各種各樣tree的方法把數(shù)據(jù)進(jìn)行分割、分塊使得查找起來比較方便。

Hashing關(guān)于圖像搜索的Paper基本上都是在做Hashing。

Neighborhood Graph用鄰接圖的方法來建索引的方法。

Invert Index把所有的圖像特征轉(zhuǎn)化成視覺詞然后用倒排的方法來做。

這幾個(gè)方法之間基本上都是可以互相轉(zhuǎn)化的當(dāng)然轉(zhuǎn)化時(shí)有時(shí)是有信息損失的。如果做大規(guī)模的、數(shù)據(jù)量非常大的圖像搜索我個(gè)人認(rèn)為用倒排的方法來做比較合適。

深度學(xué)習(xí)用在圖片搜索當(dāng)中：

深度學(xué)習(xí)出來之后可以讓我們?nèi)グ凑兆约核胍_(dá)到的目標(biāo)去學(xué)習(xí)一個(gè)神經(jīng)網(wǎng)絡(luò)通過這個(gè)神經(jīng)網(wǎng)絡(luò)去抽取圖像的特征。實(shí)際上搜索跟識(shí)別是密不可分的尤其是在做大規(guī)模圖像搜索時(shí)識(shí)別、檢測(cè)必不可少。識(shí)別有時(shí)也是要通過搜索來完成的，例如如果你類別非常多的時(shí)候往往要通過搜索的方法來實(shí)現(xiàn)而不是通過模型的方法來做識(shí)別。所以搜索和識(shí)別在大數(shù)據(jù)時(shí)代的界限變得越來越模糊了它們之間互相需要互相利用。

六、為什么使用OpenCV+Python實(shí)現(xiàn)圖像搜索引擎呢？

首先，OpenCV是一個(gè)開源的計(jì)算機(jī)視覺處理庫(kù)，在計(jì)算機(jī)視覺、圖像處理和模式識(shí)別中有廣泛的應(yīng)用。接口安全易用，而且跨平臺(tái)做的相當(dāng)不錯(cuò)，是一個(gè)不可多得的計(jì)算機(jī)圖像及視覺處理庫(kù)。

其次，Python的語法更加易用，貼近自然語言，極為靈活。雖然計(jì)算效率并不高，但快速開發(fā)上它遠(yuǎn)勝于C++或其他語言，引入pysco能夠優(yōu)化python代碼中的循環(huán)，一定程度上縮小與C/C++在計(jì)算上的差距。而且圖像處理中需要大量的矩陣計(jì)算，引入numpy做矩陣運(yùn)算能夠降低編程的冗雜度，更多地把精力放在匹配的邏輯上，而非計(jì)算的細(xì)枝末節(jié)。

圖片搜索引擎算法及框架設(shè)計(jì)：

基本步驟

采用顏色空間特征提取器和構(gòu)圖空間特征提取器提取圖像特征。

圖像索引表構(gòu)建驅(qū)動(dòng)程序生成待搜索圖像庫(kù)的圖像特征索引表。

圖像搜索引擎驅(qū)動(dòng)程序執(zhí)行搜索命令，生成原圖圖像特征并傳入圖片搜索匹配器。

圖片搜索匹配內(nèi)核執(zhí)行搜索匹配任務(wù)。返回前l(fā)imit個(gè)最佳匹配圖像。

所需模塊

numpy。科學(xué)計(jì)算和矩陣運(yùn)算利器。

cv2。OpenCV的python模塊接入。

re。正則化模塊。解析csv中的圖像構(gòu)圖特征和色彩特征集。

csv。高效地讀入csv文件。

glob。正則獲取文件夾中文件路徑。

argparse。設(shè)置命令行參數(shù)。

封裝類及驅(qū)動(dòng)程序

顏色空間特征提取器ColorDescriptor。

類成員bins。記錄HSV色彩空間生成的色相、飽和度及明度分布直方圖的最佳bins分配。bins分配過多則可能導(dǎo)致程序效率低下，匹配難度和匹配要求過分苛嚴(yán)；bins分配過少則會(huì)導(dǎo)致匹配精度不足，不能表證圖像特征。

成員函數(shù)getHistogram(self, image, mask, isCenter)。生成圖像的色彩特征分布直方圖。image為待處理圖像，mask為圖像處理區(qū)域的掩模，isCenter判斷是否為圖像中心，從而有效地對(duì)色彩特征向量做加權(quán)處理。權(quán)重weight取5.0。采用OpenCV的calcHist()方法獲得直方圖，normalize()方法歸一化。

成員函數(shù)describe(self, image)。將圖像從BGR色彩空間轉(zhuǎn)為HSV色彩空間（此處應(yīng)注意OpenCV讀入圖像的色彩空間為BGR而非RGB）。生成左上、右上、左下、右下、中心部分的掩模。中心部分掩模的形狀為橢圓形。這樣能夠有效區(qū)分中心部分和邊緣部分，從而在getHistogram()方法中對(duì)不同部位的色彩特征做加權(quán)處理。

構(gòu)圖空間特征提取器StructureDescriptor。

類成員dimension。將所有圖片歸一化（降低采樣）為dimension所規(guī)定的尺寸。由此才能夠用于統(tǒng)一的匹配和構(gòu)圖空間特征的生成。

成員函數(shù)describe(self, image)。將圖像從BGR色彩空間轉(zhuǎn)為HSV色彩空間（此處應(yīng)注意OpenCV讀入圖像的色彩空間為BGR而非RGB）。返回HSV色彩空間的矩陣，等待在搜索引擎核心中的下一步處理。

圖片搜索匹配內(nèi)核Searcher。

類成員colorIndexPath和structureIndexPath。記錄色彩空間特征索引表路徑和結(jié)構(gòu)特征索引表路徑。

成員函數(shù)solveColorDistance(self, features, queryFeatures, eps = 1e-5)。求features和queryFeatures特征向量的二范數(shù)。eps是為了避免除零錯(cuò)誤。

成員函數(shù)solveStructureDistance(self, structures, queryStructures, eps = 1e-5)。同樣是求特征向量的二范數(shù)。eps是為了避免除零錯(cuò)誤。需作統(tǒng)一化處理，color和structure特征向量距離相對(duì)比例適中，不可過分偏頗。

成員函數(shù)searchByColor(self, queryFeatures)。使用csv模塊的reader方法讀入索引表數(shù)據(jù)。采用re的split方法解析數(shù)據(jù)格式。用字典searchResults存儲(chǔ)query圖像與庫(kù)中圖像的距離，鍵為圖庫(kù)內(nèi)圖像名imageName，值為距離distance。

成員函數(shù)transformRawQuery(self, rawQueryStructures)。將未處理的query圖像矩陣轉(zhuǎn)為用于匹配的特征向量形式。

成員函數(shù)searchByStructure(self, rawQueryStructures)。類似4。

成員函數(shù)search(self, queryFeatures, rawQueryStructures, limit = 3)。將searchByColor方法和searchByStructure的結(jié)果匯總，獲得總匹配分值，分值越低代表綜合距離越小，匹配程度越高。返回前l(fā)imit個(gè)最佳匹配圖像。

圖像索引表構(gòu)建驅(qū)動(dòng)index.py。

引入color_descriptor和structure_descriptor。用于解析圖片庫(kù)圖像，獲得色彩空間特征向量和構(gòu)圖空間特征向量。

用argparse設(shè)置命令行參數(shù)。參數(shù)包括圖片庫(kù)路徑、色彩空間特征索引表路徑、構(gòu)圖空間特征索引表路徑。

用glob獲得圖片庫(kù)路徑。

生成索引表文本并寫入csv文件。

可采用如下命令行形式啟動(dòng)驅(qū)動(dòng)程序。

dataset為圖片庫(kù)路徑。color_index.csv為色彩空間特征索引表路徑。structure_index.csv為構(gòu)圖空間特征索引表路徑。

圖像搜索引擎驅(qū)動(dòng)searchEngine.py。

引入color_descriptor和structure_descriptor。用于解析待匹配（搜索）的圖像，獲得色彩空間特征向量和構(gòu)圖空間特征向量。

用argparse設(shè)置命令行參數(shù)。參數(shù)包括圖片庫(kù)路徑、色彩空間特征索引表路徑、構(gòu)圖空間特征索引表路徑、待搜索圖片路徑。

生成索引表文本并寫入csv文件。

可采用如下命令行形式啟動(dòng)驅(qū)動(dòng)程序。

dataset為圖片庫(kù)路徑。color_index.csv為色彩空間特征索引表路徑。structure_index.csv為構(gòu)圖空間特征索引表路徑，query/pyramid.jpg為待搜索圖片路徑。

七、圖像搜索系統(tǒng)的四個(gè)基本要求

在索引建立的過程首先我們要到互聯(lián)網(wǎng)上去找到這些圖發(fā)現(xiàn)它以后還要選擇它。因?yàn)榛ヂ?lián)網(wǎng)上的圖很多不可能把所有的圖都放在索引里面去，這時(shí)候就涉及到應(yīng)該把什么圖放進(jìn)去才能滿足用戶的搜索需求。這個(gè)要求是說選擇出來的圖片應(yīng)該能滿足當(dāng)前時(shí)間點(diǎn)上大部分人搜索的需求就可以了，這實(shí)際上會(huì)轉(zhuǎn)換成為一個(gè)機(jī)器學(xué)習(xí)的問題來解決。

選擇好后就要進(jìn)行理解和索引要知道這個(gè)圖片里有什么內(nèi)容。如果基于網(wǎng)頁(yè)就要從網(wǎng)頁(yè)上抽信息，如果是完全基于圖像就要抽取圖像的特征進(jìn)行理解并建索引。建立索引以后再把這些索引推到搜索服務(wù)的機(jī)器上去，比如一個(gè)互聯(lián)網(wǎng)圖片搜索引擎這個(gè)時(shí)候可能要幾千臺(tái)機(jī)器才能hold住這個(gè)圖片庫(kù)的索引。

視覺搜索關(guān)鍵要求：

第一個(gè)是相關(guān)性：這是一個(gè)最基本的要求。當(dāng)給了一幅圖像進(jìn)去出來的東西要跟給出的圖像要是相關(guān)的。如何定義“相關(guān)”一般對(duì)于圖片搜索而言基本上是認(rèn)為“跟它一樣”或者是“相像”。例如產(chǎn)品同款產(chǎn)品不管顏色是否一樣但它是相同的東西這就叫做相關(guān)性。相關(guān)性一般來說是做搜索的人最關(guān)心的一個(gè)問題；

第二個(gè)是覆蓋率：這就跟產(chǎn)品非常相關(guān)。不是我只能搜衣服不能搜其他的商品或者我只能搜商品又不能搜別的東西。否則用戶的體驗(yàn)就很不好，甚至是在電商的搜索引擎里面如果用戶輸入了一個(gè)非商品我們?cè)撛趺捶答伣o用戶這都是涉及到覆蓋率的問題。

第三個(gè)是伸縮性：①是否能夠高效快速地處理大量的商品和商品的變化即是否能夠非?？焖俚貙⒋罅可唐贩诺剿饕锩嫒ザ宜饕軌蚝芊奖愕馗?，也就是對(duì)于商品建造索引過程而言的一個(gè)伸縮性。②能否響應(yīng)大量用戶的搜索請(qǐng)求，即當(dāng)有大量的用戶同時(shí)訪問搜索服務(wù)時(shí)要能夠快速地響應(yīng)所有的請(qǐng)求。

第四是用戶體驗(yàn)：比較偏交互式用戶界面設(shè)計(jì)方面；

八、商品圖片搜索相關(guān)關(guān)鍵技術(shù)

首先要知道一個(gè)圖片的大致類型。例如如果是一個(gè)商品需要知道它到底是上衣——是男士的上衣還是女士的上衣還是鞋子等。這樣來避免搜索出的結(jié)果完全不靠譜，這個(gè)我們一般把它叫做分類或識(shí)別。

主體的檢測(cè)：主體的檢測(cè)方法在計(jì)算機(jī)視覺領(lǐng)域也有很多快速的方法基本上是先要找Proposal Window然后對(duì)其進(jìn)行分類。這個(gè)場(chǎng)景通常要求速度非?？煲粋€(gè)搜索請(qǐng)求進(jìn)來后所有的操作——包括上述分類、主體檢測(cè)以及后面的一些步驟到最終的返回結(jié)果——都是要在幾百毫秒之內(nèi)返回給用戶的。因此我們的Proposal Window就不能那么多，否則計(jì)算量就相當(dāng)?shù)拇?，所以這就會(huì)涉及到后續(xù)Proposal Window的refinement這樣一個(gè)步驟。

圖像特征來描述：基本方法還是是利用深度學(xué)習(xí)這個(gè)工具，force神經(jīng)網(wǎng)絡(luò)收斂到一個(gè)地方使得特征輸出能夠反映出這個(gè)商品的特性例如些種類、風(fēng)格、圖案、顏色等。

覆蓋率分為三個(gè)角度來講：

索引的覆蓋率。這是我們一般提到覆蓋率時(shí)所指的含義。簡(jiǎn)單說就是索引里多少貨商品當(dāng)然是越多越好種類越全越好這個(gè)比較容易理解。

特征的覆蓋率。特征的覆蓋率是指商品的描述能夠覆蓋各個(gè)種類不是只能做鞋子或只能做服裝而不能做別的東西甚至非商品是不是能做。為了描述的精準(zhǔn)、描述能力的優(yōu)化實(shí)際上不同的類型一般用不同的特征來描述。

搜索的覆蓋率。這個(gè)覆蓋率是電商場(chǎng)景下所獨(dú)有的，因?yàn)殡娚讨挥猩唐穲D像的索引沒有別的索引；那么用戶如果輸入的不是電商產(chǎn)品的圖片該怎么辦？比如用戶在街上看到一條很可愛的狗并拍照后在平臺(tái)上搜索該怎么處理呢？這個(gè)時(shí)候我們可以把狗識(shí)別出來然后返回給用戶一些狗相關(guān)的產(chǎn)品這是一種解決方案。如果是風(fēng)景、食品的話也可以對(duì)風(fēng)景進(jìn)行識(shí)別對(duì)食品里面的熱量進(jìn)行識(shí)別然后把這些信息返回給用戶。

伸縮性的實(shí)現(xiàn)方式主要有兩種：

第一種是通過系統(tǒng)的方法，也就是通過大量的機(jī)器來實(shí)現(xiàn)。索引技術(shù)有了系統(tǒng)的方法來實(shí)現(xiàn)因此對(duì)索引的要求其實(shí)沒有那么高，有很多方法都可以完全滿足搜索系統(tǒng)的構(gòu)建需求。正如講搜索引擎架構(gòu)時(shí)所述索引會(huì)分到很多機(jī)器上去，那么只要做到每一臺(tái)機(jī)器上的數(shù)據(jù)搜索效率足夠高的話那么這個(gè)系統(tǒng)就可以完成大規(guī)模的搜索任務(wù)。

第二種是通過算法，對(duì)于算法而言就集中在一臺(tái)機(jī)器上怎么樣做到高效。

九、圖像識(shí)別技術(shù)：

圖像識(shí)別技術(shù)是數(shù)字圖像處理和模式識(shí)別技術(shù)相結(jié)合的產(chǎn)物。數(shù)字圖象處理是利用計(jì)算機(jī)或其他數(shù)字設(shè)備對(duì)圖像信息進(jìn)行各種加工和處理，以滿足目標(biāo)識(shí)別需求的基礎(chǔ)行為。模式識(shí)別研究如何用機(jī)器來實(shí)現(xiàn)人對(duì)事物的學(xué)習(xí)、識(shí)別和判斷能力，因而是以滿足目標(biāo)識(shí)別的判斷行為。

為了模擬人類圖像識(shí)別活動(dòng)，人們提出了不同的圖像識(shí)別模型。例如，模版匹配模型。這種模型認(rèn)為，識(shí)別圖像中的某個(gè)物體，必須在過去的經(jīng)驗(yàn)中有有這個(gè)圖像對(duì)對(duì)物體的記憶模式，又叫模板，當(dāng)前的刺激如果能與大腦中的模板相匹配，這個(gè)物體就被識(shí)別了。

圖像識(shí)別的基本過程是抽取代表未知樣本模式的本質(zhì)表達(dá)形式（如各種特征）和預(yù)先存儲(chǔ)在機(jī)器中的標(biāo)準(zhǔn)模式表達(dá)形式的集合（稱為字典）逐一匹配，用一定的準(zhǔn)則進(jìn)行判別，在機(jī)器存儲(chǔ)的標(biāo)準(zhǔn)模式表達(dá)形式的集合中，找到最接近輸入樣本子模式的表達(dá)形式，該表達(dá)模式對(duì)應(yīng)的類別就是識(shí)別結(jié)果。因此，圖像識(shí)別技術(shù)是一種從大量信息和數(shù)據(jù)出發(fā)，在已有經(jīng)驗(yàn)和認(rèn)識(shí)的基礎(chǔ)上，利用計(jì)算機(jī)和數(shù)學(xué)推理的方法自動(dòng)完成圖像中物體的識(shí)別和評(píng)價(jià)的過程。

圖像識(shí)別過程包括圖像采集（特征分析）、圖像預(yù)處理、特征提取、模式匹配4個(gè)環(huán)節(jié)。

首先，通過高清攝像機(jī)、掃描儀或其他圖像采集儀器采集圖像的原始信息。傳統(tǒng)的全局特征表示方法，如顏色、形狀、紋理等特征，簡(jiǎn)單直觀，但易受光照、裁剪、旋轉(zhuǎn)、噪聲等因素的影響，目前基本只作為輔助手段。

圖像預(yù)處理的作用可以總結(jié)為：采用某種手段將圖像信息歸一化，以便于后續(xù)處理工作。圖像特征提取部分的作用是提取出最能表征一個(gè)物體的特征信息，并將其轉(zhuǎn)變成特征向量或矩陣的形式。模式匹配是指系統(tǒng)用待測(cè)圖像的特征與特征庫(kù)中的信息進(jìn)行比對(duì)，通過選擇合適的分類器達(dá)到識(shí)別的目的。

1.圖像預(yù)處理

圖像預(yù)處理技術(shù)就是對(duì)圖像進(jìn)行正式處理前所做的一系列操作。圖像預(yù)處理技術(shù)分為兩大方面，即圖像增強(qiáng)和圖像復(fù)原技術(shù)。圖像增強(qiáng)技術(shù)在圖像預(yù)處理中占有較大的比重，是圖像預(yù)處理所必需的步驟，它與圖像復(fù)原技術(shù)的不同之處在于圖像復(fù)原是以恢復(fù)圖像原來的本質(zhì)為目的的。

一般來說，圖像增強(qiáng)技術(shù)有兩種方法：空間域和頻率域法。空間域法則主要是直接在空間域內(nèi)對(duì)圖像進(jìn)行運(yùn)算處理，分為兩個(gè)方面：點(diǎn)運(yùn)算和領(lǐng)域運(yùn)算（局部運(yùn)算）。其中，點(diǎn)運(yùn)算包括圖像灰度變換、直方圖均衡化和局部統(tǒng)計(jì)法等幾種方法；

領(lǐng)域運(yùn)算包括圖像平滑和圖像銳化等幾個(gè)方面。頻率域法則只在圖像的某種變換域里對(duì)圖像的變換值進(jìn)行運(yùn)算，如我們對(duì)圖像進(jìn)行傅立葉變換，然后在變換域里對(duì)圖像的頻譜進(jìn)行某種計(jì)算，最后把計(jì)算后的圖像逆變換到空間域。頻率域法通常分為高、低通濾波、頻率帶通和帶阻濾波等。圖像復(fù)原技術(shù)就是利用圖像的先驗(yàn)知識(shí)來改變一副被退化的圖像的過程。圖像復(fù)原技術(shù)需要我們建立圖像模型，然后逆向反解這個(gè)退化過程，最后獲得退化前的最優(yōu)圖像。

2.變換域處理

圖像變換域處理是以空間頻率（波數(shù)）為自變量描述圖像的特征的，可以將一幅圖像元值在空間上的變化分解為具有不同振幅、空間頻率和相位的簡(jiǎn)振函數(shù)的線性疊加，圖像中各種空間頻率成分和分布稱為空間頻譜。這種對(duì)圖像的空間頻率特征進(jìn)行分解、處理和分析稱為空間頻率域處理或波數(shù)域處理。在眾多的圖像變換技術(shù)中，常用的有離散余弦變換、沃什爾變換、傅立葉變換、Gabor變換和小波變換等。

（1）離散余弦變換DCT變換矩陣的基向量由于近似于托伯利茲向量，常常被認(rèn)為是對(duì)語言和圖像信號(hào)進(jìn)行變換的最佳變換，雖然在壓縮效率上略遜于具有最好壓縮能力的K-L變換，但其可做到的高效處理型是K-L變換無法比擬的，并成為H.261、JPEG和MPEG等國(guó)際標(biāo)準(zhǔn)的主要環(huán)節(jié)。被廣泛應(yīng)用于圖像編碼方面。

（2）沃什爾變換是一種正交變換，能將相鄰取樣點(diǎn)的相關(guān)性消除掉，使信號(hào)能量集中在變換矩陣的左上角，其它部分出現(xiàn)很多零值；或在誤差允許范圍內(nèi)，允許省略掉小值，這樣可以達(dá)到數(shù)據(jù)壓縮的目的。沃什爾變換在圖像傳輸、雷達(dá)、通信和生物醫(yī)學(xué)等領(lǐng)域曾得到廣泛應(yīng)用。

（3）傅立葉變換是一種常用的正交變換，其最主要的數(shù)學(xué)理論基礎(chǔ)就是傅立葉級(jí)數(shù)，由著名數(shù)學(xué)家Fourier在1822年提出，其主要思想是將周期函數(shù)展開成正弦級(jí)數(shù)。傅立葉變換的提出奠定了圖像的理論基礎(chǔ)，其通過在時(shí)空域和頻率域來回切換圖像，對(duì)圖像的信息特征進(jìn)行提取和分析，簡(jiǎn)化了計(jì)算工作量，被喻為描述圖像信息的第二種語言，廣泛應(yīng)用于圖像變換、圖像編碼與壓縮、圖像分割和圖像重建中。

（4）Gabor變換屬于加窗傅立葉變換，是短時(shí)Fourier變換中當(dāng)窗函數(shù)取為高斯函數(shù)時(shí)的一種特殊情況。由于傅立葉變換存在一定的局限性，所以Gabor1946年提出了加窗傅立葉變換。加窗傅立葉變換方法的一個(gè)典型就是低通濾波器。Gabor 函數(shù)可以在頻域不同尺度和不同方向上提取相關(guān)特征。

（5）小波變換受到傅立葉變換的啟發(fā)，Morlet于1984年提出了小波分析的概念。1986年著名數(shù)學(xué)家Meyer和Mallat合作構(gòu)建了圖像小波函數(shù)的統(tǒng)一方法——多尺度分析。目前在圖像去噪應(yīng)用方面，小波變換理論取得非常好的效果。

頻率域去噪主要是由于有的圖像在空間域處理的效果并不理想，因此想到轉(zhuǎn)換到頻率域進(jìn)行處理，即用一組正交的函數(shù)系去逼近要處理的目標(biāo)函數(shù)，從而進(jìn)一步得到相應(yīng)級(jí)數(shù)的系數(shù)。頻率域處理主要用于與圖像空間頻率有關(guān)的處理中，如圖像恢復(fù)、圖像重建、輻射變換、邊緣增強(qiáng)、圖像平滑、噪聲壓制、頻譜分析和紋理分析等處理和分析中。

3.特征提取

特征提取計(jì)算機(jī)所視覺和圖像處理中的一個(gè)概念，它指的是使用計(jì)算機(jī)提取圖像信息，決定每個(gè)圖像的點(diǎn)是否屬于一個(gè)圖像特征。特征提取的結(jié)果是把圖像上的點(diǎn)分為不同的子集，這些子集往往屬于孤立的點(diǎn)、連續(xù)曲線或者連續(xù)的區(qū)域。

（1）特征選擇

原始數(shù)量的特征很大，或者說原始樣本處于一個(gè)高維空間中，從一組特征挑選出一些最有效的特征以達(dá)到降低特征空間維數(shù)的目的，這個(gè)過程就叫做特征選擇。也就是說，將對(duì)類別可分離性無貢獻(xiàn)或者貢獻(xiàn)不大的特征簡(jiǎn)單地忽略掉。特征選擇是圖像識(shí)別中的一個(gè)關(guān)鍵問題。

（2）特征變換

通過映射或變換的方法可以將高維空間中的特征描述用低維空間的特征來描述，這個(gè)過程就叫做特征變換。通過特征變換獲得的特征是原始特征集的某種組合，新的特征中包含了原有全體特征的信息。主成份分析法是最常用的特征變換方法。

特征的選擇與提取是非常重要的，特征選擇是模式識(shí)別中的一個(gè)關(guān)鍵問題。由于在很多實(shí)際問題中常常不容易找到那些最重要的特征，或受條件限制不能對(duì)它們進(jìn)行測(cè)量，這就使特征選擇與提取的任務(wù)復(fù)雜化而成為構(gòu)造模式識(shí)別系統(tǒng)中最困難的任務(wù)之一。

特征選擇與提取的基本任務(wù)是如何從許多特征中找出那些最有效的特征。解決特征選擇與特征提取問題，最核心的內(nèi)容就是如何對(duì)現(xiàn)有特征進(jìn)行評(píng)估，以及如何通過現(xiàn)有特征產(chǎn)生更好的特征。常見的圖像特征提取與描述方法如顏色特征、紋理特征和幾何形狀特征提取與描述方法。

特征提取算法：

斑點(diǎn)特征檢測(cè)，代表性算法有：LOG（高斯拉普拉斯算子檢測(cè)）、DOH（利用圖像點(diǎn)的二階微分Hessian矩陣及其行列式）；

角點(diǎn)特征檢測(cè)，代表性算法有：Harris角點(diǎn)檢測(cè)、Shi-Tomasi角點(diǎn)檢測(cè)、FAST角點(diǎn)檢測(cè) 等；

SIFT（尺度不變特征轉(zhuǎn)化）特征檢測(cè)，是具有劃時(shí)代意義的特征檢測(cè)算法。由于其具有非常不錯(cuò)的仿射不變性，旋轉(zhuǎn)不變性，對(duì)于光線、噪點(diǎn)、視角變化等的容忍度也較高，在圖像搜索匹配領(lǐng)域應(yīng)用非常廣泛，后續(xù)也出現(xiàn)了很多基于 SIFT 的改良算法。

SURF（加速魯棒特征）特征檢測(cè)，是 SIFT 的高效變種，簡(jiǎn)化了 SIFT 特征提取的算法，運(yùn)算效率更高，基本可實(shí)現(xiàn)實(shí)時(shí)處理。

ORB 特征檢測(cè)，主要在 FAST 特征點(diǎn)檢測(cè)算法與 BRIEF 特征描述方法的基礎(chǔ)上，做了一些優(yōu)化和改進(jìn)，是 SIFT、SURF（兩者都受專利保護(hù)）之外一個(gè)很好的選擇。

KAZE/AKAZE（KAZE的加速版）特征檢測(cè)，比 SIFT 有著更優(yōu)異的性能和更穩(wěn)定的表現(xiàn)，是繼 SIFT 之后一個(gè)較大的突破，也是目前我在系統(tǒng)中優(yōu)先采用的圖像特征提取算法。

另外，還有基于 BRISK/SBRISK（二進(jìn)制魯棒尺度不變關(guān)鍵點(diǎn)）、FREAK（快速視網(wǎng)膜關(guān)鍵點(diǎn)）等算法的特征提取檢測(cè)

4.模式識(shí)別

根據(jù)有無標(biāo)準(zhǔn)樣本，模式識(shí)別可分為監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)。模式識(shí)別分類或描述通常是基于已經(jīng)得到分類或描述的模式集合而進(jìn)行的，人們稱這個(gè)模式集合為訓(xùn)練集，由此產(chǎn)生的學(xué)習(xí)策略稱為監(jiān)督學(xué)習(xí)。學(xué)習(xí)也可以是非監(jiān)督學(xué)習(xí)，在此意義下產(chǎn)生的系統(tǒng)不需要提供模式類的先驗(yàn)知識(shí)，而是基于模式的統(tǒng)計(jì)規(guī)律或模式的相似性學(xué)習(xí)判斷模式的類別。

（1）數(shù)據(jù)采集

數(shù)據(jù)采集是指利用各種傳感器把被研究對(duì)象的各種信息轉(zhuǎn)換為計(jì)算機(jī)可以接收的數(shù)值或符號(hào)（串）集合。習(xí)慣上稱這種數(shù)值或符號(hào)（串）所組成的空間為模式空間。這一步的關(guān)鍵是傳感器的選取。

一般獲取的數(shù)據(jù)類型如下：

物理參量和邏輯值：體溫、化驗(yàn)數(shù)據(jù)、參量正常與否的描述。

一維波形：腦電圖、心電圖、季節(jié)振動(dòng)波形、語音信號(hào)等。

二維圖像：文字、指紋、地圖、照片等。

（2）預(yù)處理

為了從這些數(shù)字或符號(hào)（串）中抽取出對(duì)識(shí)別有效的信息，必須進(jìn)行預(yù)處理，目的是為了消除輸入數(shù)據(jù)或信息中的噪聲，排除不相干的信號(hào)，只留下與被研究對(duì)象的性質(zhì)和采用的識(shí)別方法密切相關(guān)的特征（如表征物體的形狀、周長(zhǎng)、面積等）。

舉例來說，在進(jìn)行指紋識(shí)別時(shí)，指紋掃描設(shè)備每次輸出的指紋圖像會(huì)隨著圖像的對(duì)比度、亮度或背景等的不同而不同，有時(shí)可能還會(huì)產(chǎn)生變形，而人們感興趣的僅僅是圖像中的指紋線、指紋分叉點(diǎn)和端點(diǎn)等，而不需要指紋的其他部分和背景。因此，需要采用合理的濾波算法，如基于塊方圖的方向?yàn)V波和二值濾波等，過濾掉指紋圖像中這些不必要的部分。

（3）特征提取

對(duì)原始數(shù)據(jù)進(jìn)行交換，從許多特征中尋找出最有效的特征，得到最能反應(yīng)分類本質(zhì)的特征，將維數(shù)較高的測(cè)量空間（原始數(shù)據(jù)組成的空間）轉(zhuǎn)變?yōu)榫S數(shù)較低的特征空間（分類識(shí)別賴以進(jìn)行的空間），以降低后續(xù)處理過程的難度。人類很容易獲取的特征，對(duì)于機(jī)器來說就很難獲取了，這就是模式識(shí)別中的特征選擇與提取的問題。特征選擇與提取是模式識(shí)別的一個(gè)關(guān)鍵問題。

一般情況下，候選特征種類越多，得到的結(jié)果應(yīng)該越好。但是，由此可能會(huì)引發(fā)維數(shù)災(zāi)害，即特征維數(shù)過高，計(jì)算機(jī)難以求解。如何確定合適的特征空間是設(shè)計(jì)模式識(shí)別系統(tǒng)一個(gè)十分重要的問題。

對(duì)特征空間進(jìn)行優(yōu)化有兩種基本方法：

第一種是特征選擇，如果所選用的特征空間能使同類物體分布具有緊致性，為分類器設(shè)計(jì)成功提供良好的基礎(chǔ)；反之，如果不同類別的樣品在該特征空間中混雜在一起，再好的設(shè)計(jì)方法也無法提高分類器的準(zhǔn)確性；

另一種是特征的組合優(yōu)化，通過一種映射變換改造原特征空間，構(gòu)造一個(gè)新的精簡(jiǎn)的特征空間。

（4）分類決策

基于模式特征空間，就可以進(jìn)行模式識(shí)別的最后一部分：分類決策。該階段最后輸出的可能是對(duì)象所屬的類型，也可能是模型數(shù)椐庫(kù)中與對(duì)象最相似的模式編號(hào)。己知若干個(gè)樣品的類別及特征，例如，手寫阿拉伯?dāng)?shù)字的判別是具有10類的分類問題，機(jī)器首先要知道每個(gè)手寫數(shù)字的形狀特征，對(duì)同一個(gè)數(shù)字，不同的人有不同的寫法，甚至同一個(gè)人對(duì)同一個(gè)數(shù)字也行多種寫法，就必須讓機(jī)器知道它屬于哪一類。因此，對(duì)分類問題需要建立樣品庫(kù)。根椐這些樣品庫(kù)建立判別分類函數(shù)，這—過程是由機(jī)器來實(shí)現(xiàn)的，稱為學(xué)習(xí)過程。然后對(duì)一個(gè)未知的新對(duì)象分析它的特征，決定它屬于哪一類，這是一種監(jiān)督分類的方法。

具體步驟是建立特征空間中的訓(xùn)練集，已知訓(xùn)練集里每個(gè)點(diǎn)的所屬類別，從這些條件出發(fā)，尋求某種判別函數(shù)或判別準(zhǔn)則，設(shè)計(jì)判決函數(shù)模型，然后根據(jù)訓(xùn)練集中的樣品確定模型中的參數(shù)，便可將這模型用于判別，利用判別函數(shù)或判別準(zhǔn)則去判別每個(gè)未知類別的點(diǎn)應(yīng)該屬于哪一個(gè)類。在模式識(shí)別學(xué)科中，.一般把這個(gè)過程稱為訓(xùn)練與學(xué)習(xí)的過程。

分類的規(guī)則是依據(jù)訓(xùn)練樣品提供信息確定的。分類器設(shè)計(jì)在訓(xùn)練過程中完成，利用一批訓(xùn)練樣品，包括各種類別的樣品，由這些樣品大致勾畫出各類事物在特征空間分布的規(guī)律性，為確定使用什么樣的數(shù)學(xué)公式及這些公式中的參數(shù)提供了信息。

一般來說，決定使用什么類型的分類函數(shù)是人決定的。分類器參數(shù)的選擇或者在學(xué)習(xí)過程中得到的結(jié)果取決于設(shè)計(jì)者選擇什么樣的準(zhǔn)則函數(shù)。不同準(zhǔn)則函數(shù)的最優(yōu)解對(duì)應(yīng)不同的學(xué)習(xí)結(jié)果，得到性能不同的分類器。數(shù)學(xué)式子中的參數(shù)則往往通過學(xué)習(xí)來確定，在學(xué)習(xí)過程中，如果發(fā)現(xiàn)當(dāng)前采用的分類函數(shù)會(huì)造成分類錯(cuò)誤，那么利用錯(cuò)誤提供應(yīng)如何糾正的信息，就可以使分類函數(shù)朝正確的方向前進(jìn)，這就形成了一種迭代的過程。如果分類函數(shù)及其參數(shù)使出錯(cuò)的情況越來越少，就可以說是逐漸收斂，學(xué)習(xí)過程就收到了效果，設(shè)計(jì)也就可以結(jié)束。

針對(duì)不問的應(yīng)用目的，模式識(shí)別系統(tǒng)4部分的內(nèi)容有很大的差異，特別楚在數(shù)據(jù)預(yù)處理和分類決策這兩部分。為了提高識(shí)別結(jié)果的可靠性，往往需要加入知識(shí)庫(kù)（規(guī)則）以對(duì)可能產(chǎn)生的錯(cuò)誤進(jìn)行修正，或通過引入限制條件大大縮小待識(shí)別模式在模型庫(kù)中的搜索空間，以減少匹配計(jì)算量。

都說

深度學(xué)習(xí)的興起和大數(shù)據(jù)息息相關(guān)，那么是不是數(shù)據(jù)集越大，訓(xùn)練出的圖像識(shí)別算法準(zhǔn)確率就越高呢？

過去 10 年，計(jì)算機(jī)視覺技術(shù)取得了很大的成功，其中大部分可以歸功于深度學(xué)習(xí)模型的應(yīng)用。此外自 2012 年以來，這類系統(tǒng)的表現(xiàn)能力有了很大的進(jìn)步，原因包括：

1）復(fù)雜度更高的深度模型；

2）計(jì)算性能的提升；

3）大規(guī)模標(biāo)簽數(shù)據(jù)的出現(xiàn)。

每年，我們都能看到計(jì)算性能和模型復(fù)雜度的提升，從 2012 年 7 層的 AlexNet，發(fā)展到 2015 年 101 層的 ResNet。然而，可用數(shù)據(jù)集的規(guī)模卻沒有成比例地?cái)U(kuò)大。101 層的 ResNet 在訓(xùn)練時(shí)仍然用著和 AlexNet 一樣的數(shù)據(jù)集：ImageNet 中的 10 萬張圖。過去 5 年間，GPU 計(jì)算力和模型復(fù)雜度都在持續(xù)增長(zhǎng)，但訓(xùn)練數(shù)據(jù)集的規(guī)模沒有任何變化；

比如2017年探索“大量數(shù)據(jù)”與深度學(xué)習(xí)之間的關(guān)系：

1）使用當(dāng)前的算法，如果提供越來越多帶噪聲標(biāo)簽的圖片，視覺表現(xiàn)是否仍然可以得到優(yōu)化；

2）對(duì)于標(biāo)準(zhǔn)的視覺任務(wù)，例如分類、對(duì)象探測(cè)，以及圖像分割，數(shù)據(jù)和性能之間的關(guān)系是什么；

3）利用大規(guī)模學(xué)習(xí)技術(shù)，開發(fā)能勝任計(jì)算機(jī)視覺領(lǐng)域各類任務(wù)的最先進(jìn)的模型。

當(dāng)然，問題的關(guān)鍵在于要從何處找到比 ImageNet 大 300 倍的數(shù)據(jù)集。

Google 一直努力構(gòu)建這樣的數(shù)據(jù)集，以優(yōu)化計(jì)算機(jī)視覺算法。在 Geoff Hinton、Francois Chollet 等人的努力下，Google 內(nèi)部構(gòu)建了一個(gè)包含 3 億張圖片的數(shù)據(jù)集，將其中的圖片標(biāo)記為 18291 個(gè)類，并將其命名為 JFT-300M。圖片標(biāo)記所用的算法混合了復(fù)雜的原始網(wǎng)絡(luò)信號(hào)，以及網(wǎng)頁(yè)和用戶反饋之間的關(guān)聯(lián)。通過這種方法，這 3 億張圖片獲得了超過 10 億個(gè)標(biāo)簽（一張圖片可以有多個(gè)標(biāo)簽）。在這 10 億個(gè)標(biāo)簽中，約 3.75 億個(gè)通過算法被選出，使所選擇圖片的標(biāo)簽精確度最大化。然而，這些標(biāo)簽中依然存在噪聲：被選出圖片的標(biāo)簽約有 20% 是噪聲。

最后訓(xùn)練得到意料之外的結(jié)果：

更好的表征學(xué)習(xí)(Representation Learning)能帶來幫助。

大規(guī)模數(shù)據(jù)有助于表征學(xué)習(xí)，從而優(yōu)化我們所研究的所有視覺任務(wù)的性能。建立用于預(yù)訓(xùn)練的大規(guī)模數(shù)據(jù)集很重要。這還說明無監(jiān)督表征學(xué)習(xí)，以及半監(jiān)督表征學(xué)習(xí)方法有良好的前景?？雌饋?，數(shù)據(jù)規(guī)模繼續(xù)壓制了標(biāo)簽中存在的噪聲。

隨著訓(xùn)練數(shù)據(jù)數(shù)量級(jí)的增加，任務(wù)性能呈線性上升。視覺任務(wù)性能和表現(xiàn)學(xué)習(xí)訓(xùn)練數(shù)據(jù)量（取對(duì)數(shù)）之間的關(guān)系。即使訓(xùn)練圖片規(guī)模達(dá)到 3 億張，也沒有觀察到性能上升出現(xiàn)停滯。

模型容量非常關(guān)鍵，如果希望完整利用 3 億張圖的數(shù)據(jù)集，就需要更大容量（更深）的模型。例如，對(duì)于 ResNet-50，COCO 對(duì)象探測(cè)得分的上升很有限，只有 1.87%，而使用 ResNet-152，這一得分上升達(dá)到 3%。此外，構(gòu)建包含 300M 圖片的數(shù)據(jù)集并不是最終目標(biāo)。應(yīng)當(dāng)探索，憑借更龐大的數(shù)據(jù)集（包含超過 10 億圖片），模型是否還能繼續(xù)優(yōu)化。

十、視覺搜索及圖像識(shí)別應(yīng)用的領(lǐng)域：

1、電子商務(wù)結(jié)合，搜索同款或相似款的衣物、包包；

2、社交網(wǎng)絡(luò)結(jié)合，實(shí)現(xiàn)更好的圖像理解與互動(dòng)；

3、自媒體結(jié)合，更方便的尋找圖像、視頻的素材；

4、知識(shí)產(chǎn)權(quán)結(jié)合，可以更準(zhǔn)確的追溯圖像來源與版權(quán)信息；

5、醫(yī)療健康結(jié)合，可以更準(zhǔn)確的做病理研究；

6、工業(yè)生成結(jié)合，實(shí)現(xiàn)更可靠的瑕疵物件篩選；

7、網(wǎng)絡(luò)安全結(jié)合，實(shí)現(xiàn)更好的對(duì)圖像、視頻內(nèi)容的自動(dòng)過濾審核；

8、安保監(jiān)控結(jié)合，可以實(shí)現(xiàn)更準(zhǔn)確的跟蹤定位；

9、智能機(jī)器人相結(jié)合，可以實(shí)現(xiàn)更好的機(jī)器人物體識(shí)別和場(chǎng)景定位...

圖像搜索結(jié)合用戶使用場(chǎng)景，能夠在復(fù)雜背景條件下準(zhǔn)確地識(shí)別和提取圖片中的主體信息，并使用當(dāng)前人工智能領(lǐng)域較為先進(jìn)的深度學(xué)習(xí)技術(shù)對(duì)獲取到的圖片信息進(jìn)行語義分析，現(xiàn)在圖像搜索的應(yīng)用范圍已經(jīng)越來越廣，例如：

1、手機(jī)拍照購(gòu)物：在書店、超市、電器賣場(chǎng)隨手拍攝一個(gè)商品，即可查到該商品在網(wǎng)上商城的價(jià)格。移動(dòng)拍照購(gòu)物搜索，只需通過手機(jī)拍攝相應(yīng)物品的照片就可進(jìn)行購(gòu)物搜索，這樣的搜索工具使網(wǎng)絡(luò)購(gòu)物變得更加直觀、便捷。

2、購(gòu)物網(wǎng)站相似：在具體商品頁(yè)面下部，自動(dòng)列出相似款商品。讓使用者快速搜到相似的圖片，節(jié)省時(shí)間，提高效率。

3.目錄銷售：用戶在享受購(gòu)物目錄翻閱的便捷和愜意過程中，用手機(jī)拍下感興趣的圖片，即刻被引導(dǎo)到商家的網(wǎng)站，激活線上行為。為用戶提供了方便的購(gòu)買途徑。

4.手機(jī)導(dǎo)覽增值服務(wù)：著重為觀眾提供作品背后的信息體驗(yàn)，用戶手機(jī)拍下感興趣的展品，相關(guān)的深度信息立刻在手機(jī)中顯示。

5.版權(quán)保護(hù)：通過圖像識(shí)別技術(shù)，發(fā)現(xiàn)同源圖片的整體或局部在哪些地方出現(xiàn)，包括線上和線下，保護(hù)圖片所有者的版權(quán)。

十一、未來圖像搜索發(fā)展的趨勢(shì)：

圖像搜索和識(shí)別技術(shù)的未來：數(shù)據(jù)、用戶、模型、系統(tǒng)，結(jié)合在一起使用；因?yàn)榻^對(duì)不是某一個(gè)算法能解決的，也不是僅憑深度學(xué)習(xí)就可以解決的，更不是說一個(gè)搜索系統(tǒng)、識(shí)別系統(tǒng)就可以解決的。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴