當前,人工智能正在席卷全球科技產(chǎn)業(yè),越來越多的行業(yè)和市場都在人工智能領域進行深耕,作為當今輔助人類進行創(chuàng)新和變革的重要生產(chǎn)力工具和技術驅(qū)動力,人工智能技術當前已經(jīng)發(fā)展到什么階段了呢?未來人工智能產(chǎn)業(yè)又將會走向何方呢?本期我們一起來聊聊。
對于人工智能技術來說,我們?nèi)粘=?jīng)常看到的或許是機器算法的應用、又或是對于自然語言的處理等內(nèi)容,對于人工智能來說,現(xiàn)在已經(jīng)收集了海量的最優(yōu)算法,其中涵蓋了計算機視覺、游戲、自然語言處理、網(wǎng)絡圖、知識庫等很多內(nèi)容。
計算機視覺感知
其中值得一提的是計算機視覺,對于計算機視覺來說,3d技術是最受青睞的一類,2017年的cvpr,mit、馬薩諸塞大學阿默斯特分校和谷歌deepmind的研究人員展示了一項成果,使用自動編碼器(vae),構建了一個名叫singlevpnet的框架,能從多個視角的深度圖或其相應的輪廓(silhouette)學習生成模型,并使用渲染函數(shù)從這些圖像生成細節(jié)精致的3d形狀。
對于計算機識別感知框架來說,通過一系列不同視角的2d深度圖當中,研究人員就能夠去生成新的3d形狀和3d圖片,其中的平均誤差將會縮小到0.35左右,也就是說計算機視覺所帶來的3d圖片將會是非常逼真的一張圖。
動作識別
在人工智能領域當中,動作識別是整個視頻識別當中最為關鍵的一項組成部分,整個動作可能會貫穿視頻當中,對于動作識別來說,很有可能成為圖像識別的重要組成部分,2017年的neurips,cmu機器人學院的研究人員rohit girdhar 和 deva ramanan 利用注意力機制(attentional pooling),在保持網(wǎng)絡復雜度和計算量基本不變的情況下,在三個靜態(tài)圖像和視頻標準動作識別數(shù)據(jù)集上提升了動作識別的基準。其中,在mpii人體姿態(tài)數(shù)據(jù)集上取得了12.5%的相對改進。
人臉識別技術
在今年的市場研究數(shù)據(jù)報告顯示,在被譽為工業(yè)界“黃金標準”的全球人臉識別算法測試(frvt)中,依圖科技以千萬分之一誤報下的識別準確率超過99%,繼續(xù)保持全球人臉識別競賽冠軍。
千萬分位誤報下的識別準確率超過99%,意味著更多核心關鍵的安防場景被解鎖。相比于去年同期,全球人臉識別性能提升了80%。在整個報告當中對于很多國內(nèi)的人工智能企業(yè)進行了重點的提及和展示,而中國的人工智能企業(yè)也的確在業(yè)務領域和技術創(chuàng)新方面領跑全球。
人體姿態(tài)數(shù)據(jù)分析
在今年的9月份,alphapose系統(tǒng)升級,采用pytorch框架,在姿態(tài)估計標準測試集coco validation set上,達到 71map的精度比openpose 相對提升17%,mask-rcnn相對提升8%,同時,速度達到了20fps比openpose相對提高66%,mask-rcnn相對提高300%。
圖像分類
計算機對于圖像處理來說其實早就已經(jīng)超越了人類的原有技術應用,當前圖像分類精度的最好成績,往往是其他研究的副產(chǎn)物。iclr 2017,谷歌大腦 barret zoph 和 quoc v. le 發(fā)表了“neural architecture search with reinforcement learning”,他們用強化學習自動搜索神經(jīng)網(wǎng)絡結構,最終ai自己設計出的模型,在 cifar-10數(shù)據(jù)集上做圖像分類取得了96.35%的精度。
gan在今年不斷發(fā)展,今年iclr deepmind 提出的 biggan,可謂當前最強圖像生成模型,在128x128分辨率的imagenet上訓練,biggan的 inception 分數(shù)(is)可以達到 166.3 ,frechet inception 距離(fid)9.6。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“機電號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of JDZJ Hao, which is a social media platform and only provides information storage services.
