以18世紀(jì)為起點(diǎn)的300余年間,世界跑完了一場(chǎng)關(guān)于自動(dòng)化、電氣化、信息化三次工業(yè)革命的馬拉松。每一次主導(dǎo)技術(shù)的改變,都使那一時(shí)間節(jié)點(diǎn)上人類的生活水平、工作方式、社會(huì)結(jié)構(gòu)邁入下一個(gè)嶄新的節(jié)點(diǎn),同時(shí)也開(kāi)發(fā)了社會(huì)的經(jīng)濟(jì)潛能。近年,深度學(xué)習(xí)算法的突破,不僅僅讓人工智能迎來(lái)了歷史上的第三次熱潮,也讓我們看到了工業(yè)革命的浪潮將有望再一次被掀起。
隨著人工智能的三大核心要素,算法、算力、數(shù)據(jù)的日益完善,人工智能眾多應(yīng)用型技術(shù)也開(kāi)始逐漸滲透各個(gè)行業(yè)、影響著人類生活方式,可見(jiàn),工業(yè)革命的馬拉松還未跑完,而我們正逐步邁進(jìn)智能新時(shí)代。筆者將分別從人工智能最基本的幾個(gè)模塊,語(yǔ)音識(shí)別、自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、決策規(guī)劃系統(tǒng)著手,回顧人工智能一路以來(lái)的發(fā)展脈絡(luò),以史為鏡、正視未來(lái)。
語(yǔ)音識(shí)別
人類最直接最簡(jiǎn)潔的交流方式——語(yǔ)音識(shí)別,一直是人工智能實(shí)現(xiàn)人機(jī)交互尋求突破的一大目標(biāo)。在1952年,第一個(gè)基于電子計(jì)算機(jī)的語(yǔ)音識(shí)別系統(tǒng)“audrey”面世,作為“開(kāi)山鼻祖”,它能夠識(shí)別10個(gè)英文數(shù)字,正確率高達(dá)98%。之后的70年代,在全球開(kāi)始風(fēng)靡大規(guī)模的語(yǔ)音識(shí)別研究,但認(rèn)知局限使得當(dāng)時(shí)的研究?jī)H停留在對(duì)孤立詞、小詞匯量句子的識(shí)別上。
由于全球性電傳業(yè)務(wù)積累了大量文本,且文本可作為機(jī)讀語(yǔ)料用于模型的訓(xùn)練和統(tǒng)計(jì),1980年代就成為了技術(shù)取得突破的時(shí)代,研究的重點(diǎn)也轉(zhuǎn)向了大詞匯量和非特定人的連續(xù)語(yǔ)音識(shí)別上,同時(shí)研究思路從基于匹配轉(zhuǎn)變?yōu)榛诮y(tǒng)計(jì),隱馬爾科夫模型(hmm)的理論和應(yīng)用趨于完善。20世紀(jì)90年代是語(yǔ)音識(shí)別基本成熟的時(shí)期,但識(shí)別效果的實(shí)用價(jià)值仍然需要完善,語(yǔ)音識(shí)別研究的進(jìn)展也趨于趨緩。
隨著深度神經(jīng)網(wǎng)絡(luò)(dnn)被應(yīng)用到語(yǔ)音的聲學(xué)建模中,深度學(xué)習(xí)帶來(lái)了技術(shù)上的全新突破,音素識(shí)別任務(wù)和大詞匯量連續(xù)語(yǔ)音識(shí)別任務(wù)都取得了進(jìn)一步發(fā)展?;趃mm-hmm的語(yǔ)音識(shí)別框架被基于dnn-hmm的語(yǔ)音識(shí)別系統(tǒng)所替代,系統(tǒng)的持續(xù)改進(jìn)使深層卷積神經(jīng)網(wǎng)絡(luò)和引入長(zhǎng)短時(shí)記憶模塊(lstm)的循環(huán)神經(jīng)網(wǎng)絡(luò)(rnn)出現(xiàn),這樣,識(shí)別效果就得到了明顯的提升,許多語(yǔ)音識(shí)別任務(wù),尤其是近場(chǎng)語(yǔ)音識(shí)別任務(wù)達(dá)到可以進(jìn)入人們?nèi)粘I畹臉?biāo)準(zhǔn)。以apple siri為首的智能語(yǔ)音助手、以echo為首的智能硬件入口等應(yīng)用的普及,進(jìn)一步擴(kuò)充了語(yǔ)料資源的收集渠道,使得構(gòu)建大規(guī)模通用語(yǔ)言模型和聲學(xué)模型將成為可能。 表一為語(yǔ)音識(shí)別技術(shù)的發(fā)展歷程。
表1 語(yǔ)音識(shí)別技術(shù)發(fā)展歷程

自然語(yǔ)言處理
語(yǔ)言交流是人類在日常生活中不同個(gè)體間信息交換和溝通的重要途徑。因此,能否自然地與人類進(jìn)行交流、理解人們表達(dá)的意思并做出合適的回應(yīng),被認(rèn)為是衡量機(jī)器智能程度的一個(gè)重要參照,自然語(yǔ)言處理也成為人工智能的核心問(wèn)題。
早在上世紀(jì)50年代,ibm第一臺(tái)正式對(duì)外發(fā)布的ibm-701計(jì)算機(jī)進(jìn)行了世界上第一次機(jī)器翻譯試驗(yàn),把幾個(gè)簡(jiǎn)單的俄語(yǔ)句子翻譯成了英文。電子計(jì)算機(jī)的出現(xiàn),已然使機(jī)器翻譯滿足當(dāng)時(shí)自然語(yǔ)言處理的任務(wù)需要,人們對(duì)于自然語(yǔ)言處理存在兩派不同的處理方法。一種是基于規(guī)則的符號(hào)派,另一種為基于概率的隨機(jī)派,而受限于當(dāng)時(shí)的數(shù)據(jù)和算力,規(guī)則派的研究更具優(yōu)勢(shì)。在翻譯方面,當(dāng)時(shí)人們認(rèn)為機(jī)器的翻譯過(guò)程是在解讀密碼,于是試圖讓機(jī)器通過(guò)查詢?cè)~典的方式來(lái)實(shí)現(xiàn)翻譯,但達(dá)到的結(jié)果卻不令人滿意:翻譯效果不佳、難以實(shí)用。
1966年,美國(guó)科學(xué)院的語(yǔ)言自動(dòng)處理咨詢委員會(huì)(alpac),發(fā)布了一篇題為《語(yǔ)言與機(jī)器》的研究報(bào)告,全面否定了機(jī)器翻譯的可行性,認(rèn)為機(jī)器翻譯難以克服現(xiàn)有的困難且沒(méi)有實(shí)用價(jià)值,因此許多國(guó)家開(kāi)始大幅度減少在這方面的經(jīng)費(fèi)投入,自然語(yǔ)言研究從此陷入低谷。從中,研究者們意識(shí)到機(jī)器和人類兩種語(yǔ)言間的差異體現(xiàn)在詞匯和句法結(jié)構(gòu)上,通過(guò)加強(qiáng)語(yǔ)言模型和語(yǔ)義分析的研究,從而可以提升譯文的可讀性。
1976年,是具有里程碑意義的一個(gè)時(shí)間點(diǎn)。這一年,加拿大蒙特利爾大學(xué)與加拿大聯(lián)邦政府翻譯局聯(lián)合開(kāi)發(fā)了名為taum-meteo的機(jī)器翻譯系統(tǒng),提供天氣預(yù)報(bào)服務(wù)。這個(gè)系統(tǒng)每小時(shí)可以翻譯6-30萬(wàn)個(gè)詞,每天可翻譯1-2千篇?dú)庀筚Y料,并能夠通過(guò)電視、報(bào)紙立即公布。到了90年代,自然語(yǔ)言處理進(jìn)入了發(fā)展時(shí)期。
隨著計(jì)算機(jī)的計(jì)算速度和存儲(chǔ)量大幅增加、大規(guī)模真實(shí)文本的積累產(chǎn)生,以及被互聯(lián)網(wǎng)發(fā)展激發(fā)出的、以網(wǎng)頁(yè)搜索為代表的信息檢索和抽取需求出現(xiàn),人們對(duì)自然語(yǔ)言處理的熱情空前高漲。在基于規(guī)則的傳統(tǒng)處理技術(shù)中,人們引入了更多數(shù)據(jù)驅(qū)動(dòng)的統(tǒng)計(jì)方法,將自然語(yǔ)言處理的研究推向了一個(gè)新高度,除了機(jī)器翻譯之外,網(wǎng)頁(yè)搜索、語(yǔ)音交互、對(duì)話機(jī)器人等領(lǐng)域的發(fā)展都有自然語(yǔ)言處理的功勞。
進(jìn)入2010年以后,基于淺層、深層學(xué)習(xí)技術(shù)和大數(shù)據(jù),自然語(yǔ)言處理的功能得到了進(jìn)一步優(yōu)化,專門的智能翻譯產(chǎn)品面世,對(duì)話交互能力被應(yīng)用在客服機(jī)器人、智能助手等產(chǎn)品中。機(jī)器翻譯方面,谷歌推出的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯(gnmt)相比傳統(tǒng)的基于詞組的機(jī)器翻譯(pbmt),英語(yǔ)到西班牙語(yǔ)的錯(cuò)誤率下降87%,英文到中文的錯(cuò)誤率下降58%,取得了非常顯著的提升。表2為自然語(yǔ)言處理功能的發(fā)展歷程。
表2 自然語(yǔ)言處理功能發(fā)展歷程

計(jì)算機(jī)視覺(jué)技術(shù)
九十年代,計(jì)算機(jī)視覺(jué)技術(shù)取得了更大的發(fā)展,開(kāi)始廣泛應(yīng)用于工業(yè)領(lǐng)域。一方面是圖像處理硬件技術(shù)有了飛速進(jìn)步,另一方面是人們也開(kāi)始嘗試不同的算法,包括統(tǒng)計(jì)方法和局部特征描述符的引入。在“先驗(yàn)知識(shí)庫(kù)”的方法中,事物的形狀、顏色、表面紋理等特征受到視角和觀察環(huán)境所影響,在不同角度、不同光線、不同遮擋的情況下會(huì)產(chǎn)生變化。因此,人們找到了一種方法:通過(guò)局部特征的識(shí)別來(lái)判斷事物,對(duì)事物建立一個(gè)局部特征索引,即使視角或觀察環(huán)境發(fā)生變化,也能比較準(zhǔn)確地匹配上。
21世紀(jì),得益于因互聯(lián)網(wǎng)興起和數(shù)碼相機(jī)出現(xiàn)而帶來(lái)的海量數(shù)據(jù),加之機(jī)器學(xué)習(xí)方法的廣泛應(yīng)用,計(jì)算機(jī)視覺(jué)發(fā)展迅速。以往許多基于規(guī)則的處理方式,都被機(jī)器學(xué)習(xí)所替代:自動(dòng)從海量數(shù)據(jù)中總結(jié)歸納物體的特征,然后進(jìn)行識(shí)別和判斷。這一階段涌現(xiàn)出了非常多的應(yīng)用,包括典型的相機(jī)人臉檢測(cè)、安防人臉識(shí)別、車牌識(shí)別等。
2010年,借助于深度學(xué)習(xí)的力量,計(jì)算機(jī)視覺(jué)技術(shù)得到了爆發(fā)增長(zhǎng)和產(chǎn)業(yè)化。通過(guò)深度神經(jīng)網(wǎng)絡(luò),各類視覺(jué)相關(guān)任務(wù)的識(shí)別精度都得到了大幅提升。在全球最權(quán)威的計(jì)算機(jī)視覺(jué)競(jìng)賽ilsvr上,千類物體識(shí)別top 5錯(cuò)誤率在2010年和2011年時(shí)分別為28.2%和25.8%,2012年引入深度學(xué)習(xí)之后,后續(xù)4年分別為16.4%、11.7%、6.7%、3.7%,出現(xiàn)了顯著突破。由于效果的提升,計(jì)算機(jī)視覺(jué)技術(shù)的應(yīng)用場(chǎng)景也快速擴(kuò)展,除了在比較成熟的安防領(lǐng)域應(yīng)用外,也有應(yīng)用在金融領(lǐng)域的人臉識(shí)別身份驗(yàn)證、電商領(lǐng)域的商品拍照搜索、醫(yī)療領(lǐng)域的智能影像診斷、機(jī)器人/無(wú)人車上作為視覺(jué)輸入系統(tǒng)等,包括許多有意思的場(chǎng)景:照片自動(dòng)分類(圖像識(shí)別+分類)、圖像描述生成(圖像識(shí)別+理解)等。表3為計(jì)算機(jī)視覺(jué)別技術(shù)的發(fā)展歷程

圖 計(jì)算機(jī)視覺(jué)別技術(shù)發(fā)展歷程
規(guī)劃決策系統(tǒng)
人工智能規(guī)劃決策系統(tǒng)的發(fā)展,一度是以棋類游戲?yàn)檩d體的。早在18世紀(jì),就出現(xiàn)過(guò)一臺(tái)可以下棋的機(jī)器,當(dāng)時(shí)幾乎擊敗了所有人類棋手,后來(lái)才知道,這僅是一場(chǎng)騙局罷了。之后,電子計(jì)算機(jī)誕生,1962年基于人工智能的規(guī)劃決策系統(tǒng)出現(xiàn),arthur samuel屢次改進(jìn)的西洋跳棋程序checkers終于戰(zhàn)勝了人類棋手的州冠軍,證明程序已具備了初步的自我學(xué)習(xí)能力,使得這場(chǎng)勝利在當(dāng)時(shí)引起了巨大的轟動(dòng)。
但人工智能所面臨的困難比人們想象得還要難的多,以當(dāng)時(shí)的計(jì)算能力,機(jī)器若想通過(guò)暴力計(jì)算戰(zhàn)勝人類象棋棋手,每步棋的平均計(jì)算時(shí)長(zhǎng)需要以年為單位。于是人們開(kāi)始將“剪枝法”運(yùn)用到了估值函數(shù)中,通過(guò)剔除低可能性的走法優(yōu)化最終的估值函數(shù)計(jì)算。在此改進(jìn)下,西北大學(xué)開(kāi)發(fā)的象棋程序chess 4.5在1976年首次擊敗了頂尖人類棋手。隨著算法上的不斷優(yōu)化,國(guó)際象棋程序由80年代開(kāi)始,在判斷能力和計(jì)算速度方面大幅提升,幾乎已經(jīng)能夠擊敗所有頂尖的人類棋手。1997年那場(chǎng)著名的人機(jī)大戰(zhàn)中,由于機(jī)器的運(yùn)算硬件性能和算法能力等都已得到了大幅提升,由ibm研發(fā)的深藍(lán)(deepblue)戰(zhàn)勝了國(guó)際象棋大師卡斯帕羅夫。
2016年,硬件層面出現(xiàn)了基于gpu、tpu的并行計(jì)算,算法層面上出現(xiàn)蒙特卡洛決策樹(shù)與深度神經(jīng)網(wǎng)絡(luò)的結(jié)合。4:1戰(zhàn)勝李世石、在野狐圍棋對(duì)戰(zhàn)頂尖棋手60連勝、3:0戰(zhàn)勝世界排名第一的圍棋選手柯潔,足以表明人類在博弈游戲中已經(jīng)完全敗給機(jī)器。由此,從棋類游戲中積累的知識(shí)和經(jīng)驗(yàn)被應(yīng)用在更廣泛的需要決策規(guī)劃的領(lǐng)域,包括機(jī)器人控制、無(wú)人車等等,人工智能進(jìn)入一個(gè)新的發(fā)展階段。表4為規(guī)劃決策系統(tǒng)的發(fā)展歷程。
表4 規(guī)劃決策系統(tǒng)發(fā)展歷程

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“機(jī)電號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of JDZJ Hao, which is a social media platform and only provides information storage services.
