對于復(fù)雜(或多樣化)的人工智能部署,異構(gòu)硬件架構(gòu)如何打破人工智能模型和現(xiàn)實部署之間的障礙。
這是人工智能 (ai) 發(fā)展中令人難以置信的激動時刻。以前,只有在某一領(lǐng)域擁有深厚專業(yè)知識的公司才有可能使用人工智能。短短幾年后,我們看到世界各地的英特爾客戶使用人工智能在各種用例和環(huán)境中取得了變革性的成功。這是由于軟件工具、生態(tài)系統(tǒng)和硬件能力都日漸成熟。
客戶們發(fā)現(xiàn),沒有單一的“最佳”硬件來運行各種各樣的人工智能應(yīng)用程序,因為沒有單一類型的人工智能。應(yīng)用程序的限制決定了從數(shù)據(jù)中心到邊緣到設(shè)備所需硬件的能力,這再次強調(diào)了對更多樣化的硬件產(chǎn)品組合的需求。它們涵蓋各種各樣的應(yīng)用程序,不管出現(xiàn)在何處,都將為英特爾客戶帶來最高回報。
從擅長對大量非結(jié)構(gòu)化語音和文本數(shù)據(jù)進行訓(xùn)練和推理的英特爾至強可擴展處理器,到為實時推理提供出色吞吐量和低延遲的靈活英特爾fpga,再到為攝像頭提供超低功耗推理的英特爾movidius視覺處理單元 (vpu),以及即將推出的英特爾nervana神經(jīng)網(wǎng)絡(luò)處理器(英特爾nervana nnp)。英特爾nervana nnp從頭開始全新打造,目標是加快深度學(xué)習(xí)速度,英特爾提供了一個深度硅芯片基礎(chǔ),專為啟用數(shù)據(jù)中心創(chuàng)新而定制,讓數(shù)據(jù)能夠?qū)崟r存在于從端點設(shè)備到邊緣,再到數(shù)據(jù)中心和云。
我們正在對軟件進行大量投資,以讓這些功能可在我們的產(chǎn)品組合之間移植,從而將人工智能帶到各種應(yīng)用程序中,而不受任何限制。像 ngraph這樣的開源項目,降低了跨不同硬件平臺對不同深度學(xué)習(xí)框架(例如 tensorflow、mxnet和 pytorch等)進行優(yōu)化的難度。這為開發(fā)人員提供了向其客戶提供最佳體驗的選擇。
在最近的數(shù)據(jù)中心創(chuàng)新峰會上,我有機會參與討論了英特爾針對各種應(yīng)用的全面采用英特爾至強可擴展處理器的高級深度學(xué)習(xí)訓(xùn)練
挑戰(zhàn):通過自動分析顯微鏡圖像中成千上萬個不同的特征,發(fā)現(xiàn)新的治療方法,這些圖像尺寸遠大于傳統(tǒng)深度學(xué)習(xí)數(shù)據(jù)集中的圖像尺寸。
解決方案:利用基于英特爾至強可擴展處理器平臺的大內(nèi)存容量和高性能計算能力。
高內(nèi)涵篩選是藥物發(fā)現(xiàn)的重要工具。這是一項極具挑戰(zhàn)性且耗時的工作,需要從圖像中提取成千上萬的預(yù)定義特征。
今天,在我們以數(shù)據(jù)為中心的創(chuàng)新峰會上,我們描述了諾華如何與英特爾合作,利用深度學(xué)習(xí)來加快細胞培養(yǎng)顯微圖像的分析,以研究各種治療的效果。由于使用了完整的顯微鏡圖像,本評估中的圖像尺寸比普通深度學(xué)習(xí)基準中使用的圖像尺寸大得多。例如,比 imagenet數(shù)據(jù)集中的圖像尺寸大超出 26 倍。
盡管由于訓(xùn)練模型中的參數(shù)數(shù)量以及所用圖像的尺寸和數(shù)量,提出了計算要求和內(nèi)存需求,但團隊使用了英特爾至強金牌 6148 處理器、英特爾omni-path 架構(gòu)和 tensorflow 1.7.0 搭建的系統(tǒng)進行訓(xùn)練,因而訓(xùn)練時間節(jié)省了 20 倍1。英特爾硬件可支持卓越的內(nèi)存容量,支持每秒超過 120 張 390 萬像素的圖像。
正如此例和其他例子所展示的那樣,cpu 架構(gòu)更適合滿足很多現(xiàn)實世界深度學(xué)習(xí)應(yīng)用的需求。此外,源源不斷的投資正在涌入,旨在增強基于英特爾至強可擴展處理器的平臺性能,隨著平臺發(fā)布,很多熱門框架的推理速度都有提升。而隨著我們新一代英特爾至強處理器(代號為 cascade lake)的推出,推理速度更提升至 11 倍。未來對英特爾optane dc 持久內(nèi)存的平臺支持,將擴展 cpu 附近的內(nèi)存容量,以支持對更大數(shù)據(jù)集的訓(xùn)練。
在創(chuàng)新峰會上,我們還宣布了英特爾dl boost,這是一套旨在加快人工智能深入學(xué)習(xí)速度的處理器技術(shù)。cascade lake 還將采用矢量神經(jīng)網(wǎng)絡(luò)指令集 (vnni),該指令集在一條指令中完成了之前采用的三條指令。cooper lake 是繼 cascade lake 后的英特爾至強可擴展處理器,將為英特爾dl boost 增加對 bfloat 16 的支持,進一步提升了訓(xùn)練性能。
我們還致力于讓英特爾至強處理器更容易讓客戶進行滿堆棧部署,就像在英特爾select 解決方案中所做的那樣。apache spark上針對 bigdl 的全新英特爾select 解決方案配置是我們與阿里巴巴、亞馬遜、中國電信、微軟和 telefonica 等行業(yè)領(lǐng)先企業(yè)合作的結(jié)晶,也是我們從數(shù)百次部署 bigdl 中獲得的重要經(jīng)驗,旨在提供一種配置,讓客戶能夠為現(xiàn)有數(shù)據(jù)湖快速部署人工智能功能。該解決方案包括硬件和軟件組件,是我們第一個面向人工智能的英特爾select 解決方案,2018 年下半年由我們的合作伙伴面向市場發(fā)售。
英特爾fpga 實時深度學(xué)習(xí)推理
挑戰(zhàn):開發(fā)一個實時深度學(xué)習(xí)平臺,可以靈活地跨多個 microsoft 用例進行擴展。
解決方案:利用英特爾arria fpga 的微軟 project brainwave 硬件架構(gòu)。
微軟 project brainwave 是一個深度學(xué)習(xí)加速平臺,是基于適應(yīng)性強、省電、高通量的英特爾 fpga 之上構(gòu)建的。project brainwave 憑借極具競爭力的成本和極低延遲來實現(xiàn)實時推理功能。在不斷發(fā)展的人工智能環(huán)境中,fpga 能夠重新編程以獲得最高性能,是很多深度學(xué)習(xí)應(yīng)用的重要工具,包括從搜索、語音識別到視頻內(nèi)容分析等應(yīng)用。
微軟最近宣布,azure 機器學(xué)習(xí)加速硬件由 project brainwave 提供支持。這項服務(wù)讓開發(fā)人員和數(shù)據(jù)科學(xué)家能夠在 azure 和云邊緣跨各類實時應(yīng)用程序運行實時模型,包括制造業(yè)、零售業(yè)和醫(yī)療保健領(lǐng)域的實時模型。
微軟還將 project brainwave 應(yīng)用于新的必應(yīng)搜索功能,以加快搜索結(jié)果并呈現(xiàn)智能化答案。使用機器學(xué)習(xí)和閱讀理解,必應(yīng)能快速提供智能化答案,以幫助用戶更快地找到他們想尋找的答案,而不是提供鏈接列表來讓用戶手動檢查答案。英特爾 fpga 能讓必應(yīng)將模型延遲時間縮短 10 倍以上,同時將模型尺寸增加 10 倍。
采用英特爾movidius myria視覺處理單元,讓視覺智能取得領(lǐng)先優(yōu)勢
挑戰(zhàn):自動捕捉和策劃家人、朋友和寵物的動感照片,由邊緣設(shè)備自身完成視覺處理。
解決方案:google clips無線智能相機,采用英特爾movidius myriad 2 視覺處理單元 (vpu)。
英特爾movidius 提供低功耗、高性能的 vpu,幫助谷歌實現(xiàn)了其 google clips 相機的構(gòu)想。借助英特爾movidius myriad 2 vpu,可以直接在相機上實時運行高級機器學(xué)習(xí)算法。這讓 google 能夠改善相機功能,降低功耗,并支持離線使用。
英特爾movidius vpu 的目標應(yīng)用包括嵌入式深度神經(jīng)網(wǎng)絡(luò)、姿態(tài)估計、3d 深度感測和手勢/眼睛跟蹤,隨著“相機互聯(lián)網(wǎng)”的爆發(fā)式增長,它為創(chuàng)新的新應(yīng)用提供了各項功能,同時通過讓邊緣設(shè)備本身保留這些人工智能應(yīng)用,以達到對隱私和安全策略的遵守。上述設(shè)備以及未來的英特爾movidius vpu 將繼續(xù)在視頻分析、機器人和增強現(xiàn)實等應(yīng)用領(lǐng)域帶來價值。
采用英特爾nervana神經(jīng)網(wǎng)絡(luò)處理器的新一代訓(xùn)練和推理
挑戰(zhàn):利用全新構(gòu)建的架構(gòu)繞過當前的系統(tǒng)障礙,支持新一代突破性深度學(xué)習(xí)解決方案。
解決方案:英特爾nervana 神經(jīng)網(wǎng)絡(luò)處理器,2019 年上市。
隨著人工智能的發(fā)展,模型越來越復(fù)雜,對內(nèi)存的需求也越來越大。支持深度學(xué)習(xí)的未來,意味著要克服阻礙我們前進的內(nèi)存障礙。當前的解決方案無法利用所有可用的計算機,就像缺乏汽油的發(fā)動機一樣。正因為如此,數(shù)據(jù)科學(xué)家和研究人員越來越認識到,需要有專門為深度學(xué)習(xí)訓(xùn)練和推理而設(shè)計的硅芯片。打破這種內(nèi)存障礙推動我們使用采納英特爾nervana神經(jīng)網(wǎng)絡(luò)處理器的全新方法,該處理器是專門為支持深度學(xué)習(xí)而設(shè)計和構(gòu)建的。
英特爾nervana nnp 將內(nèi)存放在第一位,它采用了大量高帶寬內(nèi)存和 sram,更接近實際進行計算的位置。這意味著可以在芯片上存儲更多的模型參數(shù),以顯著節(jié)省功耗并提升性能。它支持大多數(shù)深度學(xué)習(xí)基元,同時讓核心硬件組件盡可能高效,確保沒有任何額外項(例如圖形)會從深度學(xué)習(xí)應(yīng)用中竊取內(nèi)存。此外,英特爾nervana nnp 的高速片內(nèi)和片外互連支持大規(guī)模雙向數(shù)據(jù)傳輸,這樣可以在多個機箱之間連接多個處理器,以充當一個更大的高效芯片來容納更大的模型,以獲得更深入的洞察。
英特爾與 lake crest 軟件開發(fā)車輛 (sdv) 方面的主要客戶合作,進行 nnp 開發(fā)、測試和反饋。當我們準備在 2019 年發(fā)售我們的第一個商業(yè)產(chǎn)品時,以上都被納入進來。隨著人工智能領(lǐng)域的進一步發(fā)展,我迫不及待地想從這些突破性芯片中看到我們客戶的創(chuàng)新和見解。
簡化異構(gòu)部署和加速人工智能創(chuàng)新的軟件
框架和庫對于推動人工智能的發(fā)展至關(guān)重要。離開軟件,硬件就沒有任何東西可結(jié)合以產(chǎn)生最大的影響。我們在英特爾的目標利用穩(wěn)健的多架構(gòu)方法,將所有人工智能都集成到一個軟件保護傘下。這就是為什么像我們的開源 ngraph 編譯器這樣的計劃如此重要的緣故。您的時間不應(yīng)該花在重新發(fā)明工具上。
在英特爾,我們認為我們有責(zé)任優(yōu)化軟件和提供工具,這些工具可以讓我們的硬件發(fā)揮最佳性能,并簡化模型和現(xiàn)實之間的流程。利用我們的開源性能庫,從深度學(xué)習(xí)的直接優(yōu)化中獲得更多好處;探索我們的開源深度學(xué)習(xí)編譯器 ngraph,它能夠跨多個框架和架構(gòu)運行訓(xùn)練和推理;使用 openvino 快速優(yōu)化預(yù)訓(xùn)練模型,并將視頻神經(jīng)網(wǎng)絡(luò)部署到各種硬件上;并且利用 bigdl 來駕馭大量數(shù)據(jù),bigdl 是我們針對 apache spark 和 hadoop 群集的分布式深度學(xué)習(xí)庫。
提供針對 data era 優(yōu)化的客戶解決方案
英特爾正在幫助客戶更好地處理每天生成的大量數(shù)據(jù)并從中獲得價值。我們致力于提供全面的硬件和工具組合,以實現(xiàn)任何人工智能愿景。
現(xiàn)實世界中人工智能的復(fù)雜性要求將正確的硬件和軟件結(jié)合起來,以便讓應(yīng)用能夠得以實現(xiàn)。英特爾在一個內(nèi)聚的、多功能的、眾所周知的技術(shù)生態(tài)系統(tǒng)中提供這些工具。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“機電號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of JDZJ Hao, which is a social media platform and only provides information storage services.
