阿里云發布異構計算產品家族,要為人工智能加一把火
數據、算力和算法,這是人工智能發展的三大要素。
近一年來,人工智能迎來了史上第三次熱潮。移動互聯網時代沉淀下來的大量數據和GPU近幾年的快速發展,讓學界和業界相信,這人工智能時代真的要來了。現在,KUKA機器人維修,公有云廠商要在上面加一點火。
由于人工智能模型訓練對算力的要求,原有的通用型CPU架構無法滿足,不少企業或科研機構在訓練模型的時候會通過采用和主處理器(CPU)不同架構的加速器件(也就是所謂異構),如GPU、FPGA、ASIC等器件,提供高密度并行計算的運算能力,非常適合當下的人工智能應用體系。
算力推動了人工智能發展,產業發展也催生了對計算能力的需求,業界專家預測,到2020年,與人工智能相關的計算力需求將會增長12倍。瞄準了這個巨大的需求,公有云廠商開始提供相關產品。
今天(9月12日),阿里云宣布推出全新一代異構加速平臺,這是阿里云首次發布一整套異構計算家族,涵蓋GPU、FPGA在內等7款異構實例;還有基于阿里云異構平臺的全新高性能計算實例E-HPC,可一鍵部署大型超算集群環境。
針對不同業務場景開不同的車
之前,企業如果需要類似的架構來訓練深度學習模型,www.twshmhelmet.com,從服務器和GPU的采購、架構的搭建,到軟件的授權付費,都要自己完成。據阿里云方面表示,利用阿里云的服務可將深度學習成本縮減一半,降低人工智能計算門檻。
阿里云這次推出的人工智能解決方案,囊括了云服務的各層級(詳見下圖)。
先說IaaS層提供的服務器層面,跟此前阿里云發布企業級云服務器產品線的總思路類似,便是為不同的計算需求和人工智能業務場景推出不同的實例。
新一代GPU實例GN5i可以將類似場景需求進一步細致化。據阿里云高級技術專家龍欣接受36氪專訪時介紹,深度學習模型一般有兩個階段,訓練階段和在線推理階段,兩個階段對計算力的要求不同,訓練階段處理大量數據,需要服務器有高吞吐量,推理階段則更需要快速響應用戶要求。這就有點像送貨,追求大容量可以用卡車,量小但是要求快可以用跑車。
因此,在原有的GPU實例GN5的基礎上,阿里云推出了適用于深度學習在線推理階段的新一代GPU實例GN5i。龍欣介紹,后者采用了專有推理型GPU,英偉達Pascal架構P4圖形處理器,時延最低可達微秒級;另外,GN5i可一鍵部署TensorFlow、Caffe等主流深度學習框架,提供智能調度、自動運維、實時擴容等服務,降低人工智能在線服務成本50%以上。
除了GPU這類主流的加速器之外,FPGA成了異構計算近些年的新寵。阿里云異構計算負責人張獻濤解釋,GPU、FPGA和AISC是不同類型的加速器,適用于不同場景,擁有不同的開發難度和市場。
其中,GPU是目前比較主流的通用并行加速器;FPGA是一種可編程的加速器,讓開發者自定義加速算法,提供高效靈活場景化并行計算能力,阿里云高級技術專家游亮介紹,FPGA在低位寬場景有明顯優勢。相比基于GPU的異構計算產品,FPGA更適合金融分析、基因匹配、深度學習和物聯網等對業務有快速迭代計算需求的領域。
阿里云2017年初推出了基于英特爾Arria10芯片的FPGA計算實例,此次發布的F2實例基于賽靈思XilinxKU115器件。
開發者版的淘寶:IP市場
有趣的是,阿里云針對FPGA特性,推出了一個FPGA鏡像市場,這有點像一個FPGA版的應用市場。
由于FPGA的靈活性,開發者在編好一套加速算法之后,其實可以將這套算法輸出。傳統的售賣方式是,為了避免自己的算法泄漏,開發者需要從上游購買芯片,然后將芯片電路板燒好,最后賣給終端用戶。
阿里云的PFGA鏡像市場推出后,開發者可以將自己的加速方案算法(IP)放到這個市場上,終端用戶如果需要用可以直接從市場購買算法使用權,然后從阿里云購買FPGA芯片。
除了提供一個FPGA版的淘寶之外,阿里云還提供一個彈性的FPGA開發平臺。FPGA加速算法的門檻高,技術因素之外,還與其相關開發套件和測試環境的專利授權費高昂有關,后者費用一年可能達到數十萬美金,但實際上閑置的時候可能很多,如果阿里云從國外廠商購買版權之后,推出少量使用免費,超量按需求付費模式,降低FPGAIP的開發門檻。
此前,阿里云就推出了類似的鏡像市場,當時推出的是Docker鏡像市場。總體而言,這套思路很阿里:開個平臺,搭好基礎設施讓你在上面交易,同時平臺提供一堆解決方案。聽起來是不是很像一套開發者版的淘寶,況且還依靠公有云本身龐大的客戶數和生態,似乎是巨頭的生意。
不過,庫卡機器人驅動器維修,據阿里云的幾位專家介紹,國內FPGA的生態尚未完善,雖然懂開發的人不少,但目前跟他們合作到PFGA平臺上準備上線產品的企業也不到三位數。這個市場還屬于一個搶占未來的產品。盡管GPU還是主流,但是包括AWS、微軟和谷歌等公有云廠商,都非常看好FPGA的前景。
云人工智能布局進入生態之爭
針對傳統對高性能計算有強烈需求的高校科研機構和企業用戶,阿里云異構計算家族還包含了彈性高性能計算實例E-HPC。
高性能計算又稱為又稱為并行計算和超級計算,常應用于解決大規模的科學、工程和商業問題,比如氣象預報、工程計算、基因分析、油藏探測、量子化學等領域,可以利用該技術模擬核爆炸、分子運動、汽車撞擊等場景。據游亮介紹,異構計算其實最開始是用在高性能計算場景中。
從前,如果企業或者科研機構有使用高性能計算的需求,需要到國家超算中心申請、排隊。如今隨著高性能計算的需求爆發,制藥和汽車企業對此需求增長,但并非所有企業都有能力建設一座超算中心。因此,在云上建立超算中心的實踐在國外已經相對普遍。
E-HPC屬于PaaS層的服務,基于異構計算云平臺在高性能虛擬化、并行計算和低延遲網絡等方面的特性,提供的是高性能計算集群計算能力、調度能力和軟件能力,客戶可以按需組建自己的云上超算中心,并可實現一鍵部署和彈性伸縮。阿里云稱其為中國首個公共云上的HPCasaService產品,同時提供混合云解決方案。
目前,阿里巴巴集團內部很多業務使用異構計算,比如拍立淘、以圖搜圖、商品分類等,使用阿里云異構計算的企業客戶有數千家,其中包含微博、陌陌、華大基因、中國工程院等。
從阿里云這次發布全套異構計算家族的動作來看,顯然他們想傳遞給開發者的并不是我有不同的ECS這么簡單。說到底,異構計算云服務器實例總歸是花錢就能買到的東西,趨于同質,公有云廠商能做的是盡量推出最新最高性能的產品,面向不同的場景提供垂直化的方案也是差異化競爭的需要。
除此之外,阿里云還有相應的PaaS層服務,提供相應加速器場景下一鍵部署、快速研發和彈性伸縮等能力,同時針對人工智能、高性能計算和大數據等業務場景推出了專門的調度平臺,以降低企業的使用門檻和運維壓力。