阿里云機器學(xué)習(xí)與PAIDSW,阿里云機器學(xué)習(xí)云服務(wù)器阿里云機器學(xué)習(xí)與PAIDSW經(jīng)過20年的快速發(fā)展,阿里經(jīng)濟體已經(jīng)組建了一個龐大的商業(yè)生態(tài)圈,并在支付、云計算、本地生活服務(wù)等行業(yè)保持互聯(lián)網(wǎng)巨頭地位。2020財年交易額突破1萬億美元,全球第一家;阿里云支撐了2019年雙11期間峰值54.4萬筆/秒、單日數(shù)據(jù)處理量達(dá)到9......
經(jīng)過20年的快速發(fā)展,阿里經(jīng)濟體已經(jīng)組建了一個龐大的商業(yè)生態(tài)圈,并在支付、云計算、本地生活服務(wù)等行業(yè)保持互聯(lián)網(wǎng)巨頭地位。2020財年交易額突破1萬億美元,全球第一家;阿里云支撐了2019年雙11期間峰值54.4萬筆/秒、單日數(shù)據(jù)處理量達(dá)到970PB的世界級的流量洪峰,成為業(yè)界第一個實現(xiàn)此壯舉的云計算公司。
阿里云機器學(xué)習(xí)平臺正是伴隨著這樣龐大而復(fù)雜的阿里經(jīng)濟體業(yè)務(wù)成長起來的。下面我們將帶著大家掀開阿里云機器學(xué)習(xí)技術(shù)大圖的一角,看看阿里云機器學(xué)習(xí),特別是機器學(xué)習(xí)工程上的發(fā)展、沉淀和創(chuàng)新。
阿里云機器學(xué)習(xí)技術(shù)大圖
我們從用戶和技術(shù)的兩個角度來梳理阿里云機器學(xué)習(xí)的技術(shù)體系大圖。從用戶的角度來說,根據(jù)使用機器學(xué)習(xí)的深度不同,在云棲大會上,我們展示了飛天AI平臺的技術(shù)分層關(guān)系:
(注:不是一個完整的產(chǎn)品列表,而是一些核心的樣例)
從技術(shù)的角度說,機器學(xué)習(xí)從算法到底層的硬件,都涉及到不同的技術(shù)方向。下面是我們對于核心技術(shù)能力上的一個總體描述:
每個技術(shù)方向上都形成各自的布局和沉淀,接下來我們會重點講述作為機器學(xué)習(xí)重要組成部分的工程能力體系建設(shè)。
阿里云機器學(xué)習(xí)工程能力體系
阿里云在機器學(xué)習(xí)工程體系建設(shè)上,也經(jīng)歷了各領(lǐng)域業(yè)務(wù)需求驅(qū)動和技術(shù)驅(qū)動分階段螺旋式遞進(jìn)上升的過程。由最初的通過傳統(tǒng)機器學(xué)習(xí)算法進(jìn)行數(shù)據(jù)價值的粗加工,到今天以深度學(xué)習(xí)為主、支撐各類“行業(yè)大腦”解決方案的人工智能工程體系。
阿里云的機器學(xué)習(xí)工程能力體系建設(shè)始終圍繞著更高效的融合人工智能三要素(算法、數(shù)據(jù)、算力)進(jìn)行展開,即追求不斷提升整個工程體系中的計算效率、數(shù)據(jù)效率以及工程效率,從而能夠更好的支撐阿里經(jīng)濟體各方面業(yè)務(wù)快速發(fā)展的需求,并通過阿里云對外進(jìn)行技術(shù)輸出,推動人工智能領(lǐng)域的技術(shù)變革,產(chǎn)生更大的社會效益,實現(xiàn)普惠人工智能。
經(jīng)過多年的發(fā)展創(chuàng)新,阿里云在AI托管平臺技術(shù)層進(jìn)行了系統(tǒng)性的建設(shè),極大提升了算法研發(fā)、共享、部署、輸出的效率,在此基礎(chǔ)上沉淀出多個具有用戶粘性和場景差異化的開發(fā)平臺,這里我們選取阿里云機器學(xué)習(xí)PAI(Platform of Artificial Intelligence)作為代表來著重來介紹。
PAI是一款覆蓋機器學(xué)習(xí)全流程的一站式機器學(xué)習(xí)平臺產(chǎn)品,集數(shù)據(jù)預(yù)處理、特征工程、自動調(diào)參、模型訓(xùn)練、在線預(yù)測為一體,為用戶提供低門檻、高性能的云端機器學(xué)習(xí)服務(wù)。
PAI相關(guān)技術(shù)脫胎于阿里集團內(nèi)數(shù)十個BU的上千個業(yè)務(wù)體系,沉淀了大量的覆蓋各個領(lǐng)域的優(yōu)質(zhì)分布式算法、框架、平臺等,同時也在不斷完善和擴充機器學(xué)習(xí)生態(tài)。
阿里云機器學(xué)習(xí)PAIDSW
作為在AI戰(zhàn)線上辛勤耕耘的算法工作者,你是否也常常遇到下面的情形:
算法需要運行在GPU上,可是長時間申請不到GPU機器,只能干著急。
終于GPU機器申請到了,卻不能馬上開始使用,需要先安裝GPU驅(qū)動和各種依賴等等,感覺有些浪費時間。
好不容易機器環(huán)境弄好了,可當(dāng)某天更新算法代碼后變得很慢,排查半天才發(fā)現(xiàn)是GPU驅(qū)動需要升級補丁,很是無奈。
生產(chǎn)環(huán)境機器網(wǎng)絡(luò)隔離,在線上要debug代碼,只能使用GDB在命令行進(jìn)行,開發(fā)效率大大降低。
在本地采用PyCharm這樣的IDE開發(fā)好代碼,而數(shù)據(jù)在生產(chǎn)環(huán)境,不允許下載,只能把代碼拷貝到線上機器運行,發(fā)現(xiàn)問題后,又得回到本地修改調(diào)試后再來一遍,非常不便。
PAI Studio采用圖形化拖拽式,像搭積木一樣分分鐘就構(gòu)建一個完整的工作流,很炫酷。但想要定制發(fā)布自己的組件時,卻不知從何下手。
在長期與算法工程師同學(xué)溝通合作的過程中,我們發(fā)現(xiàn)了算法工程師面臨的這些問題。提升機器學(xué)習(xí)工程效率,降低人工智能使用門檻,急需一個簡單、輕量、好用的工具平臺,從而讓算法工程師更加專注于模型設(shè)計本身。PAI DSW(Data Science Workshop)就是PAI團隊為解決算法工程師的以上痛點,新推出的一款云端機器學(xué)習(xí)開發(fā)IDE。
PAIDSW集成了Jupyterlab、WebIDE等多種開源項目,在阿里巴巴集團內(nèi)上百個BU和上千名工程師的打磨之下性能和功能上都進(jìn)行了一定的調(diào)優(yōu)。數(shù)據(jù)上打通了ODPS等多個數(shù)據(jù)源,方便用戶在構(gòu)建模型的時候免去重新構(gòu)建數(shù)據(jù)管道的工作。同時,在深度學(xué)習(xí)上,PAIDSW內(nèi)置了Tensorboard,可以通過簡單的拖拽的方式來幫助深度學(xué)習(xí)的開發(fā)者更好的完成深度學(xué)習(xí)場景下神經(jīng)網(wǎng)絡(luò)的建模。下圖展示了DSW在機器學(xué)習(xí)平臺PAI產(chǎn)品架構(gòu)中的位置:
(DSW在機器學(xué)習(xí)平臺PAI產(chǎn)品架構(gòu)中的位置)
簡單來說,PAIDSW可以實現(xiàn)多實例、多環(huán)境,GPU/CPU資源、JupyterLab、WebIDE以及全屏使用Terminal無干擾工作。目前PAIDSW已經(jīng)向所有阿里云的用戶免費開放了探索者版,只需要登陸阿里云然后打開https://dswdev.data.aliyun.com/#/即可即刻開始云上數(shù)據(jù)科學(xué)之旅。本書后面兩個章節(jié)將詳細(xì)介紹如何使用PAIDSW這一簡單好用的工具。
特別聲明:以上文章內(nèi)容僅代表作者本人觀點,不代表ESG跨境電商觀點或立場。如有關(guān)于作品內(nèi)容、版權(quán)或其它問題請于作品發(fā)表后的30日內(nèi)與ESG跨境電商聯(lián)系。
二維碼加載中...
使用微信掃一掃登錄
使用賬號密碼登錄
平臺顧問
微信掃一掃
馬上聯(lián)系在線顧問
小程序
ESG跨境小程序
手機入駐更便捷
返回頂部