尤物精品_gay小说高h_成人免费va视频_涩涩18网站

Azure Data Lake Storage Gen 實戰體驗,如何使用azuredatastudio-ESG跨境

Azure Data Lake Storage Gen 實戰體驗,如何使用azuredatastudio

來源網絡
來源網絡
2022-07-05
點贊icon 0
查看icon 1254

Azure Data Lake Storage Gen 實戰體驗,如何使用azuredatastudioAzure Data Lake Storage Gen 實戰體驗引言相較傳統的重量級OLAP數據倉庫,“數據湖”以其數據體量大、綜合成本低、支持非結構化數據、查詢靈活多變等特點,受到越來越多企業的青睞,逐漸成為了現代......

Azure Data Lake Storage Gen 實戰體驗,如何使用azuredatastudio





Azure Data Lake Storage Gen 實戰體驗

引言

相較傳統的重量級OLAP數據倉庫,“數據湖”以其數據體量大、綜合成本低、支持非結構化數據、查詢靈活多變等特點,受到越來越多企業的青睞,逐漸成為了現代數據平臺的核心和架構范式。

因此數據湖相關服務成為了云計算的發展重點之一。Azure平臺早年就曾發布第一代Data Lake Storage,隨后微軟將它與Azure Storage進行了大力整合,于今年初正式對外發布了其第二代產品:Azure Data Lake Storage Gen2(下稱ADLS Gen2)。ADLS Gen2的口號是“不妥協的數據湖平臺,它結合了豐富的高級數據湖解決方案功能集以及 Azure Blob 存儲的經濟性、全球規模和企業級安全性”。

全新一代的ADLS Gen2 實際體驗如何?讓我們來深入研究一下,尤其是關注ADLS Gen2 作為存儲層掛載到大數據集群后的表現。

ADLS Gen2體驗:集群掛載

數據湖存儲主要適用于大數據處理的場景,所以我們選擇建立一個HDInsight大數據集群來進行實驗,使用Spark來訪問和操作數據湖中的數據。可以看到HDInsight已經支持ADLS Gen2了:

接下來是比較關鍵的存儲配置環節,我們指定使用一個新建的ADLS Gen2實例hdiclusterroot來作為整個集群的存儲,文件系統名為hdfsroot,如圖所示:

(圖中我們還配置了Additional storage accounts,用于掛載傳統Blob,之后作性能對比時會用到。此處暫不展開。)

很有意思的是上圖的下半部分,它允許我們指定一個Identity,這個Identity可以代表Spark集群的身份和訪問權限。這非常關鍵,意味著集群的身份能夠完美地與ADLS Gen2的權限體系對應起來,在企業級的場景中能夠很好地落地對于大數據資源訪問的管控。

這里選擇了專門建立的一個sparkclusteridentity作為集群的身份。我們事先為它賦予了hdiclusterroot這個存儲賬號的storage blob data owner權限,以便該identity能夠對數據湖中的數據進行任意操作:

完成其他配置后按下創建按鈕,Azure會一鍵生成Spark集群,大約十來分鐘后整個集群就進入可用狀態了:

我們迫不及待地SSH登錄進集群,查看其默認掛載的文件系統。嘗試使用hadoop fs ls列出根目錄下的文件信息:

sshuser@hn0cloudp:~$ hadoop fs ls /

Found 18 items

drwxrxrx sshuser sshuser     0 20190826 03:10 /HdiNotebooks

drwxrxrx sshuser sshuser     0 20190826 03:29 /HdiSamples

drwxrx sshuser sshuser     0 20190826 02:54 /ams

drwxrx sshuser sshuser     0 20190826 02:54 /amshbase

drwxrwxwt sshuser sshuser     0 20190826 02:54 /applogs

drwxrx sshuser sshuser     0 20190906 07:41 /apps

drwxrxx sshuser sshuser     0 20190826 02:54 /atshistory

drwxrxrx sshuser sshuser     0 20190826 03:25 /customscriptactionlogs

drwxrxrx sshuser sshuser     0 20190826 03:19 /example

drwxrx sshuser sshuser     0 20190826 02:54 /hbase

drwxrxx sshuser sshuser     0 20190906 07:41 /hdp

drwxrx sshuser sshuser     0 20190826 02:54 /hive

drwxrx sshuser sshuser     0 20190826 02:54 /mapred

drwxrwxwt sshuser sshuser     0 20190826 03:19 /mapreducestaging

drwxrwxwt sshuser sshuser     0 20190826 02:54 /mrhistory

drwxrwxwt sshuser sshuser     0 20190826 03:19 /tezstaging

drwxrx sshuser sshuser     0 20190826 02:54 /tmp

drwxrwxwt sshuser sshuser     0 20190909 02:31 /user

將文件列表和ADLS Gen2比對,可以看到這里的“根目錄”事實上就完全對應著hdiclusterroot這個數據湖實例下hdfsroot文件系統中的數據,這說明集群實現了該數據湖文件系統的掛載:

那么,這樣的遠程掛載是如何實現的呢?打開集群的coresite.xml 配置文件,答案在fs.defaultFS配置節中:

property  namefs.defaultFS/name  valueabfs://hdfsroot@hdiclusterroot.dfs.core.windows.net/value  finaltrue/final/property

原來,與通常使用hdfs不同,集群的fs.defaultFS在創建時就被設置為了以abfs為開頭的特定url,該url正是指向我們的數據湖存儲。這個ABFS驅動(Azure Blob File System)是微軟專門為Data Lake Storage Gen2開發,全面實現了Hadoop的FileSystem接口,為Hadoop體系和ADLS Gen2架起了溝通橋梁。

為證明數據湖文件系統能夠正常工作,我們來運行一個經典的WordCount程序。筆者使用AzCopy往數據湖中上傳了一本小說《雙城記》 (ATaleOfTwoCities.txt),然后到HDInsight集群自帶的Jupyter Notebook里通過Scala腳本運用Spark來進行詞頻統計:

Great! 我們的Spark on ADLS Gen2實驗完美運行,過程如絲般順滑。

小結

Azure Data Lake Storage Gen2是微軟Azure全新一代的大數據存儲產品,專為企業級數據湖類應用所構建。它繼承了Azure Blob Storage易于使用、成本低廉的特點,同時又加入了目錄層次結構、細粒度權限控制等企業級特性。

本文主要實踐了大數據集群掛載ADLS Gen2作為主存儲的場景,在證明ADLS Gen2具備良好Hadoop生態兼容性的同時,也體驗了與傳統HDFS不同的存儲計算分離架構。該種架構由于可獨立擴展計算和存儲部分,非常適合云端特點,正受到越來越多的歡迎。


文章推薦
ASO優化在APP Store中應該怎么做搜索優化,app怎么定制aso優化
Google UAC系列如何衡量出價水平是否合理呢,googleuac預算
Azure面向制造業的解決方案,azure公司
App出海,app出海聯運


特別聲明:以上文章內容僅代表作者本人觀點,不代表ESG跨境電商觀點或立場。如有關于作品內容、版權或其它問題請于作品發表后的30日內與ESG跨境電商聯系。

搜索 放大鏡
韓國平臺交流群
加入
韓國平臺交流群
掃碼進群
歐洲多平臺交流群
加入
歐洲多平臺交流群
掃碼進群
美國賣家交流群
加入
美國賣家交流群
掃碼進群
ESG跨境專屬福利分享群
加入
ESG跨境專屬福利分享群
掃碼進群
拉美電商交流群
加入
拉美電商交流群
掃碼進群
亞馬遜跨境增長交流群
加入
亞馬遜跨境增長交流群
掃碼進群
亞馬遜跨境增長交流群
加入
亞馬遜跨境增長交流群
掃碼進群
拉美電商交流群
加入
拉美電商交流群
掃碼進群
ESG獨家招商-PHH GROUP賣家交流群
加入
ESG獨家招商-PHH GROUP賣家交流群
掃碼進群
2025跨境電商營銷日歷
《2024年全球消費趨勢白皮書——美國篇》
《2024TikTok出海達人營銷白皮書》
《Coupang自注冊指南》
《eMAG知識百科》
《TikTok官方運營干貨合集》
《韓國節日營銷指南》
《開店大全-全球合集》
《TikTok綜合運營手冊》
《TikTok短視頻運營手冊》
通過ESG入駐平臺,您將解鎖
綠色通道,更高的入駐成功率
專業1v1客戶經理服務
運營實操指導
運營提效資源福利
平臺官方專屬優惠

立即登記,定期獲得更多資訊

訂閱
聯系顧問

平臺顧問

平臺顧問 平臺顧問

微信掃一掃
馬上聯系在線顧問

icon icon

小程序

微信小程序

ESG跨境小程序
手機入駐更便捷

icon icon

返回頂部