怎么進(jìn)行AnalyticsZoo入門

本篇文章給大家分享的是有關(guān)怎么進(jìn)行Analytics Zoo入門,小編覺得挺實(shí)用的,因此分享給大家學(xué)習(xí),希望大家閱讀完這篇文章后可以有所收獲,話不多說,跟著小編一起來看看吧。

壽寧網(wǎng)站建設(shè)公司成都創(chuàng)新互聯(lián)公司,壽寧網(wǎng)站設(shè)計制作,有大型網(wǎng)站制作公司豐富經(jīng)驗(yàn)。已為壽寧1000+提供企業(yè)網(wǎng)站建設(shè)服務(wù)。企業(yè)網(wǎng)站搭建\成都外貿(mào)網(wǎng)站制作要多少錢,請找那個售后服務(wù)好的壽寧做網(wǎng)站的公司定做!

一、Overview of Analytics Zoo & BigDL

BigDL
BigDL是2016底開源項(xiàng)目,是基于Spark的分布式深度學(xué)習(xí)框架。當(dāng)時考慮到Spark在深度學(xué)習(xí)的支持方面比較弱,所以希望為大數(shù)據(jù)用戶提供更多先進(jìn)的深度學(xué)習(xí)算法。開發(fā)完BigDL之后發(fā)現(xiàn)它對深度學(xué)習(xí)出身的開發(fā)者并不友好,因?yàn)榇蠹倚枰獙W(xué)習(xí)Spark相關(guān)知識,還需要學(xué)習(xí)Scala。因此開發(fā)了Analytics Zoo,在Analytics Zoo中直接提供了TensorFlow,PyTorch,Keras,BigDL,Ray的支持。

當(dāng)時做BigDL的初衷是因?yàn)楹芏啻髷?shù)據(jù)用戶希望使用深度學(xué)習(xí)的算法,如京東有大量圖像存儲在HBase上,需要對圖像做預(yù)處理,將處理后數(shù)據(jù)放到模型中繼續(xù)工作,還需要將特征提取結(jié)果存放在HDFS上,做圖像相似性檢索等應(yīng)用。京東使用的是Caffe,與大數(shù)據(jù)集群不同的是,兩個集群網(wǎng)絡(luò)帶寬有限,且圖像經(jīng)常更新,用戶每次從GPU集群拉取到大數(shù)據(jù)集群網(wǎng)絡(luò)開銷都非常大。當(dāng)英特爾將整個預(yù)測的pipeline搬到Spark集群上時,HBase和Spark可以結(jié)合在一起,提供零拷貝的處理策略,這種策略使得京東預(yù)測速度提升了3.83倍。

怎么進(jìn)行Analytics Zoo入門

BigDL可以直接跑Spark集群上面,不需要對集群做修改,集成了很多英特爾特有的技術(shù),對模型訓(xùn)練進(jìn)行加速。大家如果對BigDL有興趣可參考SoCC上發(fā)表的一篇工作。

怎么進(jìn)行Analytics Zoo入門

Analytics Zoo
Analytics Zoo是統(tǒng)一的數(shù)據(jù)分析AI平臺,支持筆記本、云、Hadoop Cluster、K8s Cluster等平臺、此外,Analytics Zoo提供了端到端的pipeline,大家可以將AI模型應(yīng)用到分布式大數(shù)據(jù)場景中。Analytics Zoo還提供了端到端的ML workflow和內(nèi)置的模型和算法。具體而言,在底層的使用環(huán)境中,支持深度學(xué)習(xí)框架,如TensorFlow、PyTorch、OpenVINO等,還支持分布式框架,如Spark、Flink、Ray等,還可以使用Python庫,如Numpy、Pandas、sklearn等。在端到端的pipeline中用戶可以使用原生的TensorFlow和PyTorch,用戶只需要很簡單的修改就可以將原有的TensorFlow和PyTorch代碼移植到Spark上來做分布式訓(xùn)練。Analytics Zoo還提供了RayOnSpark,ML Pipeplines,Automatic Cluster Serving,支持流式Serving。在內(nèi)置算法中,提供了推薦算法,時序算法,視覺以及自然語言處理等。

怎么進(jìn)行Analytics Zoo入門

一般大家在開發(fā)大數(shù)據(jù)AI應(yīng)用時,需要經(jīng)過三步。首先在laptop上面使用一些樣本數(shù)據(jù)實(shí)現(xiàn)模型的原型。然后將代碼移植到集群上面,使用歷史數(shù)據(jù)做測試。再將代碼移到生產(chǎn)環(huán)境中,處理分布式數(shù)據(jù)。從用戶角度而言,希望代碼盡可能在第一步完成,后面兩步不再修改,即可部署到自己的Hadoop或K8S集群上。

怎么進(jìn)行Analytics Zoo入門

二、Getting Started

用戶首先需要安裝Analytics Zoo,可以通過Google Colab或者Aliyun EMR,亦或是在筆記本上Pull Analytics Zoo Docker Image,pip install 等方式安裝。

怎么進(jìn)行Analytics Zoo入門

Aliyun EMR指的是Aliyun E-MapReduce, 用戶可以選擇Analytics Zoo 0.8.1版本或TensorFlow 1.15.0作為可選服務(wù)。

怎么進(jìn)行Analytics Zoo入門

三、End-to-End Pipelines

下圖中代碼部分是Analytics Zoo代碼,train_rdd使用了Hadoop API,dataset是從train_rdd導(dǎo)出的TFDataset。開始構(gòu)建TensorFlow模型,將其放到TFOptimizer中,再定義MaxEpoch。

怎么進(jìn)行Analytics Zoo入門

例1:Image Segmentation using TFPark

下面展示了Image Segmentation 的一個例子。注意在第一步,需要帶上sc=init_nncontext(),表示初始化運(yùn)行環(huán)境,幫助用戶初始化analytic-zoo的環(huán)境變量以及Spark context。

怎么進(jìn)行Analytics Zoo入門

再將數(shù)據(jù)下載到指定目錄中,加載數(shù)據(jù)。還可以可視化數(shù)據(jù),展示原生圖片和Mask后的圖片。定義參數(shù),如img_shape,batch_size,epoch等。使用Scipy做數(shù)據(jù)預(yù)處理,得到處理好的特征數(shù)據(jù),將數(shù)據(jù)放到TFDataset中,定義U-Net模型,使用Keras function API,定義loss,使用net.compile()方法,調(diào)用summary可查看目前的結(jié)構(gòu),使用keras_model.fit()方法訓(xùn)練模型,最后再可視化預(yù)測結(jié)果。比對原始圖片,實(shí)際Mask圖片以及預(yù)測圖片如下:

怎么進(jìn)行Analytics Zoo入門

例2:Face Generation Using Distributed PyTorch on Analytics Zoo

下面介紹使用PyTorch的Face Generation 的一個例子,先從PyTorch Hub中下載的PAGN模型,再使用noise方法獲得隨機(jī)數(shù)據(jù),將noise放在model中生成結(jié)果,如下圖:
怎么進(jìn)行Analytics Zoo入門

Analytics Zoo的初始化有三種方法,包括sc=init_nncontext(),第二種是使用init_spark_on _yarn() 方法,第三種是使用 init_spark_on_local()方法。

例子3:Image Similarity using NNFrame

如果想要將Analytics Zoo使用在現(xiàn)有的Spark MLPipeline里面的話,可以使用NNEstimater。

怎么進(jìn)行Analytics Zoo入門

下面介紹Image similarity的例子??蛻糁饕龇慨a(chǎn)交易,它們的一種業(yè)務(wù)場景是為用戶推薦房子。最開始還是需要sc=init_nncontext() 初始化環(huán)境,使用NNImageReader將圖片讀取到Spark中,定義模型,加載模型,再使用NNEstimater集成Analytics Zoo。

怎么進(jìn)行Analytics Zoo入門

Image similarity可視化結(jié)果如下圖:
怎么進(jìn)行Analytics Zoo入門

在Production Deployment時,首先要訓(xùn)練模型,再提取圖片特征數(shù)據(jù)集,最后是做預(yù)測。下圖中左邊是正在觀看的House的樣子,右邊是推薦的較為相似的House。

怎么進(jìn)行Analytics Zoo入門

四、ML Workflow

在做Cluster Serving時可以通過InputQueue方式將數(shù)據(jù)存放到pipeline中,再通過OutputQueue方式輸出數(shù)據(jù)。用戶可以更方便的構(gòu)建出Serving工程。

怎么進(jìn)行Analytics Zoo入門

使用AutoML可以做時序數(shù)據(jù)預(yù)測,相信對做醫(yī)學(xué)的同學(xué)還是很有用的,如觀察某個病人的健康特征隨著時間變化的情況。

怎么進(jìn)行Analytics Zoo入門
怎么進(jìn)行Analytics Zoo入門

以上就是怎么進(jìn)行Analytics Zoo入門,小編相信有部分知識點(diǎn)可能是我們?nèi)粘9ぷ鲿姷交蛴玫降摹OM隳芡ㄟ^這篇文章學(xué)到更多知識。更多詳情敬請關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。

名稱欄目:怎么進(jìn)行AnalyticsZoo入門
瀏覽地址:http://bm7419.com/article46/pscjhg.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供App設(shè)計定制網(wǎng)站、自適應(yīng)網(wǎng)站云服務(wù)器、動態(tài)網(wǎng)站、網(wǎng)站維護(hù)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

網(wǎng)站托管運(yùn)營