怎么進(jìn)行AnalyticsZoo入門

本篇文章給大家分享的是有關(guān)怎么進(jìn)行Analytics Zoo入門，小編覺得挺實(shí)用的，因此分享給大家學(xué)習(xí)，希望大家閱讀完這篇文章后可以有所收獲，話不多說，跟著小編一起來看看吧。

壽寧網(wǎng)站建設(shè)公司成都創(chuàng)新互聯(lián)公司,壽寧網(wǎng)站設(shè)計制作，有大型網(wǎng)站制作公司豐富經(jīng)驗(yàn)。已為壽寧1000+提供企業(yè)網(wǎng)站建設(shè)服務(wù)。企業(yè)網(wǎng)站搭建\成都外貿(mào)網(wǎng)站制作要多少錢，請找那個售后服務(wù)好的壽寧做網(wǎng)站的公司定做！

一、Overview of Analytics Zoo & BigDL

BigDL
BigDL是2016底開源項(xiàng)目，是基于Spark的分布式深度學(xué)習(xí)框架。當(dāng)時考慮到Spark在深度學(xué)習(xí)的支持方面比較弱，所以希望為大數(shù)據(jù)用戶提供更多先進(jìn)的深度學(xué)習(xí)算法。開發(fā)完BigDL之后發(fā)現(xiàn)它對深度學(xué)習(xí)出身的開發(fā)者并不友好，因?yàn)榇蠹倚枰獙W(xué)習(xí)Spark相關(guān)知識，還需要學(xué)習(xí)Scala。因此開發(fā)了Analytics Zoo，在Analytics Zoo中直接提供了TensorFlow，PyTorch，Keras，BigDL，Ray的支持。

當(dāng)時做BigDL的初衷是因?yàn)楹芏啻髷?shù)據(jù)用戶希望使用深度學(xué)習(xí)的算法，如京東有大量圖像存儲在HBase上，需要對圖像做預(yù)處理，將處理后數(shù)據(jù)放到模型中繼續(xù)工作，還需要將特征提取結(jié)果存放在HDFS上，做圖像相似性檢索等應(yīng)用。京東使用的是Caffe，與大數(shù)據(jù)集群不同的是，兩個集群網(wǎng)絡(luò)帶寬有限，且圖像經(jīng)常更新，用戶每次從GPU集群拉取到大數(shù)據(jù)集群網(wǎng)絡(luò)開銷都非常大。當(dāng)英特爾將整個預(yù)測的pipeline搬到Spark集群上時，HBase和Spark可以結(jié)合在一起，提供零拷貝的處理策略，這種策略使得京東預(yù)測速度提升了3.83倍。

怎么進(jìn)行Analytics Zoo入門

BigDL可以直接跑Spark集群上面，不需要對集群做修改，集成了很多英特爾特有的技術(shù)，對模型訓(xùn)練進(jìn)行加速。大家如果對BigDL有興趣可參考SoCC上發(fā)表的一篇工作。

怎么進(jìn)行Analytics Zoo入門

Analytics Zoo
Analytics Zoo是統(tǒng)一的數(shù)據(jù)分析AI平臺，支持筆記本、云、Hadoop Cluster、K8s Cluster等平臺、此外，Analytics Zoo提供了端到端的pipeline，大家可以將AI模型應(yīng)用到分布式大數(shù)據(jù)場景中。Analytics Zoo還提供了端到端的ML workflow和內(nèi)置的模型和算法。具體而言，在底層的使用環(huán)境中，支持深度學(xué)習(xí)框架，如TensorFlow、PyTorch、OpenVINO等，還支持分布式框架，如Spark、Flink、Ray等，還可以使用Python庫，如Numpy、Pandas、sklearn等。在端到端的pipeline中用戶可以使用原生的TensorFlow和PyTorch，用戶只需要很簡單的修改就可以將原有的TensorFlow和PyTorch代碼移植到Spark上來做分布式訓(xùn)練。Analytics Zoo還提供了RayOnSpark，ML Pipeplines，Automatic Cluster Serving，支持流式Serving。在內(nèi)置算法中，提供了推薦算法，時序算法，視覺以及自然語言處理等。

怎么進(jìn)行Analytics Zoo入門

一般大家在開發(fā)大數(shù)據(jù)AI應(yīng)用時，需要經(jīng)過三步。首先在laptop上面使用一些樣本數(shù)據(jù)實(shí)現(xiàn)模型的原型。然后將代碼移植到集群上面，使用歷史數(shù)據(jù)做測試。再將代碼移到生產(chǎn)環(huán)境中，處理分布式數(shù)據(jù)。從用戶角度而言，希望代碼盡可能在第一步完成，后面兩步不再修改，即可部署到自己的Hadoop或K8S集群上。

怎么進(jìn)行Analytics Zoo入門

二、Getting Started

用戶首先需要安裝Analytics Zoo，可以通過Google Colab或者Aliyun EMR，亦或是在筆記本上Pull Analytics Zoo Docker Image，pip install 等方式安裝。

怎么進(jìn)行Analytics Zoo入門

Aliyun EMR指的是Aliyun E-MapReduce，用戶可以選擇Analytics Zoo 0.8.1版本或TensorFlow 1.15.0作為可選服務(wù)。

怎么進(jìn)行Analytics Zoo入門

三、End-to-End Pipelines

下圖中代碼部分是Analytics Zoo代碼，train_rdd使用了Hadoop API，dataset是從train_rdd導(dǎo)出的TFDataset。開始構(gòu)建TensorFlow模型，將其放到TFOptimizer中，再定義MaxEpoch。

怎么進(jìn)行Analytics Zoo入門

例1：Image Segmentation using TFPark

下面展示了Image Segmentation 的一個例子。注意在第一步，需要帶上sc=init_nncontext()，表示初始化運(yùn)行環(huán)境，幫助用戶初始化analytic-zoo的環(huán)境變量以及Spark context。

怎么進(jìn)行Analytics Zoo入門

再將數(shù)據(jù)下載到指定目錄中，加載數(shù)據(jù)。還可以可視化數(shù)據(jù)，展示原生圖片和Mask后的圖片。定義參數(shù)，如img_shape，batch_size，epoch等。使用Scipy做數(shù)據(jù)預(yù)處理，得到處理好的特征數(shù)據(jù)，將數(shù)據(jù)放到TFDataset中，定義U-Net模型，使用Keras function API，定義loss，使用net.compile()方法，調(diào)用summary可查看目前的結(jié)構(gòu)，使用keras_model.fit()方法訓(xùn)練模型，最后再可視化預(yù)測結(jié)果。比對原始圖片，實(shí)際Mask圖片以及預(yù)測圖片如下：

怎么進(jìn)行Analytics Zoo入門

例2：Face Generation Using Distributed PyTorch on Analytics Zoo

下面介紹使用PyTorch的Face Generation 的一個例子，先從PyTorch Hub中下載的PAGN模型，再使用noise方法獲得隨機(jī)數(shù)據(jù)，將noise放在model中生成結(jié)果，如下圖：
怎么進(jìn)行Analytics Zoo入門

Analytics Zoo的初始化有三種方法，包括sc=init_nncontext()，第二種是使用init_spark_on _yarn() 方法，第三種是使用 init_spark_on_local()方法。

例子3：Image Similarity using NNFrame

如果想要將Analytics Zoo使用在現(xiàn)有的Spark MLPipeline里面的話，可以使用NNEstimater。

怎么進(jìn)行Analytics Zoo入門

下面介紹Image similarity的例子?？蛻糁饕龇慨a(chǎn)交易，它們的一種業(yè)務(wù)場景是為用戶推薦房子。最開始還是需要sc=init_nncontext() 初始化環(huán)境，使用NNImageReader將圖片讀取到Spark中，定義模型，加載模型，再使用NNEstimater集成Analytics Zoo。

怎么進(jìn)行Analytics Zoo入門

Image similarity可視化結(jié)果如下圖：
怎么進(jìn)行Analytics Zoo入門

在Production Deployment時，首先要訓(xùn)練模型，再提取圖片特征數(shù)據(jù)集，最后是做預(yù)測。下圖中左邊是正在觀看的House的樣子，右邊是推薦的較為相似的House。

怎么進(jìn)行Analytics Zoo入門

四、ML Workflow

在做Cluster Serving時可以通過InputQueue方式將數(shù)據(jù)存放到pipeline中，再通過OutputQueue方式輸出數(shù)據(jù)。用戶可以更方便的構(gòu)建出Serving工程。

怎么進(jìn)行Analytics Zoo入門

使用AutoML可以做時序數(shù)據(jù)預(yù)測，相信對做醫(yī)學(xué)的同學(xué)還是很有用的，如觀察某個病人的健康特征隨著時間變化的情況。

怎么進(jìn)行Analytics Zoo入門

以上就是怎么進(jìn)行Analytics Zoo入門，小編相信有部分知識點(diǎn)可能是我們?nèi)粘９ぷ鲿姷交蛴玫降摹ＯＭ隳芡ㄟ^這篇文章學(xué)到更多知識。更多詳情敬請關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。

名稱欄目：怎么進(jìn)行AnalyticsZoo入門
瀏覽地址：http://bm7419.com/article46/pscjhg.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供App設(shè)計、定制網(wǎng)站、自適應(yīng)網(wǎng)站、云服務(wù)器、動態(tài)網(wǎng)站、網(wǎng)站維護(hù)

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

怎么進(jìn)行AnalyticsZoo入門

一、Overview of Analytics Zoo & BigDL

二、Getting Started

三、End-to-End Pipelines

例1：Image Segmentation using TFPark

例2：Face Generation Using Distributed PyTorch on Analytics Zoo

例子3：Image Similarity using NNFrame

四、ML Workflow

一、Overview of Analytics Zoo & BigDL

二、Getting Started

三、End-to-End Pipelines