大數(shù)據(jù)需要掌握的知識點（新手）

一、學習大數(shù)據(jù)需要的基礎(chǔ)

   java SE，EE(SSM)
       90%的大數(shù)據(jù)框架都是java寫的
   MySQL
       SQL on Hadoop
   Linux
       大數(shù)據(jù)的框架安裝在Linux操作系統(tǒng)上

10年積累的成都做網(wǎng)站、成都網(wǎng)站設(shè)計經(jīng)驗，可以快速應對客戶對網(wǎng)站的新想法和需求。提供各種問題對應的解決方案。讓選擇我們的客戶得到更好、更有力的網(wǎng)絡服務。我雖然不認識你，你也不認識我。但先網(wǎng)站制作后付款的網(wǎng)站建設(shè)流程，更有濱江免費網(wǎng)站建設(shè)讓你可以放心的選擇與我們合作。

二、需要學什么

第一方面：大數(shù)據(jù)離線分析

       一般處理T+1數(shù)據(jù)
           Hadoop 2.X：（common、HDFS、MapReduce、YARN）
               環(huán)境搭建，處理數(shù)據(jù)的思想
           Hive:
               大數(shù)據(jù)數(shù)據(jù)倉庫
               通過寫SQL對數(shù)據(jù)進行操作，類似于mysql數(shù)據(jù)庫中的sql
           HBase
               基于HDFS的NoSql數(shù)據(jù)庫
               面向列的存儲

           協(xié)作框架：
               sqoop（橋梁：HDFS 《==》RDBMS）
               flume:收集日志文件中信息

               調(diào)度框架anzkaban,了解：crotab（Linux自帶）、zeus(Alibaba)、Oozie(cloudera)

           擴展前沿框架：
               kylin、impala、ElasticSearch（ES）

注意：關(guān)于第一方面的內(nèi)容我的另一篇博客有詳細的總結(jié)（是我搜索大量網(wǎng)上資料所得，可以幫你省下不少時間）

第二方面：大數(shù)據(jù)實時分析

           以spark框架為主
           Scala：OOP + FP
           sparkCore:類比MapReduce
           sparkSQL:類比hive
           sparkStreaming：實時數(shù)據(jù)處理
           kafka:消息隊列
       前沿框架擴展：flink
           阿里巴巴 blink

第三方面：大數(shù)據(jù)機器學習（擴展）

           spark MLlib:機器學習庫
           pyspark編程：Python和spark的結(jié)合
           推薦系統(tǒng)
           python數(shù)據(jù)分析

Python機器學習

大數(shù)據(jù)框架安裝功能來劃分

海量數(shù)據(jù)存儲：

HDFS、Hive（本質(zhì)存儲數(shù)據(jù)還是hdfs）、HBASE、ES

海量數(shù)據(jù)分析：

MapReduce、Spark、SQL

最原始的Hadoop框架

數(shù)據(jù)存儲：HDFS（Hadoop Distributed File System）
數(shù)據(jù)分析：MapReduce

Hadoop的起源

Google的三篇論文

   雖然Google沒有公布這三個產(chǎn)品的源碼，
   但是他發(fā)布了這三個產(chǎn)品的詳細設(shè)計論文，
   奠定了風靡全球的大數(shù)據(jù)算法的基礎(chǔ)！

Google FS HDFS

MapReduce MapReduce

BigTable HBase

   將任務分解然后在多臺處理能力較弱的計算節(jié)點中同時處理，然后將結(jié)果合并從而完成大數(shù)據(jù)處理。

   google:android,搜索，大數(shù)據(jù)框架，人工智能框架
   pagerank

Hadoop介紹

   大數(shù)據(jù)絕大多數(shù)框架，都屬于Apache頂級項目
   http://apache.org/
   hadoop官網(wǎng)：
   http://hadoop.apache.org/

分布式
   相對于【集中式】
   需要多臺機器，進行協(xié)助完成。

   元數(shù)據(jù)：記錄數(shù)據(jù)的數(shù)據(jù)
   架構(gòu)：
       主節(jié)點Master   老大，管理者
           管理
       從節(jié)點Slave   從屬，奴隸，被管理者
           干活

Hadoop也是分布式架構(gòu)

common

HDFS:

       主節(jié)點：NameNode
           決定著數(shù)據(jù)存儲到那個DataNode上
       從節(jié)點：DataNode
           存儲數(shù)據(jù)

MapReduce:

       分而治之思想
       將海量的數(shù)據(jù)劃分為多個部分，每部分數(shù)據(jù)進行單獨的處理，最后將所有結(jié)果進行合并
       map task
           單獨處理每一部分的數(shù)據(jù)、

       reduce task
           合并map task的輸出

YARN:

       分布式集群資源管理框架，管理者集群的資源（Memory,cpu core）
       合理調(diào)度分配給各個程序（MapReduce）使用
       主節(jié)點：resourceManager
           掌管集群中的資源
       從節(jié)點：nodeManager
           管理每臺集群資源

總結(jié)：Hadoop的安裝部署

       都屬于java進程，就是啟動了JVM進程，運行服務。
       HDFS：存儲數(shù)據(jù)，提供分析的數(shù)據(jù)
           NameNode/DataNode
       YARN:提供程序運行的資源

ResourceManager/NodeManager

網(wǎng)站題目：大數(shù)據(jù)需要掌握的知識點（新手）
轉(zhuǎn)載注明：http://bm7419.com/article8/igdsop.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供用戶體驗、品牌網(wǎng)站制作、搜索引擎優(yōu)化、網(wǎng)站排名、建站公司、營銷型網(wǎng)站建設(shè)

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容