大數(shù)據(jù)需要掌握的知識點(新手)

一、學習大數(shù)據(jù)需要的基礎(chǔ)

    java SE,EE(SSM)
        90%的大數(shù)據(jù)框架都是java寫的
    MySQL
        SQL on Hadoop
    Linux
        大數(shù)據(jù)的框架安裝在Linux操作系統(tǒng)上

10年積累的成都做網(wǎng)站、成都網(wǎng)站設(shè)計經(jīng)驗,可以快速應對客戶對網(wǎng)站的新想法和需求。提供各種問題對應的解決方案。讓選擇我們的客戶得到更好、更有力的網(wǎng)絡服務。我雖然不認識你,你也不認識我。但先網(wǎng)站制作后付款的網(wǎng)站建設(shè)流程,更有濱江免費網(wǎng)站建設(shè)讓你可以放心的選擇與我們合作。

二、需要學什么

    第一方面:大數(shù)據(jù)離線分析

        一般處理T+1數(shù)據(jù)
            Hadoop 2.X:(common、HDFS、MapReduce、YARN)
                環(huán)境搭建,處理數(shù)據(jù)的思想
            Hive:
                大數(shù)據(jù)數(shù)據(jù)倉庫
                通過寫SQL對數(shù)據(jù)進行操作,類似于mysql數(shù)據(jù)庫中的sql
            HBase
                基于HDFS的NoSql數(shù)據(jù)庫
                面向列的存儲
                
            協(xié)作框架:
                sqoop(橋梁:HDFS 《==》RDBMS)
                flume:收集日志文件中信息
                
                調(diào)度框架anzkaban,了解:crotab(Linux自帶)、zeus(Alibaba)、Oozie(cloudera)
            
            擴展前沿框架:
                kylin、impala、ElasticSearch(ES)

               

    注意:關(guān)于第一方面的內(nèi)容我的另一篇博客有詳細的總結(jié)(是我搜索大量網(wǎng)上資料所得,可以幫你省下不少時間)

    第二方面:大數(shù)據(jù)實時分析

            以spark框架為主
            Scala:OOP + FP
            sparkCore:類比MapReduce
            sparkSQL:類比hive
            sparkStreaming:實時數(shù)據(jù)處理
            kafka:消息隊列
        前沿框架擴展:flink  
            阿里巴巴 blink
   

    第三方面:大數(shù)據(jù)機器學習(擴展)

            spark MLlib:機器學習庫
            pyspark編程:Python和spark的結(jié)合
            推薦系統(tǒng)
            python數(shù)據(jù)分析

            Python機器學習

大數(shù)據(jù)框架安裝功能來劃分

    海量數(shù)據(jù)存儲:

        HDFS、Hive(本質(zhì)存儲數(shù)據(jù)還是hdfs)、HBASE、ES

    海量數(shù)據(jù)分析:

        MapReduce、Spark、SQL

最原始的Hadoop框架

    數(shù)據(jù)存儲:HDFS(Hadoop Distributed File System)
    數(shù)據(jù)分析:MapReduce

Hadoop的起源

    Google的三篇論文

    雖然Google沒有公布這三個產(chǎn)品的源碼,
    但是他發(fā)布了這三個產(chǎn)品的詳細設(shè)計論文,
    奠定了風靡全球的大數(shù)據(jù)算法的基礎(chǔ)!

        Google FS        HDFS
        MapReduce        MapReduce
        BigTable        HBase

    將任務分解然后在多臺處理能力較弱的計算節(jié)點中同時處理,然后將結(jié)果合并從而完成大數(shù)據(jù)處理。
    
    google:android,搜索,大數(shù)據(jù)框架,人工智能框架
    pagerank
    

Hadoop介紹

    大數(shù)據(jù)絕大多數(shù)框架,都屬于Apache頂級項目
    http://apache.org/
    hadoop官網(wǎng):
    http://hadoop.apache.org/
    
分布式
    相對于【集中式】
    需要多臺機器,進行協(xié)助完成。
    
    元數(shù)據(jù):記錄數(shù)據(jù)的數(shù)據(jù)
    架構(gòu):
        主節(jié)點Master    老大,管理者
            管理
        從節(jié)點Slave    從屬,奴隸,被管理者
            干活

Hadoop也是分布式架構(gòu)

    common

    HDFS:

        主節(jié)點:NameNode
            決定著數(shù)據(jù)存儲到那個DataNode上
        從節(jié)點:DataNode
            存儲數(shù)據(jù)
            

    MapReduce:

        分而治之思想
        將海量的數(shù)據(jù)劃分為多個部分,每部分數(shù)據(jù)進行單獨的處理,最后將所有結(jié)果進行合并
        map task
            單獨處理每一部分的數(shù)據(jù)、
            
        reduce task
            合并map task的輸出
        

    YARN:

        分布式集群資源管理框架,管理者集群的資源(Memory,cpu core)
        合理調(diào)度分配給各個程序(MapReduce)使用
        主節(jié)點:resourceManager
            掌管集群中的資源
        從節(jié)點:nodeManager
            管理每臺集群資源
        

    總結(jié):Hadoop的安裝部署

        都屬于java進程,就是啟動了JVM進程,運行服務。
        HDFS:存儲數(shù)據(jù),提供分析的數(shù)據(jù)
            NameNode/DataNode
        YARN:提供程序運行的資源

            ResourceManager/NodeManager

網(wǎng)站題目:大數(shù)據(jù)需要掌握的知識點(新手)
轉(zhuǎn)載注明:http://bm7419.com/article8/igdsop.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供用戶體驗、品牌網(wǎng)站制作、搜索引擎優(yōu)化網(wǎng)站排名、建站公司、營銷型網(wǎng)站建設(shè)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

成都定制網(wǎng)站建設(shè)