更新時(shí)間:2024-04-13 20:11:39作者:佚名
--------
從大數(shù)據(jù)中可以學(xué)到什么?
1.Linux
lucene:全文搜索引擎架構(gòu)
Solr:基于Lucene的全文搜索服務(wù)器,可配置、可擴(kuò)展、優(yōu)化查詢(xún)性能、提供完整的功能管理接口。
2. Hadoop
hadoop通用
HDFS:分布式存儲(chǔ)系統(tǒng),包括NameNode、DataNode。
NameNode:元數(shù)據(jù)、DataNode。 DataNode:存儲(chǔ)數(shù)據(jù)。 yarn:可以理解為MapReduce的協(xié)調(diào)機(jī)制。 本質(zhì)上是Hadoop的處理和分析機(jī)制,分為ResourceManager和NodeManager。
MapReduce:用于編寫(xiě)程序的軟件框架。
Hive:數(shù)據(jù)倉(cāng)庫(kù),可以用SQL查詢(xún),可以運(yùn)行Map/Reduce程序。 用于計(jì)算趨勢(shì)或網(wǎng)站日志,不應(yīng)用于實(shí)時(shí)查詢(xún),因?yàn)樾枰荛L(zhǎng)時(shí)間才能返回結(jié)果。
HBase:數(shù)據(jù)庫(kù)。 非常適合大數(shù)據(jù)的實(shí)時(shí)查詢(xún)。 Facebook使用Hbase存儲(chǔ)消息數(shù)據(jù)并對(duì)消息進(jìn)行實(shí)時(shí)分析
ZooKeeper:大規(guī)模分發(fā)的可靠協(xié)調(diào)系統(tǒng)。 Hadoop的分布式同步是通過(guò)Zookeeper實(shí)現(xiàn)的,比如多個(gè)NameNode、主備切換等。
Sqoop:數(shù)據(jù)庫(kù)互傳,關(guān)系型數(shù)據(jù)庫(kù)到HDFS互傳
Mahout:可擴(kuò)展的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘庫(kù)。 用于推薦挖掘、聚合、分類(lèi)和頻繁項(xiàng)集挖掘。
Chukwa:一個(gè)用于監(jiān)控大型分布式系統(tǒng)的開(kāi)源收集系統(tǒng),基于 HDFS 和 Map/Reduce 框架構(gòu)建。 顯示、監(jiān)控和分析結(jié)果。 Ambari:用于配置、管理和監(jiān)控Hadoop集群,基于Web且用戶(hù)友好。
2.Cloudera
Cloudera Manager:管理監(jiān)控診斷集成
Cloudera CDH:(Cloudera的Distribution,包括Apache Hadoop)Cloudera對(duì)Hadoop做了相應(yīng)的改變,發(fā)行版本稱(chēng)為CDH。
Cloudera Flume:日志收集系統(tǒng),支持自定義日志系統(tǒng)中的各種數(shù)據(jù)發(fā)送器來(lái)收集數(shù)據(jù)。
Cloudera Impala:為Apache Hadoop的HDFS和HBase中存儲(chǔ)的數(shù)據(jù)提供直接查詢(xún)交互式SQL。 Cloudera Hue:Web管理器大數(shù)據(jù)學(xué)什么,包括hue ui、hui server、hui db。 Hue為所有CDH組件提供了shell接口接口,mr可以用hue來(lái)編寫(xiě)。
3. 機(jī)器學(xué)習(xí)/R
R:統(tǒng)計(jì)分析和圖形的語(yǔ)言和操作環(huán)境,目前是Hadoop-R
mahout:提供機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典算法的可擴(kuò)展實(shí)現(xiàn),包括聚類(lèi)、分類(lèi)、推薦過(guò)濾、頻繁子項(xiàng)挖掘等,并且可以通過(guò)Hadoop擴(kuò)展到云端。
4. 風(fēng)暴
Storm:分布式、容錯(cuò)的實(shí)時(shí)流式計(jì)算系統(tǒng),可用于實(shí)時(shí)分析、在線(xiàn)機(jī)器學(xué)習(xí)、信息流處理、連續(xù)計(jì)算、分布式RPC、消息實(shí)時(shí)處理和更新數(shù)據(jù)庫(kù)。
Kafka:一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng)大數(shù)據(jù)學(xué)什么,可以處理消費(fèi)者規(guī)模網(wǎng)站中的所有操作流數(shù)據(jù)(瀏覽、搜索等)。 與Hadoop的日志數(shù)據(jù)和離線(xiàn)分析相比,可以實(shí)現(xiàn)實(shí)時(shí)處理。目前采用Hadoop的并行加載機(jī)制來(lái)統(tǒng)一在線(xiàn)和離線(xiàn)消息處理。
Redis:用C語(yǔ)言編寫(xiě)的,支持網(wǎng)絡(luò)的日志型、鍵值數(shù)據(jù)庫(kù),可以基于內(nèi)存、持久化。
5. 火花
Scala:一種類(lèi)似于Java的完全面向?qū)ο蟮木幊陶Z(yǔ)言。
Spark:Spark是一個(gè)通用的并行框架,類(lèi)似于用Scala語(yǔ)言實(shí)現(xiàn)的Hadoop MapReduce。 除了Hadoop MapReduce的優(yōu)點(diǎn)之外,它與MapReduce的不同之處在于作業(yè)的中間輸出結(jié)果可以保存在內(nèi)存中,因此不需要讀寫(xiě)HDFS。 因此,Spark可以更適合需要迭代的MapReduce算法,例如數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)。 它可以與Hadoop文件系統(tǒng)并行運(yùn)行。 使用 Mesos 的第三方集群框架可以支持此行為。
火花 SQL:
Spark Streaming:基于Spark構(gòu)建的實(shí)時(shí)計(jì)算框架,擴(kuò)展了Spark處理大數(shù)據(jù)流數(shù)據(jù)的能力。
Spark MLlib:MLlib是Spark常用機(jī)器學(xué)習(xí)算法的實(shí)現(xiàn)庫(kù)。 目前(2014.05)它支持二元分類(lèi)、回歸、聚類(lèi)和協(xié)同過(guò)濾。 它還包括低級(jí)梯度下降優(yōu)化基本算法。 MLlib依賴(lài)于jblas線(xiàn)性代數(shù)庫(kù),而jblas本身依賴(lài)于遠(yuǎn)程Fortran程序。
Spark GraphX:GraphX是Spark中用于圖和圖并行計(jì)算的API。 它可以在Spark之上提供一站式數(shù)據(jù)解決方案,并且可以方便高效地完成圖計(jì)算的全套管道操作。
jblas:一個(gè)快速線(xiàn)性代數(shù)庫(kù)(JAVA)。 ATLAS ART 實(shí)現(xiàn)基于 BLAS 和 LAPACK(矩陣計(jì)算事實(shí)上的行業(yè)標(biāo)準(zhǔn)),并為所有計(jì)算過(guò)程使用先進(jìn)的基礎(chǔ)設(shè)施,使其速度非常快。
Fortran:最早的高級(jí)計(jì)算機(jī)編程語(yǔ)言,廣泛應(yīng)用于科學(xué)和工程計(jì)算領(lǐng)域。
BLAS:基本線(xiàn)性代數(shù)子程序庫(kù),有大量已編寫(xiě)的線(xiàn)性代數(shù)運(yùn)算程序。
LAPACK:著名的開(kāi)放軟件,包括求解科學(xué)和工程計(jì)算中最常見(jiàn)的數(shù)值線(xiàn)性代數(shù)問(wèn)題,例如求解線(xiàn)性方程、線(xiàn)性最小二乘問(wèn)題、特征值問(wèn)題和奇異值問(wèn)題等。
ATLAS:BLAS 線(xiàn)性算法庫(kù)的優(yōu)化版本。
Spark Python:Spark是用scala語(yǔ)言編寫(xiě)的,但是為了推廣和兼容性,提供了java和python接口。
6.Python
Python:一種面向?qū)ο蟮慕忉屝陀?jì)算機(jī)編程語(yǔ)言。7。 云計(jì)算平臺(tái) Docker:開(kāi)源應(yīng)用容器引擎 kvm:(鍵盤(pán)視頻鼠標(biāo)) openstack:開(kāi)源云計(jì)算管理平臺(tái)項(xiàng)目
--------
大數(shù)據(jù)工程師的技能要求:
----------
2024-04-13 20:09
2024-04-13 16:06