大數(shù)據(jù)技術(shù)龐大復(fù)雜,基礎(chǔ)的技術(shù)包含數(shù)據(jù)的采集、數(shù)據(jù)預(yù)處理、分布式存儲(chǔ)、NoSQL數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、機(jī)器學(xué)習(xí)、并行計(jì)算、可視化等各種技術(shù)范疇和不同的技術(shù)層面。
大數(shù)據(jù)技術(shù)體系
查詢引擎
1、Phoenix
簡(jiǎn)介:這是一個(gè)Java中間層,可以讓開發(fā)者在Apache HBase上執(zhí)行SQL查詢。
2、Presto
簡(jiǎn)介:Facebook開源的數(shù)據(jù)查詢引擎Presto ,可對(duì)250PB以上的數(shù)據(jù)進(jìn)行快速地交互式分析。
3、Shark
簡(jiǎn)介:Shark即Hive on Spark,本質(zhì)上是通過(guò)Hive的HQL解析。特點(diǎn)就是快,完全兼容Hive。
4、Pig
簡(jiǎn)介:Pig是一種編程語(yǔ)言,它簡(jiǎn)化了Hadoop常見的工作任務(wù)。
5、Cloudera Impala
簡(jiǎn)介:Cloudera Impala 可以直接為存儲(chǔ)在HDFS或HBase中的Hadoop數(shù)據(jù)提供快速,交互式的SQL查詢。
6、Apache Drill
簡(jiǎn)介:Apache Drill是是一個(gè)能夠?qū)?span id="kkkkkkk" class="candidate-entity-word" data-gid="199981">大數(shù)據(jù)進(jìn)行交互分析、開源的分布式系統(tǒng)。
7、Hive
簡(jiǎn)介:hive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具。
8、Apache Tajo
簡(jiǎn)介:Apache Tajo項(xiàng)目的目的是在HDFS之上構(gòu)建一個(gè)先進(jìn)的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)。
流式計(jì)算
1、Facebook Puma
簡(jiǎn)介:實(shí)時(shí)數(shù)據(jù)流分析。
2、Twitter Rainbird
簡(jiǎn)介:Rainbird一款基于Zookeeper, Cassandra, Scribe, Thrift的分布式實(shí)時(shí)統(tǒng)計(jì)系統(tǒng)。
3、Twitter Storm
簡(jiǎn)介:Storm是Twitter開源的一個(gè)類似于Hadoop的實(shí)時(shí)數(shù)據(jù)處理框架。
迭代計(jì)算
1、Apache Hama
簡(jiǎn)介:Apache Hama是一個(gè)純BSP(Bulk Synchronous Parallel)計(jì)算框架。
2、Apache Giraph
簡(jiǎn)介:Apache Giraph是一個(gè)可伸縮的分布式迭代圖處理系統(tǒng)。
3、、HaLoop
簡(jiǎn)介:迭代的MapReduce,HaLoop——適用于迭代計(jì)算的Hadoop 。
4、Twister
簡(jiǎn)介:Twister, 迭代式MapReduce框架。
離線計(jì)算
1、Hadoop MapReduce
簡(jiǎn)介:MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算。
2、Berkeley Spark
簡(jiǎn)介:Spark是UC Berkeley AMP lab所開源的類Hadoop MapReduce的通用的并行,能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的map reduce的算法。
3、DataTorrent
簡(jiǎn)介:DataTorrent基于Hadoop 2.x構(gòu)建,是一個(gè)實(shí)時(shí)的、有容錯(cuò)能力的數(shù)據(jù)流式處理和分析平臺(tái)。
鍵值存儲(chǔ)
1、LevelDB
簡(jiǎn)介:Leveldb是一個(gè)google實(shí)現(xiàn)的非常高效的kv數(shù)據(jù)庫(kù)。
2、RocksDB
簡(jiǎn)介:RocksDB在代碼層面上是在LevelDB原有的代碼上進(jìn)行開發(fā)的。
3、HyperDex
HyperDex是一個(gè)分布式、可搜索的鍵值存儲(chǔ)系統(tǒng)。
4、TokyoCabinet
簡(jiǎn)介:日本人Mikio Hirabayashi(平林干雄)開發(fā)的一款DBM數(shù)據(jù)庫(kù)。
5、Voldemort
簡(jiǎn)介:Voldemort是一個(gè)分布式鍵值存儲(chǔ)系統(tǒng)。
6、Amazon Dynamo
簡(jiǎn)介:Amazon Dynamo 是一個(gè)經(jīng)典的分布式Key-Value 存儲(chǔ)系統(tǒng)。
7、Tair
簡(jiǎn)介:tair 是淘寶自己開發(fā)的一個(gè)分布式 key/value 存儲(chǔ)引擎。
8、Apache Accumulo
簡(jiǎn)介:Apache Accumulo 是一個(gè)可靠的、可伸縮的、高性能的排序分布式的 Key-Value 存儲(chǔ)解決方案。
9、Redis
Redis是一個(gè)高性能的key-value存儲(chǔ)系統(tǒng)。
表格存儲(chǔ)
1、OceanBase
簡(jiǎn)介:OceanBase是一個(gè)支持海量數(shù)據(jù)的高性能分布式數(shù)據(jù)庫(kù)系統(tǒng)。
2、Amazon SimpleDB
Amazon SimpleDB是一個(gè)分散式數(shù)據(jù)庫(kù),以Erlang撰寫。
3、Vertica
簡(jiǎn)介:Vertica基于列存儲(chǔ)。相比傳統(tǒng)面向行存儲(chǔ)的數(shù)據(jù)庫(kù)具有巨大的優(yōu)勢(shì)。
4、Cassandra
簡(jiǎn)介:Cassandra是一套開源分布式NoSQL數(shù)據(jù)庫(kù)系統(tǒng)。
5、HyperTable
簡(jiǎn)介:Hypertable是一個(gè)開源、高性能、可伸縮的數(shù)據(jù)庫(kù)。
6、FoundationDB
簡(jiǎn)介:支持ACID事務(wù)處理的NoSQL數(shù)據(jù)庫(kù)。
7、HBase
簡(jiǎn)介:HBase是一個(gè)分布式的、面向列的開源數(shù)據(jù)庫(kù)。
文件存儲(chǔ)
1、CouchDB
簡(jiǎn)介:CouchDB是用Erlang開發(fā)的面向文檔的數(shù)據(jù)庫(kù)系統(tǒng)。
2、MongoDB
簡(jiǎn)介:MongoDB 是一個(gè)基于分布式文件存儲(chǔ)的數(shù)據(jù)庫(kù)。
3、Tachyon
簡(jiǎn)介:Tachyon是一個(gè)分布式內(nèi)存文件系統(tǒng)。
4、HDFS
簡(jiǎn)介:Hadoop分布式文件系統(tǒng)(HDFS)被設(shè)計(jì)成適合運(yùn)行在通用硬件(commodity hardware)上的分布式文件系統(tǒng)。
資源管理
1、Twitter Mesos
簡(jiǎn)介:Apache Mesos是由加州大學(xué)伯克利分校的AMPLab首先開發(fā)的一款開源群集管理軟件
2、Hadoop Yarn
簡(jiǎn)介:Hadoop 新 MapReduce 框架 Yarn。
版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn),該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請(qǐng)發(fā)送郵件至 舉報(bào),一經(jīng)查實(shí),本站將立刻刪除。