Hadoop发行版(2015第二季)

自从Hadoop的出现,引领大数据的浪潮越来越热。大数据存储的主要技术路线有几种:
1.Hadoop
2.Cassandra
3.MongoDB
Hadoop是Apache的开源项目,同时有很多商业公司对Hadoop进行版本发行和商业支持,参见:http://wiki.apache.org/hadoop/Distributions%20and%20Commercial%20Support
其中在最有名为人所知的三家:
1.Cloudera
这是一张图片
2.Hortonwork
这是一张图片
3.MapR
这是一张图片
这三个厂商之中,MapR最为封闭;Hortonworks最为开放,产品线全开源,在线文档比较丰富。国内使用Cloudera CDH和Hortonworks的应该是最多的。
国内市场当前有两家也非常有竞争力,一家是Huawei,一家是星环科技。
4.Huawei FusionInsight
这是一张图片
5.星环科技TDH,TDH对Spark的支持据说非常不错的,有良好的性能表现。
这是一张图片
准实时计算框架/即席查询
1.CDH的框架有:Impala + Spark;
2.HDP的框架有:Tez + Spark;
3.MapR的框架有:Drill + Tez + Spark。
关于Spark:
2014年大数据最热门的技术路线就是算是Spark了,而且得力于Spark不遗余力的推广和快速成长。Cloudera是最早支持Spark,也是最激进的。下图即是Spark在Cloudera产品线中的定位:
这是一张图片
实际上基于Hadoop的快速计算框架的发展才刚刚开始,社区中已经有如下几种:
1.Spark/Shark
2.Hortonworks Tez/Stinger
3.Cloudera Impala
4.Apache Drill
5.Apache Flink
6.Apache Nifi
7.Facebook Presto

SQL on Hadoop
SQL on Hadoop的发展主要是传统的SQL过于强大,人才库非常庞大,从Hadoop出现的第一天就在SQL发力。当前技术路线上更是百花齐放,这里从开源和商业产品来说。
Open Source

1. Apache Hive(Hive on MR)
2. Hortonworks Tez/Stinger(Hive on Tez)
3. Cloudera Impala
4. Shark
5. Spark SQL
6. Apache Drill - MapR
7. Facebook Presto
8. Apache Phoenix(on HBase) - Saleforce
9. Apache Kylin
10. Apache Tajo - (Database Lab, Korea University)
11. Cascading Lingual - (Cascading, Optiq)
12. Dato (GraphLab) - Dato

Commercial

1. EMC HAWQ
2. IBM BigSQL
3. TERADATA SQL-H
4. Hadapt/HadoopDB
5. Transwarp Inceptor

在开源领域里面,当前比受追捧的主要是:Hive、Impala、Spark、Phoenix。

参考:
SQL on Hadoop开源项目总结
http://segmentfault.com/a/1190000002799235
如何选择满足需求的SQL on Hadoop系统
http://www.searchbi.com.cn/showcontent_89816.htm
2015Hadoop技术峰会演讲速记3: 基于Transwarp Stream和Discover的实时大数据人流密度估计
http://www.transwarp.cn/news/detail?id=70