HBTC 2012 见闻

今年Hadoop大会,加上了BigData,全称“Hadoop&Bigdata Technology Conference(Hadoop与大数据技术大会)”,随着“云计算”“Hadoop”“大数据”的热点,今年的大会事先很是期待,之后从中收获很多,坚信了我们在工作中的一些判断。从我的视角,今年HBTC主要覆盖如下的内容:
Hadoop与BigData主要的产品进展:
1.Hortonworks Hadoop/HBase
2.Intel Hadoop/Free Edition
3.Huawei Contributing Hadoop/HBase
4.Facebook Hadoop/HBase
5.Vmware Hadoop Virtualization
6.Oracle NoSQL
7.Taobao Tair
8.eBay Hadoop/HBase
意外的是Huawei对Hadoop社区的贡献度很大;Hortonworks只是一般性的宣讲,并没有重大的消息或者特性宣布。
Hadoop生态圈中本次被关注的技术:
1.Hadoop Security(Etu)
2.HIVE
3.HDFS Namenode
4.HBase
5.Pig
今年重点被关注的是HBase、Hive。
应用方面:
1.阿里Hadoop集群
a.3200台服务器,30K核,内存10TB,存储36K磁盘60PB。
b.支撑支付宝、CBU、聚划算、一淘、天猫、淘宝,1K+客户端/100+部门
c.Hadoop组件:Hive、Streaming MR、Mahout、Pig、HBase
d.客户端,用户/用户组权限管理/资源管理,申请/审批;云梯医生/JobTracker心跳频率/NameNode RPC性能指标;
e.数据采集:TimeTunnel分布式日志收集,DataX数据库同步,DBSync大表增量同步;
2.HIVE在腾讯分布式数据仓库
a.腾讯分布式数据仓库,简称:TDW;
b.基于Hadoop/Hive/PostgreSQL构建;
c.特性列表:存储和计算容灾/存储和计算线性扩展,SQL语言/SQL函数,过程语言,多维分析,MR,多种存储结构,SQL/MED,开发工具,任务调度系统,系统DB
d.TDW在Hive基础上进行的功能增强: 基于角色的权限管理; 兼容Oracle的分区功能; 窗口函数;多维分析;公用表表达式;DML(Update/Delete);入库数据校验;命令行工具;DB存储引擎;SQL语法细节增强;Eclipse IDE开发环境/流程开发工具;自定义的存储格式;Hash Join;按行split;Order by limit优化;
3.阿里数据交换平台
a.平台能力:存储与计算的调度、元数据管理、数据建模、IDE;市场应用:应用市场、数据市场;数据管理:预警、质量监控、ODS、生命周期管理;数据开发:安全、审计、计量、监控;
b.分析可视化;数据可视化;
c.ODPS:开放;服务化;离线数据分析服务;
d.ODS:开放与共享;源头数据质量监控;元数据管理;
4.百度大数据平台
a.基础能力包括:分布式存储(KV/Table);计算(批量计算/小批量计算/流式计算);调度(底层资源管理/上层通用调度);数据仓库体系(格式化/传输/数据仓库/报表&多维分析引擎/Ad Hoc查询引擎/BI)
b.OLAP查询以MySQL作为前端。
5.IBM在Hadoop/大数据方面的架构与实践
6.Startup企业MemSQL提供实时查询方案
7.Yahoo Hadoop应用、运维,还有其基于Hadoop的Data workflow
学校
有不少做研究的老师过来传道,其中有不少精华的东西,特别是哈尔滨工业大学的李建中和俄亥俄州立大学的张晓东教授给我留下了深刻的印象。
缺失
1.实时查询/流计算内容很少;也许会是明年的热点吧;
2.Cloudera/MapR都厂商没有来,无法面对面了解其一些技术特点和产品特性;
个人总结
1.技术上,今年Hadoop生态圈的热点是HBase、HDFS NameNode、HDFS Security;
2.应用与平台上,阿里/淘宝发展最快,其次是腾讯/百度。这三个公司的Hadoop集群为公司内部众多部门提供hadoop平台服务,特别是阿里比较突出,其中共有的特性:
a.工作的内容都是围绕为内部提供Hadoop集群/大数据服务平台;
b.技术路线都是以Hadoop、HBase、Hive/Pig、关系型数据库为主;
c.用户查询语言以兼容SQL语言为主;
d.计算查询主要是以批量计算、实时查询为主;
e.可视化方面的工作基本雷同:分析可视化、数据可视化、数据流程编排可视化;
f.平台在安全、隔离、调度、元数据管理、监控、预警告警、服务化、数据集成与共享等方面提供功能。
3.实时查询/流计算,虽然今年没有覆盖,但是各个厂商都有提到自己已经在这两个方面着手或者取得了一些进展。