据密集型应用越来越多,如何将大数据在数据中心实现有效放置变得日益重要。研究了大数据的放置模型。影响大数据放置的因素主要有:能耗、异构节点的服务能力及具有关联计算的数据集。基于这3个因素设计了一种节能、充分考虑异构节点服务能力及提升MapReduce处理Join连接的效率的大数据放置模型。该模型将有效实现大数据的有效放置管理,同时也为未来软件定制数据中心奠定了基础。
第41卷第6期
2014年6月
计算机科学
Computer
ScienceV01.41No.6June2014
一种大数据放置方法
张桂刚
(清华大学信息技术研究院
北京100084)
(首都经济贸易大学
北京100070)
摘要数据密集型应用越来越多,如何将大数据在数据中心实现有效放置变得日益重要。研究了大数据的放置模型。影响大数据放置的因素主要有:能耗、异构节点的服务能力及具有关联计算的数据集。基于这3个因素设计了一种节能、充分考虑异构节点服务能力及提升MapReduce处理Join连接的效率的大数据放置模型。该模型将有效实现大数据的有效放置管理,同时也为未来软件定制数据中心奠定了基础。关键词
大数据,数据放置,节能,异构节点,关联计算
文献标识码A
AkindofBigDataPlacement
ZHANGGui—gang
(ResearchInstituteofInformationTechnology,TsinghuaUniversity,Beijing100084,China)
(CapitalUniversity
中图法分类号TP391.41
Method
ofEconomicsandBusiness,Beijing100070,China)
Abstract
Moreandmoredata-intensiveapplicationshavecomeintobeing.Itisbecomingmoreandmoreimportantfor
a
thebigdata’efficientplacementinthedatacenter.Thispaperproposedkindofbigdataplacementmodel.Themajor
factorsthatinflucethebigdataplacementhavethefollowingthreepoints:energyconsumption,sevicecapabilityofhet—
erogeneousnodeandthedata
modelconsidersthe
sets
whichhaveassociatedcomputing.Based
capabilityofheterogeneous
on
thesethreefactors,ourbigdataplacement
energy-saving,service
carl
node
andthecomplexJoinquerymapreducecom—
puting
so
on.Thismodel
a
implementthebigdata’sefficientplacementmanagementefficiently.Atthesame
time,it
willestabilishKeywords
foundationforsoftwareeustomizeddatacenterinthefuture
Bigdata,Dataplacement,Energy-saving,Heterogeneousnodes,Asmciatedcomputing
1
引言
随着云计算技术的发展,各种数据密集型应用应运而生,
据节点的服务能力是大不相同的。如内存大的、CPU频率高的、多核的及存储容量大的数据节点明显比内存小的、CPU频率低的、单核的及存储容量小的数据节点服务能力要强。而Hadoop这种计算框架默认所有数据节点都具有同样的服务能力,数据主要按照平均主义的原则进行放置。如果按照Hadoop默认的数据放置方法进行数据放置,服务能力强的数据节点很快完成了分配的计算任务,而服务能力差的很慢才能完成任务。造成大量的等待或者需要将服务能力差的数据节点的数据迁移到服务能力强的数据节点,让服务能力强的节点来帮助完成计算。这样的数据迁移会给网络带来巨大负载,如属于MapReduce的计算的数据迁移会给Shuffle阶段带来巨大的I/O负载和网络负载。2)对于新购置的数据节点也和上述的一样,新购置的数据节点,尤其是不同批次采购的数据节点其服务能力可能大不一样。如果不采取智能的数据放置方法,同样会导致整个集群的处理效率十分低下。
现有的数据放置策略[5’61在考虑复杂的Join连接查询方面有了一定的研究,主要的数据放置策略有Hadoop默认的
数据中心的数据管理[13变得越来越重要。如何让数据中心既能够充分考虑能耗[2],同时又能够考虑到异构节点的服务能力及其处理复杂Join连接查询的实时性问题是一个非常紧迫的问题。
现有数据中心的数据放置策略仍然处在十分粗放的阶段,从而造成了大量的投资浪费和能源浪费,主要体现在:1)盲目采购大量的机器搭建数据中心,而实际上只存储了极少的数据和进行极少量的数据计算,导致了大量的投资浪费,同时将大量的机器投入到无价值的运转中,造成了极大的能源浪费。2)盲目地将所有利旧的机器全部放人到数据中心的集群中,而实际上只存储了极少的数据和进行极少量的数据计算,导致了大量能源浪费(陈旧的机器能耗更大)。3)由于数据放置方法的盲目性,使得大部分的机器进行了极少的计算,但是不得不时刻处在高耗能状态而不是休眠运行状态等节能运行状态。
现有数据放置策略极少考虑数据节点的异构性[3“一问题,从而导致数据处理效率低下,主要体现在:1)数据中心的数据节点,尤其是来自利旧的数据节点类型各异,而不同的数
到稿日期:201308—19返修日期:2013—12—30
放置方案、CoHadoop[”、Hadoop++L8j以及CHⅫ[9,10]。
Hadoop默认的大数据放置策略就是实现最大程度上的负载均衡,将数据块平均地分配。一旦需要执行,MapReduce经常需要跨机器甚至机架进行数据远程传输,在Shuffle阶段浪
本文受高等学校博士学科点专项科研基金课题(20100002110082)资助。
张桂刚(1978--),男,博士后,副教授,CCF高级会员,主要研究方向为大数据关键技术、云计算技术研究,E-mail:zhangguigang@163.com。
1
G06F 17/30 (2006.01) 权利要求书 1 页页说明书 3 3 页 附图 2 页 权利要求书 1 说明书 页 附图 2 (54) 发明名称 一种实现大数据实时处理的方法 (...
境总结了种 存储 和访问大 数据 块的解决方案 称为 离散 存取 方法间 接存...( ) 约定同 一企 业的测 量数 据放 在 同一 文件夹内称为数据 文件 主...
G06F 17/30 (2006.01) 权利要求书 1 页 说明书 9 页 附图 5 页 (54) 发明名称 一种大数据查询的方法及系统 (57) 摘要 本发明公开了一种大数据的查询...
一种提高大数据量数据计算时效性的方法研究_专业资料。对大数据量的实时处理问题是大型数据库应用系统中的共性问题,人们往往采用更换处理能力更强、存储容量更大的服...
一种云环境下的大数据Top—K查询方法_天文/地理_自然科学_专业资料。软件 学报 ISSN 1 000—9825,CODEN RUXUEW Journal ofSoftware,2软件...
Way 大数据经济的繁荣数据已经成为一种新的经济资产类别,就像货币或黄金一样。淘宝...(数据组织) 卷管理层(空间管理) 驱动层(抽象硬件) 硬件层(数据持久存放) ...
大数据_计算机软件及应用_IT/计算机_专业资料。大数据...但是如果现在你有100个温度计,每棵树都放置一个...最初,亚马逊采用传统方法-样本 分析找到客户之间的...
大数据常见处理方法总结_计算机软件及应用_IT/计算机_专业资料。常见的大数据处理...问题实例:给你 A,B 两个文件,各存放 50 亿条 URL,每条 URL 占用 64 字节...
我要评论