面向大规模流数据的可扩展分布式实时处理方法 蔡斌雷;郭芹;朱世伟;任家东 【期刊名称】《青岛科技大学学报(自然科学版)》 【年(卷),期】2016(037)005 【摘 要】MapReduce is a widely used technique for processing massive datasets, however, it is unable to support the real-time processing for large scale data streams.In this paper, we studied a scalable and distributed method, called SDRT-MR, based on MapReduce model, to process large scale data streams in real time.To lower the I/O cost and efficiently utilize CPU, a memory caching mechanism using Hash B+ tree is adopted to optimize the processing mechanism of intermediate results.To boost incremental one-pass analytics of data streams processing, we develop dynamic incremental hash techniques to support fast in-memory processing, simultaneously employ an efficient technique to identify frequent keys.Our experimental results on synthetic datasets show that SDRT-MR has higher real-time performance and better scalability.%MapReduce是处理大规模数据集的常用技术,但不能满足大规模数据集中流数据实时计算的要求.对此提出一种面向大规模流数据的可扩展、分布式实时处理方法.该方法在Map阶段,建立基于内存Hash B+树的缓存结构对中间结果处理机制进行优化,以降低对中间结果的频繁读写造成的I/O消耗,同时消除对中间结果的排序,以降低对CPU的消耗;在Reduce阶段,设计基于动态增量Hash技术的快速内存处理方法,并消除对中间结果的多遍扫描合并,对流数据进行增量处理、单遍分析,以提高对流数据的实时分析能力.实验结果表明:上述方法可以对大规模流数据进行实时性处理,并且具有较好的可扩展性. 【总页数】7页(P584-590) 【作 者】蔡斌雷;郭芹;朱世伟;任家东 【作者单位】山东省科学院 情报研究所,山东 济南 250014;济南大学泉城学院,山东 烟台 265600;山东省科学院 情报研究所,山东 济南 250014;燕山大学信息科学与工程学院,河北 秦皇岛 066004 【正文语种】中 文 【中图分类】TP391 【相关文献】 1.一种面向流数据的分布式实时存储方法 [J], 孙艳华;王丽娜 2.面向大规模云资源调度的可扩展分布式调度方法 [J], 林伟伟;朱朝悦 3.面向大规模感知数据的实时数据流处理方法及关键技术 [J], 亓开元;韩燕波;赵卓峰;马强 4.基于列表的可扩展标记语言流数据查询处理方法 [J], 何志学;廖湖声 5.基于Trident构建大规模实时流数据处理系统 [J], 杨文;林峰;周际; 因版权原因,仅展示原文概要,查看原文内容请购买 本文来源:https://www.wddqw.com/doc/d5884b55fc00bed5b9f3f90f76c66137ee064ff3.html