面向大规模流数据的可扩展分布式实时处理方法

时间:2023-04-02 11:42:13 阅读: 最新文章 文档下载
说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。
面向大规模流数据的可扩展分布式实时处理方法

蔡斌雷;郭芹;朱世伟;任家东

【期刊名称】《青岛科技大学学报(自然科学版)》 【年(),期】2016(037)005

【摘 要】MapReduce is a widely used technique for processing massive datasets, however, it is unable to support the real-time processing for large scale data streams.In this paper, we studied a scalable and distributed method, called SDRT-MR, based on MapReduce model, to process large scale data streams in real time.To lower the I/O cost and efficiently utilize CPU, a memory caching mechanism using Hash B+ tree is adopted to optimize the processing mechanism of intermediate results.To boost incremental one-pass analytics of data streams processing, we develop dynamic incremental hash techniques to support fast in-memory processing, simultaneously employ an efficient technique to identify frequent keys.Our experimental results on synthetic datasets show that SDRT-MR has higher real-time performance and better

scalability.%MapReduce是处理大规模数据集的常用技术,但不能满足大规模数据集中流数据实时计算的要求.对此提出一种面向大规模流数据的可扩展、分布式实时处理方法.该方法在Map阶段,建立基于内存Hash B+树的缓存结构对中间结果处理机制进行优化,以降低对中间结果的频繁读写造成的I/O消耗,同时消除对中间结果的排序,以降低对CPU的消耗;Reduce阶段,设计基于动态增量Hash术的快速内存处理方法,并消除对中间结果的多遍扫描合并,对流数据进行增量处理、


单遍分析,以提高对流数据的实时分析能力.实验结果表明:上述方法可以对大规模流数据进行实时性处理,并且具有较好的可扩展性. 【总页数】7(P584-590)

【作 者】蔡斌雷;郭芹;朱世伟;任家东

【作者单位】山东省科学 情报研究所,山东 济南 250014;济南大学泉城学院, 烟台 265600;山东省科学 情报研究所,山东 济南 250014;燕山大学信息科学与工程学院,河北 秦皇岛 066004 【正文语种】 【中图分类】TP391 【相关文献】

1.一种面向流数据的分布式实时存储方法 [J], 孙艳华;王丽娜

2.面向大规模云资源调度的可扩展分布式调度方法 [J], 林伟伟;朱朝悦

3.面向大规模感知数据的实时数据流处理方法及关键技术 [J], 亓开元;韩燕波;赵卓;马强

4.基于列表的可扩展标记语言流数据查询处理方法 [J], 何志学;廖湖声 5.基于Trident构建大规模实时流数据处理系统 [J], 杨文;林峰;周际;

因版权原因,仅展示原文概要,查看原文内容请购买


本文来源:https://www.wddqw.com/doc/d5884b55fc00bed5b9f3f90f76c66137ee064ff3.html