面向大规模流数据的可扩展分布式实时处理方法

时间：2023-04-02 11:42:13 阅读：最新文章文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

面向大规模流数据的可扩展分布式实时处理方法

蔡斌雷;郭芹;朱世伟;任家东

【期刊名称】《青岛科技大学学报（自然科学版）》【年(卷),期】2016(037)005

【摘要】MapReduce is a widely used technique for processing massive datasets, however, it is unable to support the real-time processing for large scale data streams.In this paper, we studied a scalable and distributed method, called SDRT-MR, based on MapReduce model, to process large scale data streams in real time.To lower the I/O cost and efficiently utilize CPU, a memory caching mechanism using Hash B+ tree is adopted to optimize the processing mechanism of intermediate results.To boost incremental one-pass analytics of data streams processing, we develop dynamic incremental hash techniques to support fast in-memory processing, simultaneously employ an efficient technique to identify frequent keys.Our experimental results on synthetic datasets show that SDRT-MR has higher real-time performance and better

scalability.%MapReduce是处理大规模数据集的常用技术,但不能满足大规模数据集中流数据实时计算的要求.对此提出一种面向大规模流数据的可扩展、分布式实时处理方法.该方法在Map阶段,建立基于内存Hash B+树的缓存结构对中间结果处理机制进行优化,以降低对中间结果的频繁读写造成的I/O消耗,同时消除对中间结果的排序,以降低对CPU的消耗;在Reduce阶段,设计基于动态增量Hash技术的快速内存处理方法,并消除对中间结果的多遍扫描合并,对流数据进行增量处理、

单遍分析,以提高对流数据的实时分析能力.实验结果表明:上述方法可以对大规模流数据进行实时性处理,并且具有较好的可扩展性. 【总页数】7页(P584-590)

【作者】蔡斌雷;郭芹;朱世伟;任家东

【作者单位】山东省科学院情报研究所,山东济南 250014;济南大学泉城学院,山东烟台 265600;山东省科学院情报研究所,山东济南 250014;燕山大学信息科学与工程学院,河北秦皇岛 066004 【正文语种】中文【中图分类】TP391 【相关文献】

1.一种面向流数据的分布式实时存储方法 [J], 孙艳华;王丽娜

2.面向大规模云资源调度的可扩展分布式调度方法 [J], 林伟伟;朱朝悦

3.面向大规模感知数据的实时数据流处理方法及关键技术 [J], 亓开元;韩燕波;赵卓峰;马强

4.基于列表的可扩展标记语言流数据查询处理方法 [J], 何志学;廖湖声 5.基于Trident构建大规模实时流数据处理系统 [J], 杨文;林峰;周际;

因版权原因，仅展示原文概要，查看原文内容请购买

本文来源：https://www.wddqw.com/doc/d5884b55fc00bed5b9f3f90f76c66137ee064ff3.html

相关文章：

正在阅读：

面向大规模流数据的可扩展分布式实时处理方法01-01

[字数作文]下象棋100字作文五篇01-01

2021高三作文”刻意地特立独行是否就能避免随波逐流“原题及优秀范文01-01

我希望爸爸妈妈能陪陪我为习题目的精选作文01-01

小学生爱学习爱劳动的手抄报01-01

上一篇：“一带一路”战略背景下中国参与FTA的现状、问题及对策研究下一篇：济南大学泉城学院考研喜报2022