龙源期刊网 http://www.qikan.com.cn 教育大数据分析研究与典型应用 作者:郑庆华 来源:《中国信息化周报》2017年第12期 开展大数据的研究已经成为我们国家今后创新驱动的一个重大的战略举措。数据的积累已经从量变发展到了质变。另外一方面计算机超强的计算能力也为处理大数据提供了强大的技术支撑,这两者的结合使得大数据的智能分析成为我们现实可能。分析各个领域的大数据也正是各个领域各个行业的新的重大需求,拥有大数据成为我们这个时代的特征,分析大数据自然也成为我们这个时代最鲜明的任务,应用大数据也是我们把握商机把握研究机会的重要机遇。 研究和应用面临三大挑战 我们根本目的是从大数据中挖掘出价值。从政府角度来说,要进行大数据的有效管理,制定包括安全在内的各种公共政策,这就是政府要作为,从数据的获取、标准、规范、安全、保障等等方面研究。作为高校和科研院所来说,最核心的是要进行大数据的分析和处理,也就是智能化的挖掘、关联、融合、算法分析这些核心技术的探索和研究。作为企业界来说,要结合各自的领域,开展大数据的应用挖掘以及融合应用。所以说我们要形成一个数据是基础、平台是支撑、分析挖掘是核心,最根本的是要实现目标导向、问题驱动,实现效率的提升和经济效益社会效益的挖掘和发挥。 世界顶级大国都把大数据核心技术的研究作为未来抢占大数据产业自主知识产权的一个核心制高点来探索研究。第一从理论和技术角度来看,传统的计算理论和传统的数据处理分析技术难以完全适用。一方面是大数据和传统的中小规模的数据有本质的特征上的差别。第二在传统的计算平台计算范式方面也有根本性的转折。我们知道传统的数据量是中小规模,现在都是ZB级,10的18次方超大规模的数据量。从数据的结构来说,从传统的结构化朝大量的非结构化方向发展,从过去以静态为主朝着流数据发展,从单一的数据源朝着多元异构的方向发展,从多媒体朝着跨媒体融合的方向发展。这些数据特征的变化使得我们传统计算理论难以适应。从计算平台和计算范式来说,从过去的集中存储向现在的各地多数据中心的分布式存储方向发展,从多线程并行朝着多机协同的方向发展,从存储和计算相分离朝着数据和计算紧密深度融合的方向发展,从计算密集型或者数据密集型朝着两者混合的密集型方向发展,从静态全量计算朝着动态流式计算的方向发展,这些变化都是大数据分析中将要面临的理论和计算方面的挑战。在大数据分析与处理方面核心技术严重缺乏,我们熟悉的大数据处理核心技术的底层的核心软件、核心系统,像Spark、Hadood、Hbase这些著名的开源商用软件几乎全是被国外垄断,我们国家在这个领域缺乏自己的自主知识产权。第三,难以适配工程化应用的需求,比如大数据算法在工程化技术方面还处于基本空白状态。我们虽然有很多好的大数据算法和核心技术,但是应用到实际当中工程方面的适配还处于空白或者盲点。另外缺乏适用于大数据分析的工程化工具和快速的部署手段,核心技术与产业需求存在缝隙,缺乏面向行业的智能大数据决策支持工具和成熟的工程化解决方案,这些方面都是我们今后研究的重点和难点。 本文来源:https://www.wddqw.com/doc/233bf76c974bcf84b9d528ea81c758f5f61f29bb.html