统计分析和数据挖掘 来源:计世网 在企业管理信息化的大背景下,数据分析技术已经成为企业应用关注的一个焦点,但由于历史原因,大部分人对传统的统计分析和新起的数据挖掘都不太了解,存在着许多模糊认识。这里先谈谈对统计方法的两种常见的误解。 对统计分析的两种误解 统计学有很强的数学背景,所以常见的误解是:统计学家约等于数学家,数学家约等于陈景润,陈景润约等于歌德巴赫,于是统计学家约等于歌德巴赫。问题来了,歌德巴赫和企业的数据管理有什么关系呢?对于统计学来说,这种误解实在是极大的不幸。著名统计学家George Box有句名言:所有的模型都是错误的,而其中有些模型是有用的。这种话表面上看来是很放肆的,但统计学家们在处理实际问题的时候,所采取的就是这种实用主义态度。统计学家是一群跟数据打交道的工程师,工程师们也要使用大量的数学公式和计算,但决不是坐在屋子里证明高深的数学定理或者哥德巴赫猜想的怪才。 还有一种误解是:统计好象和会计连在一起。说这种话的人其本意是指企业里统计员的工作和会计的工作差不多,统计员和会计的工作为统计分析提供了数据基础。但我们一般说到的统计分析却是指基于数理统计发展起来的诸多方法。这样看来,把统计和会计混为一谈是有些低估统计分析的难度和潜力了。简单说来,会计系统把营业活动转化为数据,在数据编码和标准化方面都有独到之处,它为企业管理提供了大量的基础数据,会计系统构成了定量管理的基础设施;统计方法如果要在企业的管理实践中发挥更大的作用,就应该学习会计的这种标准化思路,让自己更便于使用,更加贴近用户的理解,一句话,变得更加“傻瓜化”。 再看企业决策支持系统 从企业决策支持系统的角度来评估各种量化管理方法的意义,这时实施一种具体的统计方法或者数据挖掘技术,实际上就相当于实施一个项目。量化管理方法很多,而统计方法是一个大类,尤其适用于在不确定环境和信息不充分下的决策。 图1 企业在选用系统的时候,该怎么办?一个通用的问题处理模型就能够说明,通用的问题处理模型包括:问题、可用的资源和技术、成本,综合考虑这三个方面的作用就能够达成一个相对合理的解决方案。这个通用的问题处理模型当然适用于企业寻找信息化途径的努力。 从一个统一的角度来看,企业定量管理的基础是数据的收集和处理系统,一般叫作决策支持系统。用这个金字塔图可以清楚地看到逐级提炼的过程(从噪音到数据、信息、知识和智慧)的提炼过程。决策所依赖的,至少是知识这个层次的加工结果,而未加工的原材料就是所谓的噪音。从这个广义的模型出发,我们可以把会计看作一个信息系统,各个层次之间的交界处需要采用特定的方法来完成提炼,而每个界面上可以运用的技术都是不一样的。 一个信息系统可以包括会计系统、数据库体系和数据分析体系,有一种常见的误解认为统计方法只涉及从数据以后开始的分析工作。其实,巧妇难为无米之炊,统计方法的运用效果取决于基础数据,而收集何种基础数据,怎样节省收集数据的成本,如何降低数据收集过程中的误差,都需要一定的理论指导,统计学为回答这些问题提供了许多很有效的解决方案。 和实际的矿山一样,开掘银矿、煤矿和金矿所用的技术是完全不一样的。完成从噪音到智慧的过程包括其中的中间产物,也有一个对症下药的问题,再考虑到实施的成本和数据分析的难度(比如数据量,数据维数等等),数据处理很容易被人理解为一种艺术。说统计分析和数据挖掘带有艺术色彩应该基本正确,这就象淘金和看病一样,不一定最贵的药就最好。比如对统计方法和统计软件的选用,就是有区别的。小型企业的信息化,基本上依赖ACCESS数据库和EXCEL界面就可以完成;大型企业的信息化则需要和专业的管理软件公司合作才能完成。早期信息化的成本和失败率往往都比较高,这和病急乱投医的情形差不多。 有些人生富贵病,典型症状就是一定要吃贵重的药,否则病好不了,这种现象在企业信息化中也能看到。打个比方,美国企业的信息化接近于坚持锻炼,中国企业的信息化则更像病后康复——有(续致信网上一页内容)了健康人的示范效应,中国的企业就特别着急,不注意信息系统和自身管理实践的融合,只买贵的、不买对的,结果是交了不少学费。笔者希望对数据分析的运用不要陷入同样的误区。 计算机扮演的角色 从以往的情况来看,统计方法的大规模推广依赖于计算能力的不断增强或者说计算成本的大幅下降。芯片制造技术和软件工程的迅猛发展给人们留下了深刻印象,但是数据量的增长却始终走在计算机的增长前面。这种力不从心的感觉是历史上的常态。完全手工计算的时候,人们会认为多元线性回归的计算是很恐怖的;有手摇计算机的时候,作主成分分析是非常恐怖的;现在,海量数据来了,虽然拥有20年前无法想象的计算能力,有关的分析工作还是让人头痛不已。但是,计算机还是让统计学跟在后面,不断开拓自己的领地。所以,统计学应该感谢计算机,是计算机让统计学变成了真正的实用学科。 另一方面,计算机学科又在不断侵入统计的领域,模糊统计学的边界。很多人都在比较自由地利用计算机,“自以为是”地进行数据分析或者所谓的、不严密的统计分析,他们往往不把“统计专家”的意见放在眼里。有很多大量使用统计方法来分析问题的人甚至没有接受过足够的统计学科训练。对于许多计算数学方面的专家来说,统计学家的权威地位是比较古怪的东西。 偏偏还有许多统计方法的发展历程是这样的:实际应用部门的人提出了一种经验方法,然后其他非统计专业的人开始模仿并推广,最后统计学家跟在后面,努力说明这种方法在统计意义下的合理性并把这种方法整理得更符合学院派的需要。得到广泛应用的方法就会进入统计教科书,成为统计学的组成部分。有些时候,统计学落在了应用的后面。 现在,依赖严格数学假设和推理的统计分析方法依然是统计学的主流。但是面对外行们的自由行动,统计学家比较无奈。数据挖掘正在充当新的入侵者甚至是竞争者,统计学家应该区分自己的理论和实际应用,结果统计学家内部开始分化,放下架子的人越来越多,这是好事。但是,许多来自计算科学的数据挖掘专家为了凸显自己的革命者形象,会宣称自己并非统计学家,甚至强调无须懂得统计学,这就有些虚无主义,做过了头。 本文来源:https://www.wddqw.com/doc/437bff34c181e53a580216fc700abb68a982ad05.html