龙源期刊网 http://www.qikan.com.cn 数据科学家应具备四项能力 作者: 来源:《中国计算机报》2013年第39期 在业务场景中,经验+感觉的方式正逐渐被数字+事实的决策所取代。这对于企业雇主和从业者都是一个机遇。数据科学家需要以一个严谨、客观的心态去对待数据,探索数据,同时在工作中不断完善自己的能力和提高对数据的感觉。 人人游戏高级数据科学家陈弢根据自己多年来在大数据领域的工作经验总结出数据科学家的主要工作内容:数据处理平台,包括公司的基础数据平台以及各个具体业务线的指标数据和日志数据平台的搭建;历史数据的分析挖掘,包括与各种产品线相关的业务分析、用户画像、用户行为分析、用户留存分析等,目的是让业务决策者对于现状有清晰、系统、完整的认识,从而辅助其做出下一步的决策;数据驱动的预测性分析,比如建立推荐模型,并利用模型对未来的情况进行预测。这部分工作是大数据挖掘工作中最有意义的部分,也是与产品线联系最紧密的部分。 从统计思维到数据思维的突破 数据科学家到底应该具备哪些基本的素质和能力呢? 陈弢认为,数据科学家首先要具备科学家的基本素质,即客观、诚实和严谨。其次,数据科学家需要有数据库系统及数据管理的知识,以应对大量数据的导入和存储,同时必须掌握机器学习中的算法和模型处理预测性的需求。再次,相对于知识而言,理念上的突破对于数据科学家显得更为重要。很多数据科学家都具有深厚的统计学背景,而统计学的目标是从各种类型的数据中提取有价值的信息,但不强调对事物的洞察力(Insight),不强调深度的知识。所以,如何实现从固有的统计思维到数据思维的突破是一大挑战。最后,交流合作的能力也是数据科学家自身普遍需要解决的问题。这里说的交流不仅仅指数据科学家内部的知识分享、技能学习,更重要的是向业务人员、负责运营的同事、领域内的专家虚心请教和学习。分析人员不能仅醉心于技术,更要走进业务去“采风”,一方面普及数据挖掘的知识和它的作用,另一方面收集需求。 对数据深度挖掘 自2002年从北京大学数学院毕业之后,陈弢师从香港科技大学计算机系的张连文教授,研究机器学习的模型和算法。在与数据打交道的十年中,陈弢利用机器学习的各种模型,包括决策树、随机森林、贝叶斯网络、SVM等,处理过分类、聚类、相关性分析等数据挖掘问题。这些问题分别来源于中医、市场营销、计算广告学、社会学等不同领域。在工作过程中,陈弢逐渐熟悉了一些大数据收集、存储和管理的系统,成了名副其实的数据科学家。 龙源期刊网 http://www.qikan.com.cn 在人人游戏,陈弢主要从事的是数据的深度挖掘工作。一方面, Ader广告平台以每天500GB的速度收集了在上亿台移动设备上的各种类型广告的曝光、点击甚至转化数据。基于这些数据,陈弢利用预测性分析的算法,优化了广告投放,帮助整个平台提高点击和转化效率,同时通过多维度的定向投放来帮助广告主优化其投放效果。另一方面,人人游戏的玩家们在玩游戏的过程中会产生各种各样的行为。基于这些行为数据,陈弢所在的团队又尝试对用户按其行为分群,研究不同群体玩家的特性,从而为游戏玩法改进、虚拟物品定价等提供建议。 数据科学家不是一个噱头 数据科学家具备从大数据里掘金的能力,能对各行业的数据,包括医疗数据、移动设备数据、社交媒体流数据等进行预测,并给企业带来巨大的商业价值。陈弢认为,未来5年,数据科学家将出现供不应求的局面。 数据科学家不是一个噱头。企业已经从大数据中开始赚钱了。比如Google通过提供免费的搜索服务来搜集网民的信息,然后根据意图推送广告。诸如此类的一系列商业模式的背后都蕴藏着数据科学家所擅长的预测、推荐等技术。在中国,互联网的巨头们是富数据企业,它们掌握了网民的意图数据、购物偏好数据和社交关系数据。众多数据科学家帮助这些数据成功落地,创造了巨大的价值。然而,数据科学家很难在其他数据匮乏的企业找到用武之地。 本文来源:https://www.wddqw.com/doc/bd2b0752876fb84ae45c3b3567ec102de2bddff5.html