新浪首页 > 新浪教育 > 加拿大求职专栏 > 正文

数据挖掘在北美得到了重视和普及

http://www.sina.com.cn 2004/07/08 14:55  新浪教育

  新概念“Data Mining”班上一期学员Frank在课程结束一周内即获得了Senior Data Analyst的高薪职位,成功的完成职业生涯从原来的事务型角色向分析型角色的转变,在上周的成功同学经验交流会上,Frank真诚的向大家推荐高博士的“Data Mining”课程,因为这门课程让学员的理论基础大为加强,在面试的时候可以侃侃而谈,表现不俗,对于给雇主留下深刻印象以及最后的成功帮助巨大!事实上,无论是寻找以Data Warehouse还是SAS以及其它的数据处理相关的工作,Data Mining都是其中的至关重要的核心技术及理论基础,而目前
从事IT业的大部分技术移民,在理论及分析方面急需补充,才能有职业生涯的进一步突破,针对此,新概念独家首推“Data Mining”课程,更聘请到此方面的专家----数据挖掘研究方向的高博士,已经成功举办两期,由于高老师深厚的理论及实践基础、翔实的资料、脉络清晰的讲解,使的此课日臻成熟和完善,为诸多的学员的成功就业、换工、转行奠定了坚实的基础!恰逢北美近期数据处理工作职位众多,此时进修“Data Mining”对于成功就业事半功倍,而新概念本期更是大特价,3月13日(本周六)5:00pm新班公开课,难得的进修机会,不容错过!

  下面是特别邀请高博士为大家撰写的有关Data Mining的好文章,清晰明了,言之有物,属上乘之作,值的一读再读!

  数据挖掘在北美得到了前所未有的重视和普及!

  作者:Mike Gao

  数据挖掘是一门跨领域的技术,适合有IT以外背景人士选修,如销售,财务,机械,制造,calling center等行业,可以提升个人职业层次,在不改变原专业的情况下,从原来的事务型角色向分析型角色转变。

  数据挖掘是近年来信息爆炸推动下的新兴产物,是从海量数据中提取有用知识的热门技术。传统的交易型系统,九十年代兴起的互连网技术及ERP系统在越来越廉价的存储设备配合下,产生了大量的数据。但与之相配合的数据分析和知识提取技术在相当长一段时间里没有大的进展,使得存储的大量原始数据没有被充分利用,转化成指导生产的“知识”,形成“数据的海洋,知识的荒漠”这样一种奇怪的现象。

  数据挖掘(Data Mining)就是从大量数据中发现潜在规律、提取有用知识的方法和技术。因为与数据库密切相关,又称为数据库知识发现(Knowledge Discovery in Databases,KDD)。数据挖掘不但能够学习已有的知识,而且能够发现未知的知识;得到的知识是“显式”的,既能为人所理解,又便于存储和应用,因此一出现就得到各个领域的重视。从80年代末的初露头角到90年代末的广泛应用,以数据挖掘为核心的商业智能(BI)已经成为IT及其它行业中的一个新宠。目前数据挖掘技术在零售业的货篮数据(Basket data)分析、金融风险预测、产品产量、质量分析、分子生物学、基因工程研究、Internet站点访问模式发现以及信息搜索和分类等许多领域得到了成功的应用。如果你访问著名的亚马逊网上书店(www.amazon.com),会发现当你选中一本书后,会出现相关的推荐数目“Customers who bought this book also bought”,这背后就是数据挖掘技术在发挥作用。

  提到数据挖掘,就不能不提商业智能(Business Intelligence),简称BI,就是将智能计算技术应用于传统商业领域,从而提高数据分析能力,优化业务过程,提高企业竞争力。虽然商业智能的普及仅仅是最近几年的事情,但已经渗透到金融,电信,零售,医药,制造,政府等各个行业和领域,成为大中型企业经营决策的重要组成部分。

  与商业智能相关的词汇有例如数据仓库,数据装载(ETL),数据挖掘(Data Mining), 客户关系管理(CRM),SAS,PeopleSoft, SAP等。到上个世纪九十年代,以数据存储为目的的联机分析处理系统(OLTP)已经发展得相当成熟,关系型数据库的应用已经非常普及,大型企业或部门积累了大量原始数据。这些数据是按照关系型结构存储,在更新,删除,有效存储(少冗余数据)方面表现出色,但在复杂查询方面效率却十分低下。为充分利用已有数据,提供复杂查询,提供更好的决策支持,出现了数据仓库(Data Warehouse)。数据仓库与数据库(这里的数据库指关系型数据库)的区别在于,数据仓库以方便查询(称为主题)为目的,打破关系型数据库理论中标准泛式的约束,将数据库的数据重新组织和整理,为查询,报表,联机分析等提供数据支持。数据仓库建立起来后,定期的数据装载(ETL)成为数据仓库系统一个主要的日常工作。

  在数据仓库发展的同时,一项从大量数据中发现隐含知识的技术也在学术领域兴起,这就是数据挖掘。数据挖掘也称为数据库知识发现(Knowledge Discovery in Databases, KDD),就是将高级智能计算技术应用于大量数据中,让计算机在有人或无人指导的情况下从海量数据中发现潜在的,有用的模式(也叫知识)。最初的数据挖掘应用一般需要从组织数据做起,经历算法设计(建模),挖掘,评价,改进等步骤。其中组织整理数据占据大部分时间,大约占到整个数据挖掘项目80%的时间。

  数据挖掘的真正普及是建立在数据仓库的成功应用之上。一个设计完善的数据仓库已经将原始数据经过了整理和变换,在此基础上再进行深入挖掘就是顺理成章的事情。

  数据挖掘是一项技术,由许许多多的算法构成,如决策树,聚类,关联算法,分类算法,神经网络等,这些算法可以有多种实现方式。SAS就是用来实现数据挖掘的一个商业产品。可以把SAS看成与Visual Basic, Java或C语言一样的一个编程环境,不同的是SAS专门针对数据挖掘提供了大量编程接口。比如一个回归算法,只要理解了其中的数学原理,你可以用任何一种通用编程语言自己实现,但在SAS中简单到只是一个函数调用。

  数据挖掘渗透到某些行业,产生了一些特定的应用,比如现在经常会听到的客户关系管理(Customer Relationship Management, CRM)。客户关系管理的概念由来已久,但现代的客户关系管理一般指以客户数据为处理对象的一类商业智能应用。通过挖掘客户信息,发现潜在的消费趋势或动向。比如电信公司通过分析用户通话模式(通话时间,时段,通话量等),制订不同的计费方案,满足用户的同时也提高自己的利润。

  规划个人职业发展的时候,在众多考虑因素中有两个是非常重要的:所要投入的技术所处的发展阶段和能否结合已有专业知识。

  每种技术从提出到广泛应用(或失败被抛弃)有一定的发展周期,称为科学技术的生命周期(Technological life cycle)。该周期大致分为创新(Innovators),早期成长(Early adopters),分歧点(Chasm),早期流行(Early majority),晚期流行(Late majority)和衰退阶段(Laggards)。对于应用型技术人员来说,早期流行阶段是进入一个新技术领域的最佳时机, 因为该技术已经通过分歧点的考验,又处于上升阶段,风险最小,竞争最少,更容易脱颖而出。数据挖掘技术现在就处在这样一个早期流行阶段。

  数据挖掘的对象是某一专业领域中积累的数据;挖掘过程是一个人机交互、多次反复的过程;挖掘的结果要应用于该专业。因此数据挖掘的整个过程都离不开应用领域的专业知识。“Business First, technique second”是数据挖掘的特点。因此学习数据挖掘不意味着丢弃原有专业知识和经验。相反,有其它行业背景是从事数据挖掘的一大优势。如有销售,财务,机械,制造,call center等工作经验的,通过学习数据挖掘,可以提升个人职业层次,在不改变原专业的情况下,从原来的事务型角色向分析型角色转变。

  我们正处于一个信息爆炸的年代,能够在第一时间内获得或者找到最有价值的信息和资源,则成为企业在激烈地竞争中取胜的重要的因素,所以, 商业智能(Business Intelligence)应运而生,而与之相关的技术和工具如Data Warehouse、 Data Mining、SAS则以惊人的速度得到快速、蓬勃的发展,并且在北美以至全球都有越来越火的趋势,毫无疑问,相对应的必然是需要大量的此方面的技术人员,并且由于工作性质和数据库相关,职位相对稳定、高薪,很适合华人技术移民!

  虽然北美就业市场竞争日益激烈,而上述数据处理系列的就业则一枝独秀,因为工作多在大的银行和企业、真正会做的人少、与数据相关等优势而成为“技术移民就业的首选”,随着北美经济的明显好转,近几个月此三方面的就业更是在华人移民中掀起一股就业热潮,为广大技术移民带来了难得的就业机遇和意外的惊喜! 而数据处理的核心技术---数据挖掘更是得到了前所未有的重视和普及,华人技术移民应将数据挖掘技术与个人已有专业知识相结合,开辟职业生涯新天地!




评论】 【推荐】 【 】 【打印】 【关闭

    




新 闻 查 询
关键词一
关键词二


search 小灵通 儿童用品 香水
 
热 点 专 题
中法文化年精彩纷呈
2003年审计报告
聚焦航班延误补偿
惠特尼休斯顿北京个唱
欧洲杯落幕 美洲杯
全国治理超限超载行动
凤凰卫视中华小姐大赛
青少年教育 网络妈妈
违法和不良信息举报

   



文化教育意见反馈留言板电话:010-62630930-5178 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 招聘信息 | 网站律师 | SINA English | 产品答疑

Copyright © 1996 - 2004 SINA Inc. All Rights Reserved

版权所有 新浪网
北京市通信公司提供网络带宽