Data Science:Prologue

 

大数据Big Data,作为目前最为时髦的形容词,被广大商家以移花接木之势用在种种商品和服务之前。“大数据咖啡厅”、“大数据全自动洗车行”、“大数据交通管理系统”等概念层出不穷。

有些应用场景确实精妙过人,有一些则是纯粹为了蹭热度。那今天我们就来聊一聊数据科学 Data Science 的应用和发展前景,看看对于留学生来说Data Scientist之路上会有哪些挑战和机遇。

I. What is data Science?

The term “Data Science” has emerged only recently to specifically designate a new profession that is expected to make sense of the vast stores of big data.
数据科学 Data Science 是一门非常新兴的交叉学科,有非常多的研究领域都可以作为它的切入点/侧重点。简而言之,数据科学的宗旨就在于在浩如烟海的数据库中总结出规律。
现代社会中数据分析无处不在,你的每一次点击,每一次下滑,每一次长时间的停留都会产生新的数据,商家因此就会用这类数据来研究使用者的习惯和偏好;

 

 

从顾客的购买/退货记录中,店家可以看出顾客的口味,并对定价做出精确判断;

对社区附近的犯罪率、污染程度、住址等信息的分析可以让医院实时追踪病人的重入院率 Readmission Rate;

保险公司近年来来使用预测模型Predictive Model和机器学习Machine Learning来减少成本,以此来预测保险欺诈的可能性。

由此可见,数据科学在如今这个信息无所不在的社会中所能发挥的作用格外惊人。

II. Where?

数据科学还处于一个飞速发展的阶段,所需要的知识亦在不断迭代中。因此,在本科阶段大部分大学并没有设立一个完整的院系Department/Major来开设对应的课程,并没有诸如Data Science101之类的本科课程。

 大部分学院都会在统计系、数学系、计算机系甚至是工程系中开展一些偏向和专精课程,把未来会适合于数据科学的课程提供给大家。但在研究生阶段,就会有专门学习数据科学的项目。那下面我们就来看看在在数据科学的领域,哪些学校的实力令人侧目。

哈佛大学

 

作为美国排名第一的数据科学研究生项目,哈佛大学的Master of Science in Data Science由其计算机系、统计系的知名教授来授课,项目是由哈佛大学的 IACS( Institute for Applied Computational Science)来管理。通过三个学期的学习,项目参与者可以了解世界最尖端的数据科学知识。

可以注意到这是归属于计算机系的一个项目,所以在课程设计和教学目标上比较专精于模型搭建和信息系统方面的梳理。

与此同时,由哈佛大学公共卫生学院T.H. Chan School of Public Health学院领头的另一个数据科学的项目Master of Science in Health Data Science会在课程设置上稍有区别。在这个项目中学生们会更多地关注Health Science Data的各类表现,用统计和信息学的工具来解决公共卫生方面的隐患。

哥伦比亚大学

位于纽约市的哥伦比亚大学成立了独立的Data Science Institute,提供Master of Science in Data Science的一年半到两年的项目。

整体项目的内容偏向于数理统计和编程。项目参与者还有机会参与在数据研究所旗下的八大研究中心所提供的研究课题,和商业机构或政府部门合作解决实际问题。

杜克大学

 

杜克大学所提供的MIDS(Master in Interdisciplinary Data Science)项目也广受欢迎。

与之前两所提到的大学不同的是,杜克大学会在选修中加入历史、设计、艺术、人类学、生物学等看似和数据科学并没有太大关系的课程,真正做到了交叉学科Interdisciplinary Study的极致。于此同时,杜克大学还提供高达8个分支可供选择。

 

 

 

乔治城大学

 

乔治城大学旗下的公共政策学院McCourt School of Public Policy 提供MS-DSPP(Master of Science in Data Science for Public Policy )项目,致力于用统计模型和计算机大数据来解决政策设立的问题。在课程中非常偏向于管理和宏观经济学知识的应用。

 

除开之前所提的这几所大学,还有——

  • 斯坦福大学Stanford University

  • 布朗大学Brown University

  • 南加州大学University of South California

  • 卡耐基梅隆大学Carnegie Mellon University

  • 纽约大学New York University

  • 罗彻斯特大学University of Rochester

  • 东北大学Northeastern University

  • 华盛顿大学University of Washington

……等都提供了拥有各自特色的数据科学硕士项目。

 

对于本科申请者,如果对成为Data Scientist有浓厚的兴趣,那就要在本科申请数学、统计、计算机等项目,积累相应的科研经验,为未来研究生的申请做好准备。

 

开设统计系Statistics的美国大学有很多,其中——

  • 斯坦福大学Stanford University

  • 加州大学伯克利分校UC Berkeley

  • 哈佛大学Harvard University

  • 约翰霍普金斯大学John Hopkins University

  • 华盛顿大学University of Washington

  • 芝加哥大学University of Chicago

  • 卡耐基梅隆大学Carnegie Mellon University

……等学校都位于前列。

计算机科学Computer Science也是近年来申请人数暴增的学科之一:

  • 卡耐基梅隆大学Carnegie Mellon University

  • 麻省理工学院MIT

  • 斯坦福大学Stanford University

  • 加州大学伯克利分校UC Berkeley

  • 康奈尔大学Cornell University

  • 华盛顿大学University of Washington

  • 乔治亚理工Georgia Institute of Technology

……等学校都是大家心中的学术圣殿。

III. Which courses?

即使各个学校都有自己的特色,但总体来说,数据科学还是一门非常注重于数学、统计、编程的实操性学科。下面我们就以哈佛大学数据科学项目中所包含的课程来做个例子。

在完成这个两年的项目之后,毕业生可以:构建统计模型来解决实际问题,并深入了解各个模型的优缺点;设计实验;使用机器学习的方法来优化决策能力;以多样化的工具来整理并分析大量数据;成为一个好的合作者等。

 

课程包括四门核心课程Technical Core Courses: 数据科学1 Data Science I,数据科学2 Data Science II,高级科学计算 Advanced Scientific Computing: Stochastic Methods for Data Analysis, Inference, and Optimization,

计算机科学中的系统构建 Systems Development for Computational Science。

一门关于批判性思维的课程Critical Thinking in Data Science。

至少一次研究经历,也就是说在安排课程之前就要看好哪一项/几项研究工作是你感兴趣的。

一门统计、一门计算机选修课和一门当年开设的讨论课Seminar,但选修课的数量不能超过四门(超过这个数量可能还要加学费并延期毕业)。

在项目结束之前,要在当年的IACS对项目展示会上有一份自己独立的数据科学方面的演示。

 

哈佛提供了统计学和计算机科学两方面一共22门选修课程,大家可以完全按照自身的需求来定制最适合个人的课程组合。

统计学包括:

  • 计量金融学Quantitative Finance

  • 线性系统Linear Models

  • 统计实验设计Design of Experiments

  • 贝叶斯数据分析Bayesian Data Analysis

……等课程。

 

计算机科学包括:

  • 数据结构和算法Data Structure and Algorithms

  • 数据系统Data Systems

  • 机器学习Machine Learning

  • 人工智能Artificial Intelligence

  • 大数据系统Big Data Systems

  • 机器学习在自然语言中的应用Machine Learning for Natural language

……等课程。

在这些课程中不乏小组讨论、小组合作以及独立演讲的训练。一个好的数据科学家不光能从数据中得出结论,还能以通俗易懂的方式来介绍他/她的工作,和其他人做到完美的配合。

哈佛大学的课程设计不单包含了核心的硬知识,还会时刻磨练大家的软技能。最后毕业之前所要求的演讲也会对大家在口才上的能力做出要求。

IV. Who are they looking for?

 

未来越来越多的交叉学科会进入大家的视线,这些项目也并没有把申请人的背景限定很死。

只要你表现出对数据科学的热爱并做过相关努力,那么招生官都会对你的申请有所青睐。但对于一个好的研究生项目申请者来说,其必须拥有扎实的统计学基础,对数学建模有一定的理解,在使用Python/R/Ruby/MATLAB等编程语言处理数据方面小有心得,同时他们还应该对数据分析在具体情况下的应用有所感悟,而这些并不是能在几个月时间内就能突击完成的。

所以如果大家对这个专业有了兴趣,早做相关的研究,早做相关的实习,培养对数据的敏感度,到时候申请成功也就水到渠成了。大部分数据科学项目的招生要求中并没有提及工作经验,但是如果有相关行业的实习和工作经历,那可是会大大增加申请的成功率。

对于本科申请者来说,申请统计系、数学系或者计算机系都是非常好的选择。在准备申请材料时,如果能在计算机竞赛中夺得头筹的同学申请计算机科学专业时会比其余的申请者更加出彩;

学有余力的同学在提供SAT I成绩的同时也参加SAT Subject的考试,或者在AP 考试中选择计算机科学或者统计学的考试,那这些成绩会作为Supplementary Credit附加到你们的申请中,起到一个助推器的作用;

如果在课外活动中能参加一些收集数据、分析数据的课题,那一定要在Personal Statement中着重标出,和你想要申请统计系/计算机系的愿望紧密结合在一起。

V. Future Career

大部分Data Science的研究生项目都以Terminal Degree的目标来设立,也就是说毕业之后并不需要继续进入学院深造就可以成为独当一面的Data Scientist。在工资水平和行业发展等方面,Data Science皆名列前茅。

一项去年的调查显示数据科学家的年薪在12万美元上下,其中不乏科技巨头例如IBM、Sony Entertainment、Ubisoft、Twitch Interactive等,也有一些传统的广告公司、新媒体公司和零售业公司提供的职位。应该说只要有大量的数据存在的行业,就有数据科学家的用武之地。

Epilogue

许多统计学家对这个新兴的行业嗤之以鼻,认为Data Science就是用了一点计算机技术的高端统计学。当然在某一些理想情况下这个说法的对的(就好像物理学家口中“真空中的球形鸡”类似);

对于另一些情况,在拥有大量数据和复杂阈值的实际情况中,Data Scientist们能更好地拉近理论和现实之间的沟壑,尽可能地解决实际问题,在公共卫生、公共政策、媒体、金融、航空安全、人口调查等领域都能一展身手。