Data Science 简明教程

Data Science - Getting Started

数据科学是从数据中提取和分析有用信息以解决难以通过分析解决的问题的过程。例如,当你访问一个电子商务网站,在购买之前查看一些类别和产品时,你正在创建分析师可以用来弄清楚你是如何进行购买的数据。

它涉及不同的学科,例如数学和统计建模,从其来源中提取数据和应用数据可视化技术。它还涉及处理大数据技术以收集结构化和非结构化数据。

它可以帮助你找到隐藏在原始数据中的模式。术语“数据科学”已经演变,因为数学统计、数据分析和“大数据”已经随着时间而改变。

数据科学是一个跨学科领域,它让你可以从有组织和无组织的数据中学习。利用数据科学,你可以将业务问题转化为研究项目,然后将其应用到实际解决方案中。

History of Data Science

约翰·图基在 1962 年使用术语“数据分析”来定义一个类似于当前现代数据科学的领域。在 1985 年对北京中国科学院的演讲中,C·F·杰夫·吴首次将短语“数据科学”作为统计的替代词。随后,在 1992 年于蒙彼利埃第二大学举办的会议上,从事统计工作的参与者认识到一个以多种来源和形式的数据为中心的新领域诞生,将统计和数据分析的已知思想和原则与计算机相结合。

彼得·诺尔在 1974 年建议将“数据科学”作为计算机科学的替代名称。国际分类学会联合会是第一个将数据科学作为专门主题予以突出的会议,是在 1996 年。然而,这个概念仍然在变化中。继在北京中国科学院的 1985 年的演讲后,C·F·杰夫·吴再次倡导在 1997 年将统计学更名为数据科学。他的理由是,一个新名称将有助于统计学摆脱不准确的刻板印象和观念,例如与会计有关或仅限于数据描述。林知己在 1998 年提出数据科学是一个包含数据设计、数据收集和数据分析三个组成部分的新型多学科概念。

在 20 世纪 90 年代,“知识发现”和“数据挖掘”是识别因数据集不断增长而产生的模式的过程的流行短语。

在 2012 年,工程师托马斯·H·戴文波特和 DJ·帕蒂尔宣称“数据科学家:21 世纪最热门的工作。”这个术语被纽约时报和波士顿环球报等主要都市出版物所采用。十年后,他们又重复了这一点,并补充说“这个职位的需求比以往任何时候都大。”

威廉·S·克利夫兰经常与数据科学作为独立领域的当前理解联系在一起。在 2001 年的一项研究中,他主张将统计学发展为技术领域;由于这将从根本上改变科目,因此需要一个新名称。在随后的几年中,“数据科学”变得越来越流行。在 2002 年,科学技术数据委员会出版了《数据科学杂志》。哥伦比亚大学于 2003 年创办了《数据科学杂志》。美国统计协会的统计学习和数据挖掘部分在 2014 年更名为统计学习和数据科学部分,反映了数据科学越来越受欢迎。

在 2008 年,DJ·帕蒂尔和杰夫·哈默巴赫获得了“数据科学家”的专业资格。尽管国家科学委员会在他们 2005 年的研究“长期数字数据收集:支持 21 世纪的研究和教学”中使用了这个术语,但它指的是在管理数字数据收集方面任何重要的角色。

对于“数据科学”的含义尚未达成共识,而且一些人认为它是一个流行语。大数据在营销中是一个类似的概念。数据科学家负责将海量数据转化为有用信息,并开发软件和算法,以帮助企业和机构确定最佳运营。

Why Data Science?

据 IDC 称,到 2025 年,全球数据将达到 175 泽字节。数据科学帮助企业了解来自不同来源的海量数据,提取有用的见解,并做出更好的数据驱动决策。数据科学广泛应用于多个工业领域,例如营销、医疗保健、金融、银行和政策制定。

以下是使用数据分析技术的重要优势:-

  1. 数据是现代社会发展的动力。利用适当的工具、技术和算法,我们可以利用数据创造独特的竞争优势。

  2. 数据科学可借助高明的机器学习技术帮助探测欺诈行为。

  3. 这有助于避免严重的财务损失。

  4. 使智能机器的开发成为可能

  5. 您可以使用情感分析来确定客户品牌忠诚度。这有助于您做出更好更快的选择。

  6. 使其能够向合适的消费者推荐合适的商品,以此来发展您的公司。

Need for Data Science

The data we have and how much data we generate

根据福布斯的报道,2010 至 2020 年间,全球产生的、复制的、记录的和消耗的总数据量激增约 5,000%,从 1.2 万亿千兆字节增长到 59 万亿千兆字节。

How companies have benefited from Data Science?

  1. 多家企业正在经历数据转型(将自己的 IT 架构转换为支持数据科学的那种架构),还开展数据训练营等活动。事实上,其原因显而易见:数据科学可以提供有价值的见解。

  2. 企业正在被那些基于数据做出判断的企业优胜劣汰。例如,福特组织在 2006 年遭受了 126 亿美元的损失。在遭受失败后,他们聘请一位资深数据科学家管理数据并进行了长达三年的改造。最终,此举促进了近 2,300,000 辆汽车的销售,并且为 2009 年整体赚取了利润。

Demand and Average Salary of a Data Scientist

  1. 据《 今日印度报》报道,由于企业和服务行业实现快速数字化,印度成为世界第二大数据科学中心。到 2026 年,分析师预计该国将拥有 1,100 万个以上的就业机会。事实上,自 2019 年以来,数据科学领域内的招聘已经激增 46%。

  2. 在美国银行是十年前最早向其消费者提供移动银行服务的金融机构之一。最近,美国银行推出了自己首个人工智能虚拟金融助手 Erica。其被视为全球最佳的金融发明。如今,Erica 为全球 4,500 万消费者充当客户顾问。Erica 使用语音识别来接收客户反馈,这代表着数据科学方面的技术进步。

  3. 数据科学和机器学习曲线陡峭。虽然印度每年看到大量涌入的数据科学家,但很少有人具备所需的技能和专业知识。结果,拥有专门数据技能的人员供不应求。

Impact of Data Science

数据科学对现代文明的各个方面产生了重大影响。数据科学对组织的重要性不断提高。根据一项调查,到 2023 年,数据科学的全球市场将达到 1150 亿美元。

医疗保健行业受益于数据科学的兴起。2008 年,谷歌员工意识到他们可以实时监控流感毒株。以前的只能每周提供一次实例更新。谷歌能够利用数据科学构建出首批用于监测疾病传播的系统。

体育产业也同样受益于数据科学。2019 年,一位数据科学家找到了方法来衡量和计算进球尝试如何增加足球队的取胜几率。事实上,数据科学被用于轻松计算多种体育项目的统计数据。

政府机构也每天都在使用数据科学。全球各国的政府使用数据库监控有关社保、税收以及有关其居民的其他数据的信息。政府对新兴技术的使用不断发展。

由于互联网已成为人类交流的主要媒介,因此电子商务的普及度也在增加。利用数据科学,在线企业可以监控整个客户体验,包括营销活动、购买和消费者趋势。广告必须是电商企业使用数据科学的最大实例之一。您是否曾在网上搜索过某些内容或访问过电商产品网站,却发现社交网站和博客上充斥着该产品的广告?

广告像素对于在线收集和分析用户信息至关重要。企业利用在线消费者行为通过因特网重新投放目标消费者。这种对客户信息的利用超出了电子商务的范畴。诸如 Tinder 和 Facebook 等应用使用算法帮助用户找到他们想要找的内容。互联网是一个不断增长的数据宝库,收集和分析数据也将继续增长。