Data Science 简明教程

Data Science - Scientists

数据科学家是一位经过培训的专业人士,他们分析并理解数据。他们利用其对数据科学的了解来帮助企业做出更好的决策并更好地运营。大多数数据科学家在数学、统计学和计算机科学方面都有丰富的经验。他们使用这些信息来查看大量数据并找出趋势或模式。数据科学家还可能提出收集和存储数据的新方法。

How to become a Data Scientist?

迫切需要懂得如何使用数据分析为公司提供竞争优势的人员。作为一名数据科学家,您将根据数据做出业务解决方案和分析。

成为数据科学家的途径有很多,但由于它通常是一份高级工作,因此大多数数据科学家都拥有数学、统计学、计算机科学和其他相关领域的学位。

以下是成为数据科学家的步骤:

Step 1 − Right Data Skills

如果你没有数据相关的工作经验,那么你可以成为一名数据科学家,但你需要获得从事数据科学的必要基础。

数据科学家是一个高级职位;在达到这一专业水平之前,你应该在相关主题中获得全面的知识基础。这可能包括数学、工程、统计、数据分析、编程或信息技术;一些数据科学家从银行或棒球侦查开始他们的职业生涯。

但是,无论你从哪个领域开始,你都应该从 Python、SQL 和 Excel 开始。这些能力对于处理和组织原始数据非常重要。熟悉 Tableau 有利,这是一种你经常用来构建可视化效果的工具。

Step 2 − Learn Data Science Fundamentals

数据科学训练营可能是学习或提高数据科学原理的完美方法。你可以参考 Data Science BootCamp ,其中包含了详细涵盖的每个主题。

学习数据科学基础知识,例如如何收集和存储数据、分析和建模数据,以及使用数据科学工具集中所有工具(例如 Tableau 和 PowerBI 等)显示和呈现数据。

在培训结束时,你应该能够利用 Python 和 R 创建评估行为和预测未知数的模型,以及使用户友好的格式重新打包数据。

一些数据科学工作清单规定高级学位是先决条件。有时,这是不可协商的,但当需求超过供应时,这越来越多地揭示了真相。也就是说,必要才能的证明常常超越了仅凭证书。

招聘经理最关心的是你如何很好地展示你对该科目的了解,越来越多的人认识到,不必以传统方式去做。

Data Science Fundamentals

  1. Collect and store data.

  2. 分析并建模数据。

  3. 构建一个可以使用给定数据进行预测的模型。

  4. 以用户友好的形式可视化和呈现数据。

Step 3 − Learn Key Programming Languages for Data Science

数据科学家使用各种工具和程序,这些工具和程序专门用于清理、分析和建模数据。数据科学家需要了解的不仅仅是 Excel。他们还需要了解一门统计编程语言,如 Python、R 或 Hive,以及一门查询语言,如 SQL。

RStudio 服务器为在服务器上使用 R 工作提供了开发环境,它是数据科学家最重要的工具之一。另一个流行的软件是开源 Jupyter Notebook,它可用于统计建模、数据可视化、机器学习等。

机器学习最常用于数据科学。它指的是使用人工智能的工具,使系统能够学习和改进,而无需专门对其进行编程。

Step 4 − Learn how to do visualizations and practice them

练习使用 Tableau、PowerBI、Bokeh、Plotly 或 Infogram 等程序从头开始制作自己的可视化效果。找到让数据自己说明问题的最佳方式。

此步骤中通常使用 Excel。尽管电子表格背后的基本思想很简单——通过关联单元格中的信息进行计算或绘图——但 Excel 在 30 多年后仍然非常有用,没有它几乎不可能进行数据科学。

但制作美丽的图片仅仅是个开始。作为一名数据科学家,你还需要能够使用这些可视化效果向现场观众展示你的调查结果。你可能已经具备了这些沟通技巧,但如果没有,也不必担心。每个人都可以通过练习来提高自身。如果你需要,可以从向一个朋友甚至你的宠物进行演示开始,然后再进行小组演示。

Step 5 − Work on some Data Science projects that will help develop your practical data skills

一旦你了解了数据科学家使用的编程语言和数字工具的基础知识,你就可以开始使用它们来练习和提高你的新技能。尝试承担需要广泛技能的项目,例如使用 Excel 和 SQL 管理和查询数据库,以及使用 Python 和 R 使用统计方法分析数据、构建分析行为并为你提供新见解的模型,以及使用统计分析预测你不知道的事情。

在你练习时,请尝试涵盖该过程的不同部分。从研究公司或市场领域开始,然后定义和收集适合手头任务的正确数据。最后,清理并测试该数据,以使其尽可能有用。

最后,你可以制作和使用自己的算法来分析和建模数据。然后你可以将结果放入简单易读的可视化或仪表板中,供用户使用它与你的数据互动并就此询问问题。你甚至可以尝试向其他人展示你的调查结果以提高你的沟通能力。

你也应该习惯处理不同类型的数据,比如文本、结构化数据、图像、音频甚至视频。每个行业都有其自己的数据类型,这些数据可以帮助领导者制定更好的、更明智的决策。

作为一名职业数据科学家,你可能只精通其中一两个领域,但作为一名培养技能的初学者,你应该学习尽可能多类型的基础知识。

承担更复杂项目将让你有机会了解如何用不同方式来使用数据。一旦你知道如何使用描述性分析法来查找数据中的模式,你就可以更好地准备尝试诸如数据挖掘、预测模型和机器学习等更复杂的统计方法来预测未来事件或提出建议。

Step 6 − Make a Portfolio that shows your Data Science Skills

一旦你完成初步研究、接受培训并通过制作各种令人印象深刻的项目来实践你的新技能,下一步就是通过制作精美的作品集来展示你的新技能,这会帮你获得理想的工作。

事实上,在你求职时,你的作品集可能是最重要的东西。如果你想成为一名数据科学家,你或许应该在 GitHub 上展示你的作品,而不仅仅是(或加上)你自己的网站。GitHub 能让你轻松展示你的工作、流程和结果,同时也能在公共网络中提升你的个人形象。不过,不要就此止步。

用你的数据加入一个引人入胜的故事,并展示你试图解决的问题,以便雇主能够看到你有多好。你可以在 GitHub 上将你的代码放在更大的图片中,而不仅仅是单凭代码本身,这使得你的贡献更容易理解。

在你申请特定工作时,不必列出你所有的工作。仅强调最贴合你要申请的工作的几个部分,这些部分最能展示你贯穿整个数据科学流程的技能范围,从使用基本的数据库开始,到定义问题、清理数据、建立模型并找到解决方案。

你的作品集是你展示自己不仅能处理数字还能有效沟通的机会。

Step 7 − Demonstrate Your Abilities

你独立完成的一个出色的项目可以是一个展示你技能并给可能会雇用你的招聘经理留下深刻印象的绝佳方式。

选择一些真正感兴趣的事物,向其中提问,并尝试用数据回答这个问题。

记录你的旅程,并通过以美丽的方式呈现你的调查结果并说明你是如何做到的来炫耀你的技术技能和创造力。你的数据应该附带一个引人入胜的故事,该故事展示了你解决的问题,突出你的流程和所采取的创造性步骤,以便雇主能够看出你的价值。

加入 Kaggle 等在线数据科学网络是另一种展示你投身于社区、作为一个有志向的数据科学家展示你的技能以及不断提升你的专业知识和影响力的绝佳方式。

Step 8 − Start Applying to Data Science Jobs

数据科学领域有很多工作。在学习基础知识后,人们往往会继续专门从事不同子领域,例如数据工程师、数据分析师或机器学习工程师等。

了解公司重视什么以及他们正在做些什么,并确保它符合你的技能、目标和未来想做的事情。而且不要只盯着硅谷。波士顿、芝加哥和纽约等城市难以找到技术人才,因此有很多机会。