Machine Learning 简明教程
Machine Learning - Required Skills
机器学习是一个快速发展的领域,它需要技术技能和软技能的结合才能成功。以下是机器学习所需的一些关键技能 −
Statistics and Mathematics
对统计学和数学的深刻理解对于机器学习至关重要。数据科学家必须能够理解和应用统计模型、算法和方法来分析和解释数据。
为了让你简要了解需要获得哪些技能,让我们讨论一些示例:
Mathematical Notation
大多数机器学习算法在很大程度上基于数学。你需要了解的数学水平可能只是初学者水平。重要的是你应该能够阅读数学家在方程式中使用的符号。例如 - 如果你能够阅读符号并理解其含义,那么你就可以学习机器学习了。如果没有,你可能需要复习一下你的数学知识。
f_{AN}(net-\theta)=\begin{cases}\gamma & if\:net-\theta \geq \epsilon\\net-\theta & if - \epsilon< net-\theta <\epsilon\\ -\gamma & if\:net-\theta\leq- \epsilon\end{cases}
\displaystyle\\\max\limits_{\alpha}\begin{bmatrix}\displaystyle\sum\limits_{i=1}^m \alpha-\frac{1}{2}\displaystyle\sum\limits_{i,j=1}^m label^\left(\begin{array}{c}i\\ \end{array}\right)\cdot\:label^\left(\begin{array}{c}j\\ \end{array}\right)\cdot\:a_{i}\cdot\:a_{j}\langle x^\left(\begin{array}{c}i\\ \end{array}\right),x^\left(\begin{array}{c}j\\ \end{array}\right)\rangle \end{bmatrix}
f_{AN}(net-\theta)=\left(\frac{e {\lambda(net-\theta)}-e {-\lambda(net-\theta)}}{e {\lambda(net-\theta)}+e {-\lambda(net-\theta)}}\right)\;
Probability Theory
这是一个测试你当前概率论知识的例子:使用条件概率进行分类。
p(c_{i}|x,y)\;=\frac{p(x,y|c_{i})\;p(c_{i})\;}{p(x,y)\;}
使用这些定义,我们可以定义贝叶斯分类规则—
-
如果 P(c1|x, y) > P(c2|x, y) ,则该类为 c1 。
-
如果 P(c1|x, y) < P(c2|x, y) ,则该类为 c2 。
Optimization Problem
这是一个优化函数
\displaystyle\\\max\limits_{\alpha}\begin{bmatrix}\displaystyle\sum\limits_{i=1}^m \alpha-\frac{1}{2}\displaystyle\sum\limits_{i,j=1}^m label^\left(\begin{array}{c}i\\ \end{array}\right)\cdot\:label^\left(\begin{array}{c}j\\ \end{array}\right)\cdot\:a_{i}\cdot\:a_{j}\langle x^\left(\begin{array}{c}i\\ \end{array}\right),x^\left(\begin{array}{c}j\\ \end{array}\right)\rangle \end{bmatrix}
受以下约束的限制—
\alpha\geq0,并且\:\displaystyle\sum\limits_{i-1}^m \alpha_{i}\cdot\:label^\left(\begin{array}{c}i\\ \end{array}\right)=0
如果你能够理解以上内容,那么你已经准备好了。
Data Visualization
数据可视化是创建数据的图形表示以帮助用户理解和解释复杂数据集的过程。数据科学家必须能够创建有效的可视化,以传达从数据中获得的见解。
在很多情况下,你将需要理解各种可视化图,以了解你的数据分布并解释算法输出的结果。
除了机器学习的以上理论方面,你还需要好的编程技能来编写这些算法。
Machine Learning Algorithms
机器学习需要各种算法的知识,例如回归、决策树、随机森林、K 近邻、支持向量机和神经网络。了解这些算法的优点和缺点对于构建有效的机器学习模型至关重要。