Mahout 简明教程
Mahout - Machine Learning
Apache Mahout 是一个高度可扩展的机器学习库,使开发人员能够使用经过优化的算法。Mahout 实现了流行的机器学习技术,例如推荐、分类和聚类。因此,在继续深入之前,有必要简要了解一下机器学习。
What is Machine Learning?
机器学习是计算机科学的一个分支,它通过编程系统的方式使其能够通过经验自动学习和改进。这里的学习是指识别和理解输入数据,并根据所提供的数据做出明智的决策。
根据所有可能的输入迎合所有决策非常困难。为了解决这个问题,开发了算法。这些算法根据特定的数据和过去经验以及统计学、概率论、逻辑学、组合优化、搜索、强化学习和控制论的原则来构建知识。
已开发的算法形成各种应用的基础,如:
-
Vision processing
-
Language processing
-
预测(例如股票市场趋势)
-
Pattern recognition
-
Games
-
Data mining
-
Expert systems
-
Robotics
机器学习是一个广阔的领域,涵盖其所有功能超出了本教程的范围。有多种方法可用于实现机器学习技术,但最常用的方法是 supervised 和 unsupervised learning 。
Supervised Learning
监督学习涉及从可用的训练数据中学习函数。监督学习算法分析训练数据并生成一个推断函数,该函数可用于映射新示例。监督学习的常见示例包括:
-
classifying e-mails as spam,
-
根据其内容对网页进行标记,以及
-
voice recognition.
有许多监督学习算法,例神经网络、支持向量机 (SVM) 和朴素贝叶斯分类器。Mahout 实现了朴素贝叶斯分类器。
Unsupervised Learning
无监督学习可以理解未标记数据,而无需任何预定义的数据集进行训练。无监督学习是一种非常强大的工具,可用于分析可用数据并查找模式和趋势。它最常用于将相似的输入聚类到逻辑组中。无监督学习的常见方法包括:
-
k-means
-
self-organizing maps, and
-
hierarchical clustering
Recommendation
推荐是一种流行的技术,它根据用户的购买记录、点击和评级等信息提供密切的建议。
-
亚马逊使用此技术来显示您可能感兴趣的推荐项目列表,该列表借鉴您过去的操作信息。亚马逊背后有一些推荐引擎,可以捕捉用户的行为,并根据您的早期操作推荐所选项目。
-
Facebook 使用推荐技术来识别并推荐“您可能认识的人列表”。