Mahout 简明教程
Mahout - Introduction
我们生活在一个信息无限丰富的时代。信息过载已达到如此高的程度,以至于有时管理我们的小小邮箱都变得困难!想象一下 Facebook、Twitter 和 Youtube 等一些流行网站必须每天收集和管理的数据和记录量。即使是鲜为人知的网站也会收到大量信息也不是什么新鲜事。
通常,我们会使用数据挖掘算法来分析大量数据以识别趋势并得出结论。但是,没有哪种数据挖掘算法能够高效地处理非常大型的数据集并快速提供结果,除非计算任务在分布在云端的多台机器上运行。
我们现在有了能够将计算任务分解成多个部分并让这些部分在不同机器上运行的新框架。 Mahout 就是这样的一个数据挖掘框架,通常与 Hadoop 基础设施结合在背景下运行,用于管理海量的数据。
What is Apache Mahout?
马豪特是训象者。名称源自其与使用大象作为其标志的 Apache Hadoop 的紧密关联。
Hadoop 是 Apache 的开源框架,它允许使用简单的编程模型在计算机集群的分布式环境中存储和处理大数据。
Apache Mahout 是一个开源项目,主要用于创建可扩展的机器学习算法。它实现了流行的机器学习技术,例如:
-
Recommendation
-
Classification
-
Clustering
Apache Mahout 于 2008 年作为 Apache Lucene 的子项目启动。2010 年,Mahout 成为 Apache 的一个顶级项目。
Features of Mahout
以下列出了 Apache Mahout 的基本功能。
-
Mahout 的算法基于 Hadoop 编写,因此在分布式环境中运行良好。Mahout 使用 Apache Hadoop 库在云中实现有效的扩展。
-
Mahout 为程序员提供了一个现成可用的框架,用于对大量数据进行数据挖掘任务。
-
Mahout 让应用程序能够有效且快速地分析大量数据集。
-
包括多个启用了 MapReduce 的聚类实现,例如 k-均值、模糊 k-均值、Canopy、Dirichlet 和 Mean-Shift。
-
支持分布式朴素贝叶斯和互补朴素贝叶斯分类实现。
-
附带进化式编程的分布式适应度函数功能。
-
包括矩阵和矢量库。