Machine Learning 简明教程
Machine Learning - Naive Bayes Algorithm
在贝叶斯分类中,主要兴趣是找到后验概率,即给定某些观测特征的标签概率,即 P(𝐿L | 特征)。借助贝叶斯定理,我们可以用定量形式表示如下 −
P\left ( L| 特征\right )=\frac{P\left ( L \right )P\left (特征| L\right )}{P\left (特征\right )}
$P\left ( L| 特征\right )$ 是类别的后验概率。
$P\left ( L \right )$ 是类别的先验概率。
$P\left (特征| L\right )$ 是似然,即给定类别时预测变量的概率。
$P\left (特征\right )$ 是预测变量的先验概率。
Types of Naive Bayes Algorithm
朴素贝叶斯算法有三种类型 −
Gaussian Naive Bayes − 当特征是服从正态分布的连续变量时,使用此算法。它假设每个特征的概率分布都是高斯的,这意味着它是一个钟形曲线。
Multinomial Naive Bayes − 当特征是离散变量时,使用此算法。它通常用于特征是文档中单词频率的文本分类任务中。
Bernoulli Naive Bayes − 当特征是二进制变量时,使用此算法。它也通常用于特征是单词在文档中是否存在或不存在的文本分类任务中。
Implementation in Python
下面,我们将用 Python 实现高斯朴素贝叶斯算法。我们将使用鸢尾花数据集,这是一个用于分类任务的流行数据集。它包含 150 个鸢尾花样本,每个样本都有四个特征:萼片长度、萼片宽度、花瓣长度和花瓣宽度。这些花属于三类:山鸢尾、杂色鸢尾和维吉尼亚鸢尾。
首先,我们将导入必要的库并加载数据集 −
import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
# load the iris dataset
iris = load_iris()
# split the dataset into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(,, test_size=0.35, random_state=0)
然后,我们创建一个高斯朴素贝叶斯分类器的实例,并在训练集上对其进行训练 −
# Create a Gaussian Naive Bayes classifier
gnb = GaussianNB()
#fit the classifier to the training data:, y_train)
现在,我们可以使用训练好的分类器对测试集进行预测 −
#make predictions on the testing data
y_pred = gnb.predict(X_test)
#Calculate the accuracy of the classifier
accuracy = np.sum(y_pred == y_test) / len(y_test) print("Accuracy:", accuracy)
Complete Implementation Example
下面给出了一个完整的贝叶斯分类算法在 python 中使用鸢尾花数据集的实现示例——
import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
# load the iris dataset
iris = load_iris()
# split the dataset into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(,, test_size=0.35, random_state=0)
# Create a Gaussian Naive Bayes classifier
gnb = GaussianNB()
#fit the classifier to the training data:, y_train)
#make predictions on the testing data
y_pred = gnb.predict(X_test)
#Calculate the accuracy of the classifier
accuracy = np.sum(y_pred == y_test) / len(y_test)
print("Accuracy:", accuracy)
Accuracy: 0.9622641509433962