Python Data Science 简明教程

Python - Chi-Square Test

卡方检验是一种统计方法,用于确定两个分类变量之间是否存在显著相关性。这两个变量都应该来自同一群体,并且它们应该是分类的,例如 − 是/否、男/女、红/绿等。例如,我们可以建立一个数据集,其中包含人们的冰淇淋购买模式的观察结果,并尝试将一个人的性别与他们喜欢的冰淇淋口味联系起来。如果发现相关性,我们可以通过了解到访者的性别数量来计划适当的口味库存。

我们在 numpy 库中使用各种函数来执行卡方检验。

from scipy import stats
import numpy as np
import matplotlib.pyplot as plt

x = np.linspace(0, 10, 100)
fig,ax = plt.subplots(1,1)

linestyles = [':', '--', '-.', '-']
deg_of_freedom = [1, 4, 7, 6]
for df, ls in zip(deg_of_freedom, linestyles):
  ax.plot(x, stats.chi2.pdf(x, df), linestyle=ls)

plt.xlim(0, 10)
plt.ylim(0, 0.4)

plt.xlabel('Value')
plt.ylabel('Frequency')
plt.title('Chi-Square Distribution')

plt.legend()
plt.show()

它的 output 如下所示 −

chisquare