本人讲解关于slam一系列文章汇总链接:史上最全slam从零开始 文末正下方中心提供了本人 联系方式, 点击本人照片即可显示 W X → 官方认证 {\color{blue}{文末正下方中心}提供了本人 \color{red} 联系方式,\color{blue}点击本人照片即可显示WX→官方认证} 文末正下方中心提供了本人联系方式,点击本人照片即可显示WX→官方认证
一、前言我们最终的目的是为了讲解如何在工程上使用卡方检验(Chi-Squared Test) ,在这之前我们需要了解两个重要的知识点,那就是卡方分布(chi-square distribution)和()卡方检验(Chi-Squared Test) 。为了方便大家理解,以通俗的方式进行讲解,然后再引入专业的相关名词。简单的说:
( 1 ) 卡方分布: \color{blue}(1)卡方分布: (1)卡方分布:若n个相互独立的随机变量ξ₁,ξ₂,…,ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布(chi-square distribution)
( 2 ) 卡方检验: \color{blue}(2)卡方检验: (2)卡方检验:卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,基本思想是根据样本数据推断总体的频次与期望频次是否有显著性差异,经常通过小数量的样本容量去预估总体容量的分布情况。
先对卡方检验以及对应的一些实例进行简介,然后我们再来探讨卡方分布的由来
\color{red}先对 卡方检验 以及对应的一些实例进行简介,然后我们再来探讨卡方分布的由来
先对卡方检验以及对应的一些实例进行简介,然后我们再来探讨卡方分布的由来,在这之前,我们先来了解一个比较难理解的内容,那就是显著性水平。来看下图: 在假设检验中,我们经常见到显著性水平这一说法,你可能有疑问了,它出镜率咋那么高,它到底是何方神圣呢?这张图就清晰的展示了,一个总体模型是被分为置信水平和显著性水平两部分。下面会通过一个通俗的例子会会它。
万能的朋友圈永远不乏微商的身影,而一向讨厌微商的你在平静的某天被一则微商产品所吸引,内容是:“减肥的灵丹妙药,成功率高达90%,女神们一起来吧!”虽然这则广告充满诱惑力,但你依然保持清醒,理智的思考解决对策。一鼓作气,打算自己检测一下宣传内容的真实性。
你随机调查了15个用过此产品的人,发现减肥成功的有12个人。如果广告为真的话,那么减肥成功的应该有15×0.9=13.5,现在12 9.14 \chi>9.14 χ>9.14,也就是说检验统计量大于9.49 位于拒绝域内。我们计算出来的 χ 2 = 38.272 \chi^2=38.272 χ2=38.272,明显是其是大于9.14的,也就是其位于拒绝域内,另外:
如果位于拒绝域内我们拒绝原假设H0,接受H1。 如果不在拒绝域内我们接受原假设H0,拒绝H1
于是拒绝原假设,也就是说抽奖机被人动了手脚。现在大家肯定还有一个疑惑,那就是上面的这个表格,是怎么来的,为了巩固知识,我们先再简介一个例子,再来推导上面的表格,也就是方分布(chi-square distribution)
二、卡方检验(chi-square distribution)→再度示例
以下为一个典型的四格卡方检验,我们想知道喝牛奶对感冒发病率有没有影响: 感冒人数 末感冒人数 合计 感冒率 喝牛奶组 43 96 139 30.94 % 不喝牛奶组 28 84 112 25.00 % 合计 71 180 251 28.29 % \begin{array}{|l|l|l|l|l|} \hline & \mathbf {\text { \color{Green} 感冒人数 }} & \text { \color{Green} 末感冒人数 } & \text { \color{Green} 合计 } & \text { \color{Green} 感冒率 } \\ \hline \text { \color{Green} 喝牛奶组 } & 43 & 96 & 139 & 30.94 \% \\ \hline \text { \color{Green} 不喝牛奶组 } & 28 & 84 & 112 & 25.00 \% \\ \hline \text { \color{Green} 合计 } & 71 & 180 & 251 & 28.29 \% \\ \hline \end{array} 喝牛奶组 不喝牛奶组 合计 感冒人数 432871 末感冒人数 9684180 合计 139112251 感冒率 30.94%25.00%28.29%
1.建立假设检验检验假设 H 0 : \color{blue}检验假设H0: 检验假设H0:喝牛奶与感冒没有关系。 备择假设 H 1 : \color{blue}备择假设H1: 备择假设H1:喝牛奶与感冒存在关系,显著性水平 α=0.01
2.计算理论值基于 假设H0,喝牛奶与感冒没有关系,那么喝牛奶组与不喝牛奶组,他们感冒的几率应该是一样的,也就是理论表格应该如下: 感冒人数 末感冒人数 合计 喝牛奶组 39.3231 99.6769 139 不喝牛奶组 31.6848 80.3152 112 合计 71 180 251 \begin{array}{|l|l|l|l|} \hline & \text { \color{Green} 感冒人数 } & \text { \color{Green} 末感冒人数 } & \text { \color{Green} 合计 } \\ \hline \text { \color{Green} 喝牛奶组 } & 39.3231 & 99.6769 & 139 \\ \hline \text { \color{Green} 不喝牛奶组 } & 31.6848 & 80.3152 & 112 \\ \hline \text { \color{Green} 合计 } & 71 & 180 & 251 \\ \hline \end{array} 喝牛奶组 不喝牛奶组 合计 感冒人数 39.323131.684871 末感冒人数 99.676980.3152180 合计 139112251那么很明显实际值与理论值,存在一定差距。
3.计算卡方值χ 2 = ( 43 − 39.3231 ) 2 39.3231 + ( 28 − 31.6848 ) 2 31.6848 + ( 96 − 99.6769 ) 2 99.6769 + ( 84 − 80.3152 ) 2 80.3152 = 1.077 (03) \color{Green} \tag {03} \chi^{2}=\frac{(43 - 39.3231)^2} {39.3231}+\frac{(28 - 31.6848)^2}{31.6848}+ \frac{(96 - 99.6769)^2} { 99.6769} + \frac{(84 - 80.3152)^2} { 80.3152} = 1.077 χ2=39.3231(43−39.3231)2+31.6848(28−31.6848)2+99.6769(96−99.6769)2+80.3152(84−80.3152)2=1.077(03)
4.查卡方表求P值首先计算自由度,这里用r表示表格的行数,c表示表格的列数,如下图: 那么自由度的公式为:
v
(
自由度
)
=
(
r
−
1
)
(
c
−
1
)
(04)
\color{Green} \tag {04} v(自由度)=(r-1)(c-1)
v(自由度)=(r−1)(c−1)(04)带入数据计算的
v
=
(
r
−
1
)
(
c
−
1
)
=
(
2
−
1
)
∗
(
2
−
1
)
=
1
v=(r-1)(c-1)=(2-1)*(2-1)=1
v=(r−1)(c−1)=(2−1)∗(2−1)=1,再结合前面的显著性水平 α=0.01,查询表格临界值为 6.64(在前面卡方分布表中查找),很明显我们计算出来的
χ
2
=
1.077
\chi^{2}=1.077
χ2=1.077 低于该值,也就是其没有位于拒绝域内,那么我们接受原假设H0,喝牛奶与感冒没有关系。下面我们就来看看我们查询的表格是怎么来的。
四、卡方分布(chi-square distribution)
先把博客前面的话拿过来→卡方分布:若n个相互独立的随机变量ξ₁,ξ₂,…,ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布(chi-square distribution)
也就是说,卡方分布是建立在n个相互独立的随机变满足正态分布的前提下,