f统计量计算公式,用R语言解读统计检验

R的极客理想系列文章,涵盖了R的思想,使用,工具,创新等的一系列要点,以我个人的学习和体验去诠释R的强大。

R语言作为统计学一门语言,一直在小众领域闪耀着光芒。直到大数据的爆发,R语言变成了一门炙手可热的数据分析的利器。随着越来越多的工程背景的人的加入,R语言的社区在迅速扩大成长。现在已不仅仅是统计领域,教育,银行,电商,互联网….都在使用R语言。

要成为有理想的极客,我们不能停留在语法上,要掌握牢固的数学,概率,统计知识,同时还要有创新精神,把R语言发挥到各个领域。让我们一起动起来吧,开始R的极客理想。

关于作者:

张丹(Conan), 程序员/Quant: Java,R,Nodejsblog: http://blog.fens.meemail: bsspirit@gmail.com

转载请注明出处:http://blog.fens.me/r-test-f

前言

做统计分析R语言是最好的,R语言对于统计检验有非常好的支持。我会分7篇文章,分别介绍用R语言进行统计量和统计检验的计算过程,包括T检验,F检验,卡方检验,P值,KS检验,AIC,BIC等常用的统计检验方法和统计量。

本文是第二篇F检验,T检验关注点在均值,而F检验关注点在方差。

目录

F检验介绍数据集F检验实现1. F检验介绍

F检验法(F-test),初期叫方差比率检验(Variance Ratio),又叫联合假设检验(Joint Hypotheses Test),是英国统计学家Fisher提出的,主要通过比较两组数据的方差,以确定他们的密度是否有显著性差异。至于两组数据之间是否存在系统误差,则在进行F检验并确定它们的密度没有显著性差异之后,再进行T检验。

F检验,是一种在零假设(H0)之下,统计值服从F-分布的检验。

样本标准偏差的平方公式:

F统计量计算公式:

公式解释

F:统计量,根据自由度查表,当F值小于查表值时没有显著差异,当F值大于等于查表值时有显著差异S1:样本1的标准差S2:样本2的标准差分子自由度: df=分子的数量-1分母自由度: df=分母的数量-1

T检验和F检验对比T检验用来检测数据的准确度(系统误差),F检验用来检测数据的精密度(偶然误差)。在定量分析过程中,常遇到两种情况:一种是样本测量的平均值与真值不一致;另一种是两组测量的平均值不一致。

上述不一致是由于定量分析中的系统误差和偶然误差引起的,因此必须对两组分析结果的准确度或精密度是否存在显著性差异做出判断,两组数据的显著性检验顺序是先F检验后T检验。

T检验是检查两组均值的差异,而F检验是检查多组均值之间的差异。

对于多元线性回归模型,t检验是对于单个变量进行显著性,检验该变量独自对被解释变量的影响。f检验是检验回归模型的显著意义,即所有解释变量联合起来对被解释变量的影响,关于线性回归请参考文章,R语言解读一元线性回归模型和R语言解读多元线性回归模型。

2. 数据集

F检验,对于数据有比较严格的要求,所以我们需要先找到一个合适的数据集,作为测试数据集。我发现了R语言自带的一个数据集ToothGrowth,是很好的测试数据集,本文接下来的内容,将以这个数据集进行测试,来介绍F检验。

开发环境所使用的系统环境

Win10 64bitR: 3.4.2 x86_64-w64-mingw32/x64 b4bit

数据集ToothGrowth,记录了60只豚鼠的牙齿生长速度,使用2种不同的方法(OJ和VC),每天按3种不同的注射剂量进行注射,对牙齿的生长速度的对比数据,共3列,60条记录。

len列,为牙齿长度supp列,为注射方法dose列,为注射剂量

查看数据集,打印前10行

> head(ToothGrowth,10)len supp dose1 4.2 VC0.5211.5 VC0.53 7.3 VC0.54 5.8 VC0.55 6.4 VC0.5610.0 VC0.5711.2 VC0.5811.2 VC0.59 5.2 VC0.5107.0 VC0.5

F检验对于数据的正态性非常敏感,我们需要先对选定数据集进行进行正态分布检验。使用Shapiro-Will作为正态分布检验的方法,原假设H0:样本符合正态分布。

# 按不同的处理方法,进行分组> len_VC len_OJ shapiro.test(len_VC)Shapiro-Wilk normality testdata:len_VCW = 0.96567, p-value = 0.4284# 正态分布检验> shapiro.test(len_OJ)Shapiro-Wilk normality testdata:len_OJW = 0.91784, p-value = 0.02359

两个样本的W统计量都接近1,且p-value都大于0.05,不能拒绝原假设,两组样本数据为正态分布。

查看数据的相关性。

> coplot(len ~ dose | supp, data = ToothGrowth, panel = panel.smooth, xlab = "ToothGrowth data: length vs dose, given type of supplement")

3. F检验实现

3.1 随机数进行F检验我们先用一种随机数,来做一下F检验。以正态分布生成2组数据,数量,均值,方差都不同,进行F检验。

# 生成随机数> set.seed(1)> xyvar.test(x, y)F test to compare two variancesdata:x and yF = 2.6522, num df = 49, denom df = 29, p-value= 0.006232alternative hypothesis: true ratio of variances is not equal to 195 percent confidence interval: 1.332510 4.989832sample estimates:ratio of variances 2.652168

指标解释:

H0:原假设2组样本的方差,无显著差异F统计量:2.6522num df,分子自由度,50-1=49denom df,分每自由度,30-1=29p-value值:0.00623295 percent confidence interval:95%的置信区间ratio of variances:方差比率2.652168

结果解读,以0.05为显著性水平,F = 2.6522大于临界值1.81(查表),F值显著,拒绝原假设。以0.05为显著性水平,p-value=0.006232小于0.05,拒绝原假设,两样本方差有显著性差异。这个结果与我们构造的数据是一致的,样本的方差就是不同的。

3.2 ToothGrowth进行F检验使用ToothGrowth数据集进行F检验,原假设HO,用VC和OJ两种方法按3种剂量进行注射,对于60只豚鼠的牙齿生长速度的方差,没有显著性差异。

> var.test(len_VC,len_OJ)F test to compare two variancesdata:len_VC and len_OJF = 1.5659, num df = 29, denom df = 29, p-value= 0.2331alternative hypothesis: true ratio of variances is not equal to 195 percent confidence interval: 0.745331 3.290028sample estimates:ratio of variances 1.565937

结果解读,以0.05为显著性水平,F=1.5659小于临界值1.90(查表),F值不显著,不能拒绝原假设。以0.05为显著性水平,p-value=0.2331大于0.05,不能拒绝原假设,所以两种方法的3种剂量实验的方差,没有显著性的差异。

我们可以用F值进行显著性差异判断,也可以用p值进行显著性差异判断,他们的作用是一样的。F值判断时,需要用计算所得的F值,与显著性水平查表对比。p值相当于是把F值,进行一种标准化的变型,只和已经定义好的显著性水平比就行了,比如0.05, 0.01, 0.001等几个固定值。

手动计算F值和P值,关于P值的详细解释,请查看文章R语言实现统计检验-P值

# 手动计算T值> Xn Yn Xm Ym fx fy fx/fy[1] 1.565937# 手动计算P值,双边检验> p_value p_value
f检验统计量-统计量f值计算公式如何计算PROB(F-STATISTIC)值?_360问答F检验(F-Test)计算公式与在线计算器_三贝计算网_23bei.com用R语言解读统计检验-F检验 | 粉丝日志预测与决策分析整理的计量公式_百度文库 - Baiduf检验统计量表达式_回归方程显著性的f检验_一元线性回归f ...方差分析中F统计量计算教学研究_文档下载方差分析f值计算公式最新 | Eviews回归分析中10个统计量解释_系数补课之web并发数的计算方法及计算公式F分布及其应用小短文 | 高并发系统,如何计算并发和峰值数据?系统吞吐(TPS)、用户并发、性能测试概念和公式计算代码(行数)【杂纪】从ROC曲线到AUC值,再到Mann–Whitney U统计量准确率(Precision)、召回率(Recall)、F值(F-Measure)、平均正确率(Average Precision, AP),IoU方差分析BM3D图像去噪算法原理及代码详解“并发用户数”、“系统用户数”和“同时在线用户数”的计算公式非参数统计概述数理统计四大分布---正态分布、卡方分布、学生t分布和F分布【DA】z检验p值的计算中英文字数统计以及信息熵的计算R语言 基础统计学之样本量计算粒子滤波计算过程PR,ROC,AUC计算方法『统计学』第五部分:方差分析和F检验统计分析——描述统计之数据水平描述灰度图像直方图均衡化公式及实现性能测试 - - 常见的性能测试指标性能测试--系统吞吐(TPS)、用户并发、性能测试概念和公式数据分析中的统计检验方法- t检验、f检验、卡方检验、互信息图像的特征统计从Bugreport 解读 Android电量统计原理概率统计随记(显著性检验 置信区间等)公式汇总软件测试——Halstead复杂度计算马氏距离+协方差公式+无偏估计
手相旅行线分析旅行线看会客死他乡的手相vj师网AE模板视频素材教程专题这游戏还可以继续玩下去吗1988年电灯着鬼掹脚电影高清完整版鬼掹脚高清完整版迅雷下载韩红歌曲大全免费听书名拉胯但内容封神这三本书你值得拥有8班运动会口号霸气四口五临边内容是什么穿越伪装者之爱上王天风刺客守则风车小孩手脱皮是缺啥手脱皮缺维生素什么第2页中粮本源二手房无锡150363第343章一号红人笔趣阁一号红人今天最新章节第883章震惊全新Twitter账号推特直登号影音播放安卓软件下载电脑单机大型游戏排行榜前十名