Filed under: Uncategorized
明白了吗? 如果你和我一样似懂非懂,不如把这句话背下来. "The degree of freedom is a measure of independent pieces of information on which the precision of a parameter estimate is based." 通常这句话足以把来问你的人弄晕.如果他/她还要打破砂锅, 下面这同样摘自网络大百科的话可以用来对付,"The degree of freedom is the number of individual observations minus the number of parameters calculated from the observations."
关于自由度,还有两个常见的问题, 问题一, 我们计算方差(variance)的时候为什么要除以自由度(DF),而不是数据集的大小(N)呢? 说句实在话,其实两者都可以, 只是很多年前, 某位无聊的统计学家无聊的证明了当数据集比较小的时候,算方差除以DF更准确一些? 实际上,除以DF和N在数据集小的时候都不准,在数据集大的时候差不多. 根本没有区别, 但是世界上很多事情都是约定俗成的, 比如说, 交通灯是红绿灯而不是红蓝灯. 同样, 在应用统计学中,是除以自由度的, 也罢, 也罢, 不是专门研究统计的,客随主便.
Filed under: Uncategorized
纽约地铁站通道的一个瞬间.
爱因斯坦同学办公室的后门。
Filed under: Uncategorized
Filed under: Uncategorized
Filed under: Uncategorized
好,接着说,由于篇幅有限,本人才疏学浅,我的攻略着重描述目前流行软件上容易碰到的名词。
R这个时候会蹦出这样的结果.
Welch Two Sample t-test
data: nan_ren and nv_ren
t = -21.9972, df = 955.028, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-1.742742 -1.457258
sample estimates:
mean of x mean of y
2.4 4.0
先跳最重要的, 这里最重要的是p-value,在第三行, p-value的意思是第四行的那句话是错误的概率(probability). 第四行翻译一下,意思就是"另一个假设:两个数据集的平均值的区别不是0". 反过来说, p-value就是两个数据集的平均值是一样的概率. 谁说英语没有绕口令的? 长话短说,这个值越小,越说明两个数据集所代表的全集的平均值是一样的.而这个值越接近1越说明我们所见的这两个数据集的平均值的差别来源于数据本身的波动,而不具有统计显著性.
剩下的不懂的单词也要一并弄懂,免得被别人问起来. 比如说第一个词Welch(围二尺), 经过考证围二尺同学在上世纪中发表了一下一篇文章(paper).
Welch, B. L. (1947), "The generalization of "student’s" problem when several different population variances are involved.", Biometrika 34: 28-35
在这篇文章里, 围二尺同学解决了比较标准差不同的两个数据集的方法, 其实就是提出了一个猜测标准差的方法. S=sqrt(s1^2/N1+s2^/N2). 以及推算有效自由度(degree of freedom)的方法, 那个推算有效自由度的公式后来被称为Welch-Satterthwaite公式. 你的发音标准吗?来一起念,Satterthwaite, Satterthwaite, Welch-Satterthwaite, Welch-Satterthwaite equation, 以后进行学术交流都是用得着的. 要弄明白什么是有效自由度,首先要弄明白统计中自由度是什么意思.
Filed under: Uncategorized
这话不假,但是由于我们采样只是取的全部男女的一个部分,即使我们所选择的男人和女人的平均分一样,仍然有很大的可能男女的看法并不一样。因为我们所选择的只是一个巨大的人群的一部分,这种选择可能是有一定偏差的,同时,如果这五百男女的平均分不一样,仍然有可能在全体人群中,男女看法是一样的。怎么办?ANOVA.
等等,这个问题似乎可以用学生检验(t test) 来完成. t test是健力士啤酒公司的威廉高色特同学本世纪初发明的用来检验啤酒质量的方法。比如说,对于男人的平均分是M, 女人的平均分是N, 那么男女区别就是M-N。如果要标准化这个衡量数据集差别的标准,就要考虑不同的数据本身的变化,那么用于表征男女区别的公式就是(M-N)/S, S是整个数据集的标准差(Standard Deviantion), 用两个数据集的区别除以数据集的方差就得到了两个数据集的区别想对于数据集本身的变化的值。由于我们不知道整个数据集是什么,S也只能猜。比如说,S=sqrt(s1^2/N1+s2^2/N2), s1,s2,N1, N2分别代表男女的方差和人数。
想明白(M-N)/S并不困难,威廉同学也不会就此出名。他厉害的地方在于,他一个人,在没有计算机的年代,用手推导出了这个公式的概率分布,泽被了后人。 我们站在他的肩膀上,今天已经不用去推导那些公式了,虽然我们也有能力那么做。 长话短说,用现在流行的统计软件R,要做这个t.test,只要一行命令就可以了。如果nan_ren和nv_ren分别是两个记载了男人,女人对于电影的评分的矢量(vector) 的话。
t.test(nan_ren,nv_ren)
Filed under: Uncategorized
一个最简单的例子,比如说,看完变形金刚电影,我们采访了500男生,500女生,每人给电影打分1-5,1是烂,5是好。问题是,性别对于打分有没有影响?
Filed under: Uncategorized
Filed under: Uncategorized
这部电影情节紧凑(长达2.5小时),打斗激烈, 穿插搞笑的细节,是娱乐电影中的佳作,推荐!
Filed under: Uncategorized
弹棉花的
扎棕绷床的
磨菜刀,剪刀的
卖酒酿的
而只有混沌摊还长盛不衰