July | 2007 | Gong Cheng's Blog

July 28, 2007, 7:25 am
Filed under: Uncategorized

自由度(degree of freedom, DF) 在统计中的意思是数据的非冗余的信息含量。比如说，两人一人身高1米8，一人身高1米6。这里只需要两这个数字就可以知道他们两的身高。然而，如果我们知道他们两身高总和是3米4，再知道他们身高之差是0.2，我们也可以把他们的身高算出来。再比如，我们知道他们的平均身高是1.7米,和平均值的差是0.1米. 那么,我们也可以把他们的身高算出来. 这里,有两个数字,整个数据集就可以恢复出来. 所以说,整个数据集的自由度是2. 而每一次非重复的测量,这个数据集的自由度就会减去1.

明白了吗? 如果你和我一样似懂非懂,不如把这句话背下来. "The degree of freedom is a measure of independent pieces of information on which the precision of a parameter estimate is based." 通常这句话足以把来问你的人弄晕.如果他/她还要打破砂锅, 下面这同样摘自网络大百科的话可以用来对付,"The degree of freedom is the number of individual observations minus the number of parameters calculated from the observations."

关于自由度,还有两个常见的问题, 问题一, 我们计算方差(variance)的时候为什么要除以自由度(DF),而不是数据集的大小(N)呢? 说句实在话,其实两者都可以, 只是很多年前, 某位无聊的统计学家无聊的证明了当数据集比较小的时候,算方差除以DF更准确一些？实际上,除以DF和N在数据集小的时候都不准,在数据集大的时候差不多. 根本没有区别, 但是世界上很多事情都是约定俗成的, 比如说, 交通灯是红绿灯而不是红蓝灯. 同样, 在应用统计学中,是除以自由度的, 也罢, 也罢, 不是专门研究统计的,客随主便.

3 comments

周末纽约城普林斯顿游记(3)

July 27, 2007, 12:33 am
Filed under: Uncategorized

纽约的大中心地铁站，从外面看，很壮观，其实里面也一样有气势。

纽约地铁站通道的一个瞬间.

爱因斯坦同学办公室的后门。

3 comments

周末纽约城普林斯顿游记(2)

July 25, 2007, 11:39 pm
Filed under: Uncategorized

在伊利斯岛上的博物馆听完突击队员(ranger)的介绍，港口等船的人已经不多，回到电池港，已经是晚上7点。坐4号地铁直奔大中心地铁站，纽约的大中心地铁站是各路地铁汇集的地方，不但大，而且装潢典雅，有雕塑，吊灯。从那里，我们就奔赴zy同学的朋友推荐的一家在39街和5街交界处的四川餐馆。我们点了凉粉，不辣的酸菜鱼汤，辣子鸡丁，等若干道菜。席间交流了共同关心的个人生活，国家大事和八卦新闻。吃完，8点半，和zy同学在大中心地铁站分道扬镳。我们坐火车去了坐落于新泽西的普林斯顿。第二天早上，GY同学和她的丈夫一同带我们参观了世界闻名的普林斯顿大学。普林斯顿是一所私立学校，原本以为它是一坐大草原中间孤零零的小学校。到那里才发现，由于是位于经济发达的新泽西地区，周围可以腐败的地方很多。校园也比我想象的要大很多，旧的建筑雅致，新的建筑另类，错落有致。GY同学的丈夫SM介绍了很多有趣的普林斯顿的事，比如说普林斯顿注重培养个人的独立性，每人有自己独立的信箱。比如说，本科生毕业前不能从正门出去，否则即毕不了业。比如说有一个埋在地下的大炮，传说是为了防止滨州州立来抢所以埋在地下的。我们顺带参观了普林斯顿本科生的宿舍，和“A Beautiful Mind"里面拍的一模一样。最后我们来到了著名的“高级研究所“，这里，就是当年爱因斯坦同学工作的地方，不幸的是，这里周末不开，没有人指引参观。守门人放我们随便看，告诉我们当年爱因斯坦的办公室就是今天高级研究所主任的办公室，我于是给他办公室的前后大门拍了照。中午，我们在一家上海店吃了老鸭煲，熏鱼，酱鸭，肉丝炒莴笋等上海菜，中国人多的地方饮食就是好。坐火车回纽约城，GY同学带我们顺路参观了圣牌曲克大教堂，这是我所见过最雄丽的一座教堂。和中国的寺庙一样，香火是要收钱的，一根蜡烛2美金。教堂中间是座椅，周围是被封的圣人像。第一次见到这样的布置。坐地铁回到白平原，ZY同学已经帮我们延续了停车的时间，从容不迫的驱车，回家。

2 comments

周末纽约城普林斯顿游记(1)

July 25, 2007, 1:28 am
Filed under: Uncategorized

周末去纽约城和高中同学zy一行四人同游了自由女神像，前后花了6个小时，1点到达曼哈顿的电池港，1点15找到卖票点在城堡克林顿纪念碑，开始排队，40分钟以后，买到票，但是不能进自由女神内部，原来自由女神属于公物，人人可以免费进入，但是为了控制人数，避免过渡拥挤，他们每天早上8点发入场卷。如果不愿意早起排队，可以提前至少2天在网上预定，我一天前才知道这么回事，不去也罢。开始排队登船，又经过漫长的等待大约1个半小时，终于登上了船。半路上，有个黑人在拉一把破破的小提琴，仔细一听，原来是中国的国歌，看来这里的中国游客真是多了。登上了船，又等了足足半小时才开船，第一站到达的是自由女神像，无法登像的我们绕岛一周，拍照留念。漫长的等待，我们再次登船，上了伊利斯岛，伊利斯是一个自由女神像所在的小岛边上的小岛。一百年前，当外国移民坐船来到美洲大陆，首先看见的是自由女神像，随后在伊利斯岛上办入境手续，随后，就是美国人了。有统计表明，今天的美国人，有40%至少有一个祖先是通过伊利斯岛来到美国的。从那时起，自由女神就成了自由土地的象征。移民在伊利斯岛上需要办的手续还颇复杂，首先，你需要证明你在美国有地址, 比如说表哥堂弟,七大姑八大姨的都行, 但是不能说是因为雇庸的关系, 这和我们签学生签证的时候必须一口咬定毕业后就返回中国差不多的意思. 随后,需要证明带了至少200美金, 在这之后, 通过身体检查,无明显疾病,就可以进入美国了.

3 comments

阿诺瓦(ANOVA)方差分析攻略之中英文对照版(3)

July 21, 2007, 2:14 am
Filed under: Uncategorized

今天MSN的spaces修改了界面，折腾了很久才弄明白怎么发贴。
好，接着说，由于篇幅有限，本人才疏学浅，我的攻略着重描述目前流行软件上容易碰到的名词。
R这个时候会蹦出这样的结果.
Welch Two Sample t-test
data: nan_ren and nv_ren
t = -21.9972, df = 955.028, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-1.742742 -1.457258
sample estimates:
mean of x mean of y
2.4 4.0
先跳最重要的, 这里最重要的是p-value,在第三行, p-value的意思是第四行的那句话是错误的概率(probability). 第四行翻译一下,意思就是"另一个假设:两个数据集的平均值的区别不是0". 反过来说, p-value就是两个数据集的平均值是一样的概率. 谁说英语没有绕口令的? 长话短说,这个值越小,越说明两个数据集所代表的全集的平均值是一样的.而这个值越接近1越说明我们所见的这两个数据集的平均值的差别来源于数据本身的波动,而不具有统计显著性.

剩下的不懂的单词也要一并弄懂,免得被别人问起来. 比如说第一个词Welch(围二尺), 经过考证围二尺同学在上世纪中发表了一下一篇文章(paper).
Welch, B. L. (1947), "The generalization of "student’s" problem when several different population variances are involved.", Biometrika 34: 28-35
在这篇文章里, 围二尺同学解决了比较标准差不同的两个数据集的方法, 其实就是提出了一个猜测标准差的方法. S=sqrt(s1^2/N1+s2^/N2). 以及推算有效自由度(degree of freedom)的方法, 那个推算有效自由度的公式后来被称为Welch-Satterthwaite公式. 你的发音标准吗?来一起念,Satterthwaite, Satterthwaite, Welch-Satterthwaite, Welch-Satterthwaite equation, 以后进行学术交流都是用得着的. 要弄明白什么是有效自由度,首先要弄明白统计中自由度是什么意思.

2 comments

阿诺瓦(ANOVA)方差分析攻略之中英文对照版(2)

July 14, 2007, 3:43 am
Filed under: Uncategorized

这个问题看似简单，我们把男人的平均分和女人的平均分比较一下不就行了吗？

这话不假，但是由于我们采样只是取的全部男女的一个部分，即使我们所选择的男人和女人的平均分一样，仍然有很大的可能男女的看法并不一样。因为我们所选择的只是一个巨大的人群的一部分，这种选择可能是有一定偏差的，同时，如果这五百男女的平均分不一样，仍然有可能在全体人群中，男女看法是一样的。怎么办？ANOVA.

等等，这个问题似乎可以用学生检验(t test) 来完成. t test是健力士啤酒公司的威廉高色特同学本世纪初发明的用来检验啤酒质量的方法。比如说，对于男人的平均分是M, 女人的平均分是N, 那么男女区别就是M-N。如果要标准化这个衡量数据集差别的标准，就要考虑不同的数据本身的变化，那么用于表征男女区别的公式就是(M-N)/S, S是整个数据集的标准差(Standard Deviantion)，用两个数据集的区别除以数据集的方差就得到了两个数据集的区别想对于数据集本身的变化的值。由于我们不知道整个数据集是什么，S也只能猜。比如说，S=sqrt(s1^2/N1+s2^2/N2), s1,s2,N1, N2分别代表男女的方差和人数。

想明白(M-N)/S并不困难，威廉同学也不会就此出名。他厉害的地方在于，他一个人，在没有计算机的年代，用手推导出了这个公式的概率分布，泽被了后人。我们站在他的肩膀上，今天已经不用去推导那些公式了，虽然我们也有能力那么做。长话短说，用现在流行的统计软件R,要做这个t.test，只要一行命令就可以了。如果nan_ren和nv_ren分别是两个记载了男人，女人对于电影的评分的矢量(vector) 的话。

t.test(nan_ren,nv_ren)

5 comments

阿诺瓦(ANOVA)方差分析攻略之中英文对照版(1)

July 13, 2007, 2:09 am
Filed under: Uncategorized

ANOVA的全称是ANalysis Of VAriance，翻译成中文就是方差分析。这是一个用于分析一个变量对于其他变量的影响的数学工具。比如说，男人和女人对于抽烟的态度有没有区别阿？抽烟是否有害健康阿？健康是否影响工作效率啊？这些都是最简单的One way ANOVA的问题，也叫单向方差分析，这么有用的东西怎么在中国没有学过呢？一看到就傻了呢？不是没有学过，而是中国学的是中文版，很多名词叫法都不一样，如果你让老美去考你本科的统计，注意，要用中文，他们也会傻在那里的。尤其在这个信息时代，什么都用软件，不用写源代码，不背下来这些名词的英文定义，很快该怎么算都会忘掉的。　

一个最简单的例子，比如说，看完变形金刚电影，我们采访了５００男生，５００女生，每人给电影打分１－５，１是烂，５是好。问题是，性别对于打分有没有影响？

Gong Cheng's Blog

Categories

Archives

Links