2011年4月23日土曜日

R入門05

散布度

データを見る際には中心的位置の他にどれだけ散らばっていれば分かればなおよい。

それを散布度という。

> b<-mean(a)
> b
[1] 10.8
> a-b
[1] -0.8  2.2 -2.8  4.2 -2.8
> c<-a-b
> d<-c*c
> d
[1]  0.64  4.84  7.84 17.64  7.84
> e<-sum(d)
> e
[1] 38.8
> f<-length(a)
> f
[1] 5
> g<-e/f
> g
[1] 7.76
> sqrt(g)
[1] 2.785678

なんでこの本ではこんなにまどろっこしい事をするんだろうとかなり疑問に思った。

> sqrt(sum((a-mean(a))^2)/length(a))
[1] 2.785678

これで良くないか?

> var(a)
[1] 9.7

なぜ違うの?

>これは不偏分散という。ついさっき求めたのは標本分散という。

>標本分散・・・偏差の2乗/データ数

>不偏分散・・・偏差の2乗/(データ数-1)

∴不偏分散から標本分散を求めるには

> var(a)*(length(a)-1)/length(a)
[1] 7.76

こうすればよい

 

> sd(a)
[1] 3.114482

これは不偏分散の平方根

ここから標本分散を求めるには

> ((sd(a)^2)*(length(a)-1)/length(a))
[1] 7.76

こうすればよい。

 

平均偏差

個別のデータ - 平均の絶対値の平均

> mean(abs(a-mean(a)))
[1] 2.56

 

レンジ(範囲)

> max(a)-min(a)
[1] 7



0 件のコメント:

コメントを投稿