2011年4月23日土曜日

R入門04

1つの変数の記述統計

データを構成するモノ・・・質的変数

CF.二値変数(とりうる値が2通りのみ) ⇔ 量的変数

別に同値じゃないけど分かるよね、対比て意味ね。

 

質的変数と量的変数の区別は統計解析上重要らしい。

 

データの視覚的表現

> a<-c("C","B","B","A","B","C","A","D","D","D","A","A","A","C","B","D","C","C","B","D")
> a
[1] "C" "B" "B" "A" "B" "C" "A" "D" "D" "D" "A" "A" "A" "C" "B" "D" "C"
[18] "C" "B" "D"
> table(a)
a
A B C D
5 5 5 5

 

> b<-c(13,14,7,12,10,6,8,15,4,14,9,6,10,12,5,12,8,8,12,15)
> b
[1] 13 14  7 12 10  6  8 15  4 14  9  6 10 12  5 12  8  8 12 15
> hist(b)

Image118

代表値の求め方

・平均

> 10+13+8+15+8
[1] 54
> sum(10,13,8,15,8)
[1] 54
> a<-c(10,13,8,15,8)
> sum(a)
[1] 54
> sum(a)/5
[1] 10.8
> sum(a)/length(a)
[1] 10.8
> mean(a)
[1] 10.8

 

・中央値

> median(a)
[1] 10

データを大きさの順に並べた場合真ん中に位置する値の事

奇数の場合は真ん中が存在しうるが、データ数が偶数の場合には真ん中の二つの値の平均を持って中央値することが一般的

 

・最頻値

> table(a)
a
8 10 13 15
2  1  1  1

から8だと分かる。

最も頻繁に観測される値。

最頻値が2つあるような分布(二峰型分布)の場合、最頻値を代表値として用いるのは適切でないと思われます。

複数の最頻値がある場合、例えばSASではそれらの最小値を最頻値として表示しますが、いずれにせよ、こういう場合は最頻値以外を代表値として用いるほうが無難です。

データに外れ値なのがある場合など、中央値が用いられる場合はありますが、一般的には、代表値としては平均を用いると考えて差し支えありません。

 

 

だとよ。



0 件のコメント:

コメントを投稿