2011年5月22日日曜日

統計学入門

統計学ってどういう分野に使われているのか

内閣支持率・・・すべての国民に意見を聞くことは不可能

→ そこで人数を絞って調査する(本当の集団:母集団、母集団から抽出された集合:標本)

EX.母集団:有権者全体など

標本から母集団の様子を知る=統計学

 

§1.データの種類

1.カテゴリデータ、数量データ

計測できるデータ?出来ないデータ?

→ 測れないデータ:カテゴリーデータ、測れるデータ:数量データ

EX 身長は数量データ(間隔が等しい)、英検の級はカテゴリーデータ(間隔が等しくない)

EX 気温:数量、出身県:カテゴリ、柔道の段位:カテゴリ、体重:数量、発行部数:数量、天気:カテゴリ

◆まとめ◆

・ データは数量データとカテゴリデータに分類される

・ カテゴリデータを実務では数量データとして扱うこともある。

 

 

 

§2.データ全体の雰囲気 -数量データ-

1.度数分布表とヒストグラム

ラーメン屋とその価格

→ 生のデータでは値段がバラバラ、数字の羅列だけで全体の把握が困難

→ 値段の範囲ごとに区切ることにする

ラーメンの値段ごとに階が分かれているビルを想像する

・階、すなわち区切りを統計学では階級という。

・各階には値段の真ん中を示した看板が付いている、これを階級値という。

・各階に入っているお店の数のことを度数という。

・すべてのお店の数でその階にあるお店の数を割ったものを相対度数という

図1.ヒストグラムの例

 

全体の分布の雰囲気が何となくわかった。

2.平均

EX ボーリングのスコア

スコアの平均をメンバー数で割ったものが平均

平均・・・算術平均(相加平均)、幾何平均(相乗平均)、調和平均

3.中央値

けど平均をとったとき、例えばメチャクチャスコアの悪いヤツとイイヤツがいたときに

その平均値ってのは本当に集団の性質をうまく表しているかな?

→ そんなときに中央値を使うのだ!

中央値・・・データ数が偶数の時は真ん中の二つの数字の平均、奇数はただの真ん中の値

日本の平均のお年玉→たけえよ死ね→かねもが平均を引き上げている。

だからそのような場合には平均よりも中央値を示してあげるほうが妥当

 

4.標準偏差

まあ、データの真ん中らへんのことは中央値と平均に任せて解決したとして・・・

データの散らばり具合は表せるそれで→無理だよ死ね

標準偏差・・・散らばりの程度を示す、1データあたりの平均からのズレ

散らばりが大きくなればなるほど大きくなる値

標準偏差=SQRT( (個々のデータ-平均)^2を足した物/データの数)

ただ・・・

母集団の標準偏差を求めるときはこの式を用いるが・・・

標本の標準偏差を求めるときにはデータの数-1で割る事になっている(なんでかはしらね)。

 

5.度数分布表の階級の幅の作り方w

階級の個数を

スタージェスの公式=1+log10 データの数/log10 2

で求めて

階級の幅を

((データの最大値)-(最小値)) / 階級の個数

でもとめる(厳密)。

↑ウザイ、めんどい、死ね

そもそも階級分布表はデータ全体の雰囲気をつかめればおk、だからてめえの好きな幅でやりゃいいらしい(迫真)

 

6.推測統計学と記述統計学

統計学 ┬ 推測統計学

└ 記述統計学

 

・内閣支持率・・・推測統計学

・記述統計学てなナンスカwww

データを整理してできるだけ簡潔に示そうとしたもの

 

◆ まとめ ◆

・データ全体の雰囲気をつかむ手がかり

→ 度数分布表・ヒストグラム

・階級の幅・・・スタージェスの公式を利用する

・数学的にデータ全体の雰囲気をつかむ

→ 平均、中央値、標準偏差

・異様に偏っているケースは平均よりも中央値のほうが妥当

・標準偏差=データの散らばり具合

 

 

 

§3.データ全体の雰囲気をつかむ-カテゴリデータ-

1.単純集計表

◆ まとめ ◆

データの全体の雰囲気-カテゴリデータ-をつかむ手段として、単純集計表の作成がある。



0 件のコメント:

コメントを投稿