度数分布表・ヒストグラムを書いてみる - その2

その1のつづき。

その前に。ヒストグラムと棒グラフの違いがよくわかっていません。

くっついてるのがヒストグラムだっけ?(小学生並みの感想)

私が書いたものを読む時は、間違いがあっても大目に見てもらえると幸いです。

twproで


前回同様に

スタージェスの公式より

 { \displaystyle 1+\frac{\log_{10} 98}{\log_{10} 2}} =1+6.6147…≒8
データ数が同じなのでこれも同じ。
階級の幅は

 { \displaystyle \frac{(データの最大値)-(データの最小値)}{スタージェスの公式から求められた階級の個数}}=\frac{(22603-2)}{8}=2825.125
じゃあ3000で区切りましょうか・・・って、これじゃクソの役にも立たないのは直感的にお分かりいただけると思います。
ためしに度数分布表を作ってみると。

 

  階級      
以上   未満 度数 相対度数
18000   1 0.01
15000 18000 0 0.00
12000 15000 0 0.00
9000 12000 0 0.00
6000 9000 1 0.01
3000 6000 2 0.02
0 3000 94

0.96

  合計   98 1.00

ほら。

結局階級の幅を決めるのはセンスらしいです。
なので前回同様、幅500・個数7として、以下のようになります。

 

  階級      
以上   未満 度数 相対度数
3000   4 0.04
2500 3000 4 0.04
2000 2500 2 0.02
1500 2000 3 0.03
1000 1500 8 0.08
500 1000 14 0.14
0 500 63 0.64
  合計   98 1.00

これでもまだ微妙さはありますが。

ヒストグラムを作ると

f:id:lisiograph:20140603230248p:plain

なるほど。

 

ニコニコ動画タグで

これも階級の幅500・階級の個数7で作成

 

  階級      
以上   未満 度数 相対度数
3000 ~   10 0.10
2500 ~ 3000 3 0.03
2000 ~ 2500 6 0.06
1500 ~ 2000 11 0.11
1000 ~ 1500 22 0.22
500 ~ 1000 20 0.20
0 ~ 500 26 0.27
  合計   98 1.00

f:id:lisiograph:20140603231214p:plain

 びみょう。

 

twproとニコニコ動画タグでは分布が違うんだなあとおもいました。

 

(つづく)