平均・中央値・標準偏差

使用するデータは2014年5月31日のデータです。

 

平均を出してみる。

平均(相加平均)の定義:

標本空間が{ \displaystyle \{a_{1},...,a_{n}}\}であるとき、その算術平均 A は次のとおりに定義される
{ \displaystyle A  = \frac{1}{n}\sum_{k=1}^{n} a_k}
平均 - Wikipediaより。


難しく書きすぎですが、普通に平均です。

中央値を出してみる。


中央値とはデータを小さい順に並べたとき中央に位置する値です。
ここではデータ数が98個なので、49番目と50番目の相加平均が中央値となります。

標準偏差を出してみる。

標準偏差とは分散の正の平方根である。
N 個のデータ{ \displaystyle \{x_{1},...,x_{n}}\}からなる母集団を考える。その母集団の相加平均(母平均)は、次のとおりに定義される:
{ \displaystyle m = \frac{1}{N}\sum_{i=1}^{N} x_i}
このとき、母平均 m を使って次式で得られる量を分散(または母分散)と定義する。
{ \displaystyle σ^2 = \frac{1}{N}\sum_{i=1}^{n} (x_i-m)^2}
この分散の正の平方根σを、母集団の標準偏差と定義する。
標準偏差 - Wikipediaより。

 
あまり難しいこと言われてもわかんないっす・・・。
・平均と1つ1つのデータがどれぐらいずれているかを表す
・最小値が0(この時データは全て平均値と同じ=ズレが0)
・データがバラバラになっている=平均からのズレが大きいと大きな値になる
とりあえずこの認識でいいはず。

出してみた。

  平均 中央値 標準偏差
WikipediaPV 867.68 697.50 649.09
twpro 924.53 255.00 2474.77
ニコニコ動画タグ 1359.96 1046.00 1311.56
WTR 2.81 4.90 8.91
WNR 0.61 1.47 2.64
NT% 33.33% 33.33% 32.07%

パーセントのものの標準偏差ってパーセントで出していいの?

だから何なの?

あっ、その質問すごく困る。

 twproはバラツキが大きいことはわかりました。