大きなバラつきがあるごちゃごちゃのデータ群に関して、標準偏差を計算したいのですが、平均値ではなく「標準偏差の中央値を使ったバージョン」にしたいです。
イメージとしては、中央絶対偏差を計算するように、「中央値と各値の差」を求め、それを二乗した値の中央値の平方根といった具合です。
ここで質問ですが、統計学には上記のような考え方はあるのでしょうか。
「PC上でプログラムなどで計算するなら中央絶対偏差で良いだろう」と言われればそれまでなのですが、そもそも統計学的にどうしようもない理由で「中央値バージョンの分散や標準偏差が無い」ということであれば事前にしっかり知っておきたいと思い、質問しました。
もちろん、作れば何でもありですが、一般に、確率変数Xと定数aに対して、m=E(X)とすると、
[括弧が繁雑になるのを防ぐためにsin(x^2)をsin x^2と書く習慣に倣います]
E(X-a)^2=E{(X-m)+(m-a)}^2
=E(X-m)^2+(m-a)E(X-m)+(m-a)^2
=V(X)+(m-a)^2
となるので、上式(その√も)は、a=mのときに最小値を取ります。
要するに、「ばらつき」の尺度の基準値(上で言うa)は平均値を基準値にした場合(a=mのとき)が最小になります。
なお絶対偏差に関しては、中央値基準だと最小になります。上と違い、ちょっとゴタゴタしますが。
加筆済み