トモーヌのひとりごと

レゴや音楽、政治などを扱う雑記ブログ

安易に「統計では」と語るの注意!統計データの落とし穴:正しく理解して賢く使う方法

ネット上(特にX)では色んな議論が盛んです。日本の場合は議論というより討論、討論というより罵倒し合っていることがほとんどです。

つまり議論になっていることが僅かであり、ほとんどが自分の主張をぶつけるだけで終わっています。

さて、そんな自称議論好きな日本人の中には「統計」を引用する人が見受けられます。

今回はここにメスを入れていきたいと考えています。

というのは統計を正しく使っているひとが皆無に等しいわけです。

そもそも統計とは

統計学とは、データーを収集し分析、解釈、提示する方法を研究するもので、そのデーターから有意義な結論を出すために非常に重要な役割を果たしており、様々な分野で応用されています。医学、経済学、工学、社会科学といった、ほとんどの科学的調査で用いられています。

要はあるテーマに対して沢山のデーターを集めて根拠になりうる研究を作りますー!って感じです。

ちなみに統計には二つに分類されています。

記述統計

記述統計とは、データ集合を要約し整理する技術です。平均値、中央値、モード、分散、標準偏差などの統計量を用いて、データの中心傾向やばらつきを記述します。

推測統計

推測統計とは、標本データから全体の母集団に関する推論を行う技術です。小さな標本データから母集団のパラメータ(例:平均値や比率)についての推定や仮説検定を行います。信頼区間やp値などの概念が推測統計でよく使用されますね。

統計学の基本概念

統計学はただデーターを集めて数字にするだけじゃないのです。次の基本概念がとても重要な要素です。

  • 変数
  • 母集団と標本
  • 確率分布
  • 仮説検定
  • 回帰分析

一つずつ説明しましょう。

変数

研究対象の属性や特性。人である場合は身長、体重、性別などが対象ですね。

母集団と標本

母集団とは調査対象となる全体の集合のことです。そして標本とはその中から選ばれた一部の集合ですね。

確率分布

ある事象が発生する確率を示しもの。これには正規分布、二項分布、ポアソン分布などがありますね。

各分布についてはググってください。

仮説検定

ある仮設が総計的に有意どうかを検討する方法のことです。検定って書いてありますが資格の検定試験じゃありませんよ。

回帰分析

変数間の関係性をモデル化して予測や因果関係を分析する手法です。とても重要な手法とされており、収集したデーターに基づいて回帰モデルを選択します。そしてそのモデルに対してデーターがどの程度適合するかを評価します。次にモデルにおいて、説明変数と従属変数の間の関係を示すパラメーターを推定します。推定したモデルを使用し、新しいデーターの従属変数の値を予測、説明変数の解釈をします。

素人が安易に使えるほど簡単なものじゃない

ここまで読んだら分かると思いますが、私も含め統計学は素人が簡単に使えるものじゃありません。統計を構成する要素があまりにも複雑で、統計を引用して誰かに議論を投げかけることが如何に危険か理解出来るでしょう。

統計データーは絶対的に正しいものじゃありません。まずここが誤解しやすいところです。

統計はサンプル、つまり統計を構成するデーターに基づいており、そのデーターは母集団の全てを反映しているわけじゃありません。

犯罪でいうならば、ある特定の犯罪についての統計があったとします。当然ですが当該の犯罪全てのデーターを元に作った統計データなんか無いでしょう。

ま、完璧なものが無いということです。

データーの収集方法や処理方法、解析方法によって結果が大きく異なることだってあるんです。

もし統計データを使いたいなら、その統計データがどのような方法でデーターを収集し、どのような前提条件の元で分析されたのかを理解してからにすべきです。