統計情報

統計学は、データの収集、整理、分析、解釈および提示を扱う応用数学の一分野である。記述統計はデータを要約する。推論統計は予測を行う。統計学は、科学医学経済学心理学政治マーケティングなど、他の多くの分野の研究に役立っています。統計学に携わる人は統計学者と呼ばれます。統計学」という言葉は、研究分野の名前であるだけでなく、データや関係を記述するために使われる数字も指します。

歴史

統計学で最初に知られているのは国勢調査のデータである。バビロニアでは紀元前3500年頃、エジプトでは紀元前2500年頃、古代中国では紀元前1000年頃に国勢調査が行われました。

16世紀以降、ジェロラモ・カルダノをはじめとする数学者が確率論を展開し、統計学が科学として確立された。それ以来、人々はさまざまなものについて統計を取り、研究してきた。ヒトデ言葉、数えられるものならほとんど何でも統計の対象になってきた。

データの収集

統計学で世界を記述する前に、データを収集する必要があります。統計学で収集するデータは、測定値と呼ばれます。データを集めたら、1つ以上の数字を使って、それぞれの観察結果や測定結果を表します。例えば、あるテレビ番組がどれくらい人気があるかを調べるとします。視聴者の総人口から、あるグループ(サンプルと呼びます)を選びます。そして、サンプルの中の各視聴者に、その番組をどれくらいの頻度で見ているかを尋ねます。サンプルはあなたが見ることができるデータであり、母集団はあなたが見ることができないデータです(母集団のすべての視聴者に尋ねたわけではないので)。他の例として、ある薬が血圧を下げるのに有効かどうかを知りたい場合、その薬をしばらく投与して、その前後の血圧を測定することができます。

記述統計学と推測統計学

目に見えるデータを説明する数値は記述統計と呼ばれます。目に見えないデータを予測する数値を推論統計という。

記述統計では、数値を使ってデータの特徴を記述します。例えば、米国女性の平均身長は、母集団(米国女性)の特徴(平均身長)を記述する記述統計量である。

結果をまとめて記述すると、予測に利用することができる。これを推論統計学という。例として、ある動物の大きさは多くの要因に左右されます。これらの要因の中には、環境によって制御されるものもありますが、遺伝によって制御されるものもあります。そこで、生物学者が、「親が小さいと、子も小さい確率が高い」というモデルを作るかもしれません。このモデルによって、おそらくランダムに推測するよりも良い方法で大きさを予測することができます。ある薬がある状態や病気を治すのに使えるかどうかを調べるには、通常、その薬を与えられた人とプラセボを与えられた人の結果を比較することによって行われます。

メソッド

統計的なデータを集めるには、アンケートや実験を行うのが一般的です。例えば、世論調査は調査の一種です。少数の人を選び、質問をします。そして、その回答をデータとして利用します。

調査やデータ収集の際に、どのような個人を対象とするかは、統計に直接影響するため重要である。統計が終わってしまうと、もはやどの個体から採取したのかが分からなくなってしまうからです。例えば、大きな湖の水質を測りたいとします。排水口の横でサンプルを取るのと、湖の遠く、手の届かない場所で取るのとでは、結果が違ってくる。

サンプル採取の際によく見られる問題は2種類あります。

  1. サンプル数が多ければ、サンプルは実際の母集団と非常に近いものになる可能性が高いです。しかし、サンプルが非常に少ない場合は、実際の母集団と大きく異なる可能性があります。このような誤差を偶然誤差といいます(「統計学における誤差と残差」を参照)。
  2. サンプルとなる個体は慎重に選ぶ必要があり、通常はランダムに選ばれます。そうでない場合、サンプルは全母集団における実際の値と大きく異なる可能性があります。これは、たとえ多くのサンプルを取ったとしても同じことです。このような誤差をバイアスと呼びます。

エラー

より多くのサンプルを取ることで偶然のエラーを減らすことができますし、ランダムに選ぶことで多少のバイアスを避けることができます。しかし、大規模な無作為抽出が困難な場合もあります。また、異なる人々が質問されなかったり、質問に答えることを拒否したり、偽の治療を受けていることを知っている場合、偏りが生じることがあります。これらの問題は、修正するのが難しい場合があります。標準誤差も参照してください。

記述統計量

データの真ん中を探す

データの真ん中を平均と呼びます。平均は母集団の中の典型的な個体について教えてくれる。よく使われる平均値には、平均値中央値最頻値の3種類があります。

以下の例では、このサンプルデータを使用しています。

 名前|A B C D E F G H I J ------------------------------------------------ スコア|23 26 49 57 64 66 78 82 92

平均値

平均値の計算式は

x ¯ = 1 N ∑ i = 1 N x i = x 1 + x 2 + ⋯ + x N N {displaystyle {}}={}frac {1}{N}}sum _{i=1}^{N}x_{i}={}frac {x_{1}+x_{2}+}cdots +x_{N}}}{N}}} {\displaystyle {\bar {x}}={\frac {1}{N}}\sum _{i=1}^{N}x_{i}={\frac {x_{1}+x_{2}+\cdots +x_{N}}{N}}}

ここで、x 1 , x 2 , ... , x N {displaystyle x_{1},x_{2},\ldots ,x_{N}}{\displaystyle x_{1},x_{2},\ldots ,x_{N}} はデータ、N {displaystyle N}{\displaystyle N} は母数である。(シグマ記法参照)。

つまり、すべての値を足し合わせて、値の数で割るということです。

この例では x ¯ = ( 23 + 26 + 49 + 57 + 64 + 66 + 78 + 82 + 92 ) / 10 = 58.6 {displaystyle {bar {x}}=(23+26+49+49+57+64+66+78+82+92)/10=58.6} となる。 {\displaystyle {\bar {x}}=(23+26+49+49+57+64+66+78+82+92)/10=58.6}

平均値の問題点は、値がどのように分布しているかについては何もわからないということです。非常に大きな値や非常に小さな値は、平均値を大きく変化させます。統計学では、これらの極端な値は測定誤差かもしれませんが、時には母集団が本当にこれらの値を含んでいることがあります。例えば、ある部屋に1日10ドル稼ぐ人が10人、1日100万円稼ぐ人が1人いたとします。データの平均は90,918ドル/日です。平均といっても、この場合の平均は一人一人が稼ぐ金額ではないので、ある目的には使えない。

これが「算術平均」です。目的によっては他の種類も有効です。

中央値

中央値とは、データの真ん中の項目のことです。中央値を求めるには、データを小さい数から大きい数へと並べ替えて、真ん中の数を選びます。データが偶数の場合、真ん中の数字はありませんから、真ん中の2つを選んで、その平均を計算します。この例では10個のデータがあり、真ん中の2個は「57」と「64」なので、中央値は(57+64)÷2=60.5となります。もう一つ、平均値で示した収入の例のように、収入が10ドル、20ドル、40ドル、50ドル、60ドル、90ドル、100ドル、100万円の10人がいる部屋を考えると、55ドルは真ん中の2つの数字、50ドルと60ドルの平均なので中央値は55ドルです。この場合、中央値は、極端な値を捨てたときの値に近くなります。中央値は、上の平均の定義で述べたような極値の問題を解決してくれます。

モード

最頻値とは、データの中で最も頻度の高い項目のことである。例えば、英語で最も多い文字は "e "です。e "は文字の分布の最頻値であると言うことになる。

例えば、ある部屋に収入が10ドル、20ドル、40ドル、50ドル、60ドル、90ドル、90ドル、100ドル、100万円の人が10人いた場合、90ドルは3回出現し、他の値は3回以下なので最頻値は90ドルである。

モードは1つだけでなく、複数存在することもある。例えば、ある部屋に10ドル、20ドル、20ドル、50ドル、60ドル、90ドル、90ドル、100ドル、100万円の収入を持つ人が10人いた場合、モードは20ドルと90ドルである。これはバイモーダル、つまり2つのモードを持っています。バイモーダリティは非常に一般的で、多くの場合、データが2つの異なるグループの組み合わせであることを示します。例えば、アメリカの全成人の平均身長は、バイモーダルな分布をしています。これは、男性と女性の平均身長が別々に、男性は1.763 m(5 ft 9 + 1⁄2 in)、女性は1.622 m(5 ft 4 in)であるためです。これらのピークは、両グループを合わせたときに明らかになる。

最頻値は、順序をつけられないデータに対して使用できる唯一の平均の形式である。

データの広がりを見つける

もう一つ、データの集合について言えることは、それがどれだけ広がっているかということです。データの集合の広がりを表現する一般的な方法は、標準偏差です。標準偏差が小さければ、ほとんどのデータが平均に近いということになります。しかし、標準偏差が大きければ、多くのデータが平均と大きく異なる。

もしデータが正規分布と呼ばれる一般的なパターンに従っているならば、標準偏差を知ることは非常に有用です。もしデータがこのパターンに従っていれば(データが正規分布していると言います)、100個のデータのうち約68個は、標準偏差よりも小さい値で平均から外れていることになります。それだけでなく、100個の測定値のうち約95個は標準偏差の2倍以下の誤差で平均値から外れ、1000個中約997個は標準偏差の3倍よりも平均値に近くなるのです。

その他の記述統計

また、統計を使って、あるグループの人や物の何パーセント何%何個何分の一が何かをしたり、あるカテゴリーに当てはまったりすることを知ることができます。

例えば、社会科学者が統計を使って、世界の人々の49%は男性であることを突き止めた。

関連ソフト

統計学者を支援するために、多くの統計ソフトが開発されています。

  • SASインスティテュート
  • エスピーエスエス(IBM社製)

質問と回答

Q:統計学とは何ですか?


A:統計学は応用数学の一分野であり、データの収集、整理、分析、読み取り、提示を扱います。

Q:統計の2つのタイプとは何ですか?


A:統計には記述統計と推測統計の2種類があります。記述統計はデータの要約を作成し、推測統計は予測を作成します。

Q:統計学は他の分野ではどのように役立っているのですか?


A:統計学は、科学、医学、経済学、心理学、政治学、マーケティングなど、他の多くの分野の研究に役立っています。

Q:統計学の分野で働く人は誰ですか?


A:統計学の分野で働く人は、統計学者と呼ばれます。

Q:「統計」という言葉はどういう意味ですか?


A:「統計」という言葉は、学問分野の名前であるだけでなく、データや関係を表すのに使われる数字という意味もあります。

Q:統計学者はどのような活動をしているのですか?


A:統計家は、データの収集、整理、分析、読み取り、提示などの活動に従事しています。

AlegsaOnline.com - 2020 / 2023 - License CC3