記述統計入門


記事内にプロモーションを含む場合があります

 大量の量的データを理解するにはどうすればいいのだろうか、と思ったことはありませんか?


 記述統計は、データセットの主な特徴を明確かつ簡潔にまとめて説明するのに役立つ方法です。データ分析に興味がある人にとって、記述統計の基礎を理解することは重要なことです。本記事では、記述統計の重要な概念を分かりやすく説明します。

記述統計とは?

 記述統計とは、数値やグラフを用いてデータセットを説明し、要約する方法のことです。これにより、データセットの中心傾向、ばらつき、形状を理解することができます。記述統計は、データセットを用いてより大きな母集団について予測したり結論を導いたりする推測統計とは異なります。


>>【関連記事】統計解析の基礎

>>【関連記事】無料で使える統計ソフトウェアとその選び方【3選】

記述統計の主な概念

 中心傾向を示す主な概念には、平均値、中央値、最頻値があります。ばらつきは、範囲、分散、標準偏差、尖度、歪度があります。以下では、それらについてわかりやすく解説します。


1.平均値

 平均値は、中心傾向の最も一般的な尺度の1つです。平均値を計算するには、データセットのすべての値を足し合わせ、値の数で割ります。例えば、4, 7, 3, 8, 5 という数値のセットがある場合、平均値は (4+7+3+8+5) / 5 = 5.4 となります。

2.中央値
 中央値は、データセットの値を順番に並べたときの中央の値です。値の数が偶数の場合、中央値は2つの中央値の平均になります。中央値は平均値よりも極端な値(外れ値)の影響を受けにくいため、データに外れ値がある場合に有用な尺度となります。

3.最頻値
 最頻値とは、データセット内で最も頻繁に出現する値のことです。データセットには、1つの最頻値(単峰性)、2つの最頻値(二峰性)、または2つ以上の最頻値(多峰性)が存在する可能性があります。最頻値は、好きな色やペットの種類などのカテゴリーデータを説明するのに便利です。

4.範囲

 範囲は、データセット内の最大値と最小値の差です。データの広がりを素早く測ることができます。範囲を計算するには、最小値を最大値から引きます。例えば、最小値が3で最大値が10の場合、範囲は10 - 3 = 7となります。

5.分散と標準偏差

 分散と標準偏差は、データセットの値が平均からどの程度ばらついているかを示す指標です。分散は平均と各データの差の二乗値の平均を取ることで計算され、標準偏差は分散の平方根です。分散または標準偏差が大きいほど、データポイントが平均値から離れていることを示します。

6.歪度と尖度

 歪度と尖度は、データ分布の形状を表します。歪度は分布の非対称性を測定し、正の歪度は右側に長い裾野があることを示し、負の歪度は左側に長い裾野があることを示します。尖度は分布の尖り具合を測定し、尖度が高いほど分布の尖りが強く、尖度が低いほど分布が平坦であることを示します。

記述統計で使用する主なグラフ

 平均などの数値による表現に加えて、記述統計ではデータを視覚化するためにグラフを使用することが多いです。記述統計でよく使われるグラフには以下のようなものがあります。


1.ヒストグラム

 ヒストグラムは、データを区間(ビン)に分割し、各区間のデータポイントの頻度または数を表示することで、連続変数の分布を示すグラフです。ヒストグラムは、データセットの形状、中心傾向、ばらつきを視覚的に理解するのに役立ちます。ヒストグラムは連続変数を扱いますが、次の棒グラフはカテゴリカルデータを扱います。

2.棒グラフ

 棒グラフは、カテゴリーデータの頻度や数を表示するために使用されます。各カテゴリーは棒で表され、棒の高さは頻度や数を示します。棒グラフは、異なるカテゴリーを比較したり、最も一般的なカテゴリーや最も一般的でないカテゴリーを特定したりするのに便利です。

3.円グラフ

 円グラフは、データセット内の各カテゴリーの割合またはパーセンテージを示す円形のグラフです。これは連続変数には適しません。各カテゴリーは、そのカテゴリーのパーセンテージに比例した大きさのパイのスライスで表されます。円グラフは、異なるカテゴリーの相対的な大きさを理解するのに便利です。

4.箱ひげ図

 箱ひげ図は、最小値、第1四分位数、中央値、第3四分位数、最大値の要約統計量を使用して、連続変数の分布を表示します。平均値を示す場合もあります。箱ひげ図は、複数のデータセットの分布を比較したり、外れ値を特定したりするのに便利です。

記述統計の例

 記述統計は、多くの分野で使用されています。以下は、実生活で記述統計がどのように応用されているかの例です。


1.作業療法

 ある作業療法士がクライエントにとって意味ある作業を理解したいと考えているとします。そこで、クライエントに対して、様々な作業に対する満足度を1から10までの尺度で評価してもらうアンケートを実施します。作業療法士は記述統計を用いて、各作業の満足度評価の平均値、中央値、最頻値を計算し、評価の分布を可視化するグラフを作成することができます。


2.医学

 ある医師が、新薬の血圧低下効果を調べたいと考えているとします。100人の患者の服用前後の血圧を測定します。病院は記述統計を用いて、治療前後の血圧値の平均と標準偏差を計算し、測定値の分布を比較する箱ひげ図を作成することができます。


3.教育

 ある教員が、学生のテストの成績を把握したいと考えているとします。テストの点数の平均、中央値、最頻値を計算し、点数の分布を可視化するヒストグラムを作成します。教師はこの情報を使って、追加の支援が必要な学生を特定し、指導方法を調整することができます。

結論

 記述統計は、データセットを理解し要約するための強力なツールです。中心傾向、ばらつき、形状に着目し、グラフや図表を用いることで、データセットの主な特徴を把握することができます。データ分析に興味がある人にとって、記述統計の基礎を理解することは重要なスキルです。自分の生活や仕事の中でデータセットを理解するために記述統計を使いこなせるようになりましょう。

【無料】研究計画書作成&研究論文執筆

チェックリスト

 研究計画書や研究論文の執筆に関するチェックリストやガイドブックをお探しですか?


 私(京極)の経験に基づく、効果的で効率的な執筆のポイントが詰まったチェックリストを今すぐ入手しましょう。研究計画書の書き方から研究論文の主要パーツまで、幅広いトピックをカバーしています。さらに、オーディオブック機能付きで、いつでもどこでも学べます。今なら限定特典もありますので、この機会をお見逃しなく!


著者紹介

京極真、博士(作業療法学)、作業療法士。

Thriver Project代表。吉備国際大学ならびに同大学大学院・教授(役職:保健科学研究科長、人間科学部長、他)。首都大学東京大学院人間健康科学研究科博士後期課程修了。2022年から2023年にかけて、全12回からなる連載『基礎から始める研究論文の書き方講座』(三輪書店)を執筆した。また『作業で創るエビデンス』(医学書院)の編著者のひとりであり、質的研究、理論研究、観察研究、尺度開発、統計を執筆した。その他、著書、研究論文多数あり。