出典: フリー百科事典『ウィキペディア(Wikipedia)』
印刷用ページはサポート対象外です。表示エラーが発生する可能性があります。ブラウザーのブックマークを更新し、印刷にはブラウザーの印刷機能を使用してください。
分位数︵ぶんいすう︶、分位点︵ぶんいてん︶、分位値︵ぶんいち︶、クォンタイル (英: quantile) は、統計の代表値の1種である。
実数
に対し、q 分位数 (q-quantile) は、分布を
に分割する値である。
ある種の正の整数
に対し、分布を
等分する
個の値、つまり、
に対する
分位数を、m 分位数︵ただし
は漢数字︶という。
番目の m分位数を第 im分位数といい、また、
等分された分布の
番目の部分を、第 km分位、または単に第 k分位という。
ただし、英語のquantileには、等分割する値︵value︶の意味と、そのようにして分割された群︵group︶の二つの意味がある[1]。
定義
変量統計における分位数
個のデータ
に対する q分位数
は、昇順にソートしたデータを
とすると、
と定義される。ここで、
は床関数、
は天井関数、
は自然数の集合である。
関数
は、数列
の線形内挿数関数への拡張である。関数
の引数
は、範囲
を
に内分している。
確率分布の分位数
1次元確率分布
に対する q 分位数
は
![{\displaystyle \int _{-\infty }^{Q_{q}}f(x)dx\geq q,\ \int _{Q_{q}}^{\infty }f(x)dx\geq 1-q}](https://wikimedia.org/api/rest_v1/media/math/render/svg/2f99daa34023685c53f6c538868101dd41641b55)
を満たす値として定義される。この式は、累積分布関数
または確率
を使って、
![{\displaystyle \int _{-\infty }^{Q_{q}}dF(x)\ \geq q,\ \int _{Q_{q}}^{\infty }dF(x)\ \geq 1-q}](https://wikimedia.org/api/rest_v1/media/math/render/svg/698d034cf3607718c070333f039c485a588713c4)
または
![{\displaystyle P(X\leq Q_{q})\geq q,\ P(X\geq Q_{q})\geq 1-q}](https://wikimedia.org/api/rest_v1/media/math/render/svg/4ef8e3591e3227c959a234b8c24e2df96b7d924c)
とも表せる[2]。
特別な分位数
いくつかの q に対する q 分位数には、特別な名称がある。
中央値
1 / 2 分位数を、中央値、メディアン (median)という。中央値は、平均値に代わり、分布を代表する値として使われる。
四分位数
分位数を、第 q四分位数、第 q四分位点、第 q四分位値、第 qヒンジ (quartile, hinge) という。1 / 4 分位数︵第1四分位数︶を下側四分位数、3 / 4 分位数︵第3四分位数︶を上側四分位数ともいう。
単に四分位数といったばあい、第1・第3四分位数を表す。第2四分位数は中央値である。これらは、分布の統計的ばらつきを表すのに使う。
第1・第3四分位数の差
は、四分位範囲︵英: interquartile range, IQR︶といい、分布のばらつきの代表値である。分布の代表値として平均値の代わりに中央値を使うときは、IQRを標準偏差や分散の代わりに使う。中央値同様、頑強で、外れ値や極端に広い裾野の影響を受けにくい。
を四分位偏差、
を正規四分位範囲︵英: normalized interquartile range, NIQR︶といい、IQRの代わりに使うことがある。ここで、
は、標準正規分布のIQRである。正規分布の正規四分位範囲は、標準偏差に等しい。なお係数0.7413を近似値として使うことがある。
四分位数の簡易な求め方として、中央値より上の値の中央値と、中央値より下の値の中央値を使う場合がある。この値を特にヒンジ (hinge) と呼び、それぞれ上側ヒンジ・下側ヒンジ、または、第1・第3ヒンジ︵第2ヒンジは中央値︶と呼ぶ。ヒンジは、︵厳密に計算した︶四分位数とは、中央値から離れる方向に少しだけずれる。データ数が多ければずれは小さくなる [要出典]。
三分位数・五分位数・十分位数
分位数を、第 q 三分位数、第 q 三分位点、第 q 三分位値 (tertile) という。
分位数を、第 q 五分位数、第 q 五分位点、第 q 五分位値 (quintile) という。
分位数を、第 q 十分位数、第 q 十分位点、第 q 十分位値 (decile) という。
パーセンタイル
分位数を、q パーセンタイル、(第)q 百分位数、(第)q 百分位点、(第)q 百分位値、q パーセント点、q %点 (percentile) という。
分位数を上側 q パーセント点という。これと対比するときには、
分位数は下側 q パーセント点という。また、平均が0の対称分布に対し、
分位数を両側 q パーセント点という。このとき、絶対値が両側 q パーセント点以内に、分布の q %が含まれている。
最大値・最小値
0分位数は最小値、1分位数は最大値である。最大値と最小値の差は範囲あるいはレンジ(英: range)と呼ばれ、分布のばらつきを表す代表値の一種である。
五数要約
分布の特徴を最大値、最小値、中央値、上側・下側ヒンジの5つの値、つまり、0, 0.25, 0.5, 0.75, 1分位数で要約することを、五数要約という。五数要約は、しばしば箱ひげ図で図示される。
日本産業規格
日本産業規格では、分位点を、﹁
分位点とは,分布関数が
に一致するか,又は
より小さな値から
より大きな値に飛ぶときの確率変数の値。確率
を
% で表すときは
パーセント点 (100p percentile) という。備考1. 確率変数のある区間内で分布関数が一定値
となる場合は,その区間内の任意の値が
分位点とされる。ただし,
である。
2.
に対応する確率変数の値をメディアン中央値 (median) という。3.
および
に対応する確率変数の値を四分位点 (quartile) という。﹂と定義している[5]。
脚注
参考文献
外部リンク