分布パラメータの統計的推定の基本特性。 統計的評価

統計推定分布サンプル

推定値は、サンプル観察の結果に基づいて得られる、希望する量の値の近似値です。 推定値は確率変数です。 これらは、母集団の未知のパラメーターについて情報に基づいた判断を下す機会を提供します。 一般平均を推定する例としては、一般分散の標本平均、標本分散などがあります。

評価が対応する一般的な特性をどの程度「よく」満たしているかを評価するために、一貫性、公平性、効率性、十分性という 4 つの基準が開発されました。 このアプローチは、推定の品質は個々の値ではなく、確率変数としての分布の特性によって決定されるという事実に基づいています。

確率論の原理に基づいて、算術平均、最頻値、中央値などのサンプルの特性のうち、算術平均だけが一般平均の一貫した、偏りのない、効果的かつ十分な推定値を表すことが証明できます。 これは、他のサンプル特性の中で算術平均を優先するかどうかを決定します。

公平なその評価は、次のような事実に表れます。 数学的期待どのようなサンプルサイズであっても、この値は一般母集団の推定パラメータの値に等しくなります。 この要件が満たされていない場合、評価は次のようになります。 追い出された.

不偏推定の条件は、体系的な推定誤差を排除することを目的としています。

推定問題を解決するときにも使用します。 漸近的不偏推定値、サンプルサイズが増加するにつれて、数学的期待値は一般母集団の推定パラメータに近づく傾向があります。

統計的推定値は、サンプル サイズが増加するにつれて、推定値が推定パラメータの真の値にますます近づく、または、よく言われるように、推定値が希望のパラメータに確率的に収束する、またはその数学的期待値に近づく傾向があるという事実で明らかです。 。 一貫した評価のみが実際的な意味を持ちます。

これは、特定のサンプルサイズで最小の分散を持つ不偏パラメータの推定値です。 実際には、推定の分散は通常、推定誤差として識別されます。

として 評価の有効性対策可能な最小分散と別の推定値の分散の比率を計算します。

母集団の未知の特徴について、サンプルに含まれるすべての情報を完全に使用することを保証する推定値は、 十分な(網羅的)。

上で説明した統計的推定値の特性を遵守することで、一般母集団のパラメーターを可能な限り最良のものとして推定するためのサンプルの特性を考慮することが可能になります。

数理統計の最も重要なタスクは、標本データを使用して、一般母集団の望ましいパラメーターの最も合理的で「真実な」統計的推定値を取得することです。 統計的推論には 2 つのタイプがあります。 統計的仮説を検証する。

統計的推定値を取得する主なタスクは、母集団の未知のパラメーターを有意義に評価できる可能性を提供する最良の推定値を選択し、正当化することです。

未知のパラメータを推定する問題は、次の 2 つの方法で解決できます。

  • 1. 未知のパラメータは 1 つの数値 (点) によって特徴付けられます - 点推定法が使用されます。
  • 2. 間隔推定。つまり、ある程度の確率で、所望のパラメータが存在する可能性がある間隔が決定されます。

ポイント推定 未知パラメータとは、標本推定値の特定の数値が真の母集団パラメータの最良近似値として採用されることです。つまり、未知の母集団パラメータは、標本から決定された単一の数値 (点) によって推定されます。 このアプローチでは常にエラーが発生するリスクがあるため、点推定値を指標で補う必要があります。 考えられるエラー一定の確率で。

その標準偏差が平均推定誤差として採用されます。

次に、全体平均の点推定値は区間として表すことができます。

ここで、 は標本の算術平均です。

点推定を行う場合、サンプル データから推定値を取得するためにいくつかの方法が使用されます。

  • 1. モーメント法。一般母集団のモーメントを標本母集団のモーメントに置き換えます。
  • 最小二乗法、3.
  • 3. 最尤法。

多くの問題では、母集団パラメータの数値推定値を見つけるだけでなく、その精度と信頼性を評価することも必要です。 これは、比較的小さなサンプルの場合に特に重要です。 統計パラメータの点推定を一般化すると、 間隔の推定- 一定の確率で推定パラメータを含む数値区間を見つける。

サンプルデータから一般的な特性を決定する場合には常に何らかの誤差が存在するという事実により、一般的な特性の推定パラメータの真の望ましい値が位置する、見つかった点推定値を中心とする区間を決定することがより現実的です。ある特定の確率。 この区間は信頼区間と呼ばれます。

信頼区間は、与えられた確率 r で、母集団の推定パラメータをカバーする数値区間です。 この確率は信頼度と呼ばれます。 信頼確率 r は、サンプルの観察に基づいて得られた特性の信頼性を判断するために、解決されている問題の枠組み内で十分であると考えられる確率です。 サイズ

間違いを犯す確率を呼びます 重要度のレベル.

サンプル (ポイント) 推定値 AND * (シータ) パラメータ AND 精度のある一般母集団の場合 ( 極端なエラー) D と信頼確率 r、信頼区間は次の等式によって決定されます。

信頼確率 r により、次のことが可能になります。 信頼限界特定のサンプルの研究パラメータのランダムな変動と、AND。

次の値とそれに対応する値は、多くの場合、信頼確率として採用されます。 有意水準

表 1. - 最も一般的に使用される信頼確率と有意水準

たとえば、5 パーセントの有意水準は次のことを意味します。サンプル データから母集団の特徴を特定する際に、100 件中 5 件のケースでエラーが発生するリスクがあります。 言い換えると、100 件中 95 件の場合、サンプルに基づいて特定された一般的な特性は信頼区間内に収まります。

確率変数の分布 (母集団の分布) は、通常、次のようないくつかの数値特性によって特徴付けられます。

  • 正規分布の場合、N(a, σ) は数学的期待値 a と標準偏差 σ です。
  • 一様分布の場合、R(a,b) は、この確率変数の値が観察される間隔の境界です。
このような、通常は知られていない数値的特性は、 母集団パラメータ . パラメータの推定 - サンプルから計算された対応する数値特性。 母集団パラメータの推定値は、次の 2 つのクラスに分類されます。 ポイントそして 間隔.

スコアが単一の数値によって決定される場合、それは次のように呼ばれます。 ポイント推定。 サンプルの関数としての点推定値は確率変数であり、実験を繰り返すとサンプルごとに変化します。
点推定には、いかなる意味でも「良性」であるために満たさなければならない要件があります。 これ 移動されていない, 効率そして .

間隔の推定値は、推定パラメータをカバーする間隔の終わりという 2 つの数値によって決定されます。 推定されたパラメーターがそれらからどれだけ離れているかがわからない点推定とは異なり、区間推定を使用すると、推定の精度と信頼性を確立できます。

数学的期待値、分散、標準偏差の点推定値として、サンプル特性、つまりサンプル平均、サンプル分散、サンプル標準偏差がそれぞれ使用されます。

不偏推定の性質.
評価の望ましい要件は、系統的誤差がないことです。 パラメータ θ の代わりにその推定値を繰り返し使用すると、近似誤差の平均値はゼロになります。これは、 不偏推定の性質.

意味。 数学的期待値が推定パラメータの真の値と等しい場合、推定値は不偏であると呼ばれます。

標本の算術平均は、数学的期待値と標本分散の不偏推定値です。 - 一般分散の偏った推定 D。 一般分散の不偏推定値は次の推定値です。

評価の一貫性の特性.
推定の 2 番目の要件である一貫性は、サンプル サイズが増加すると推定が向上することを意味します。

意味。 学年 確率的に推定パラメータ θ に n→∞ として収束する場合、 は一貫していると呼ばれます。


確率の収束とは、サンプル サイズが大きい場合、推定値が真の値から大きく逸脱する確率が小さいことを意味します。

有効な推定特性.
3 番目の要件では、同じパラメータの複数の推定値から最良の推定値を選択できます。

意味。 不偏推定量は、すべての不偏推定量の中で分散が最小であれば効率的です。

これは、パラメータの真の値に対して有効な推定値の分散が最小限であることを意味します。 有効な推定値が常に存在するとは限りませんが、通常は 2 つの推定値からより効果的な方を選択することが可能であることに注意してください。 ばらつきが少なくなります。 たとえば、正規母集団 N(a,σ) の未知のパラメータ a については、サンプルの算術平均とサンプルの中央値の両方を不偏推定値として取得できます。 ただし、標本中央値の分散は算術平均の分散より約 1.6 倍大きくなります。 したがって、より効果的な推定値はサンプルの算術平均です。

例その1。 1 台のデバイスを使用して (系統誤差なしで)、ある確率変数の測定値の分散の不偏推定値を求めます。その測定結果 (mm 単位): 13、15、17。
解決。 指標を計算するためのテーブル。

×|x - x av |(x - x 平均) 2
13 2 4
15 0 0
17 2 4
45 4 8

単純な算術平均(数学的期待値の不偏推定値)


分散- 平均値付近の分散の尺度を特徴づけます (分散の尺度、つまり平均からの偏差 - 偏った推定値)。


不偏分散推定器- 一貫した分散推定値 (修正された分散)。

例その2。 1 台のデバイスによる特定の確率変数の測定値 (系統誤差なし) の数学的期待値の不偏推定値を求めます。その測定結果 (mm): 4、5、8、9、11。
解決。 m = (4+5+8+9+11)/5 = 7.4

例その3。 サンプル分散が D = 180 の場合、サンプル サイズ n=10 の補正分散 S2 を求めます。
解決。 S 2 = n*D/(n-1) = 10*180/(10-1) = 200

数学的統計における分布は、多くの統計パラメータによって特徴付けられます。 さまざまなサンプル データに基づいて未知の分布パラメータを推定すると、確率変数の分布を構築できます。

未知の分布パラメータの統計的推定値を見つけます。推定されたパラメータの近似値を与える、観測された確率変数の関数を見つけます。

統計的推定値は、不偏、偏り、効率的、一貫性として分類できます。

定義 1

不偏推定-- 統計的推定値 $Q^*$。これは、サンプル サイズの任意の値に対して、推定パラメータと等しい数学的期待値を持ちます。

定義 2

偏った推定-- 統計的推定値 $Q^*$。これは、サンプル サイズの任意の値に対して、推定パラメータと等しくない数学的期待値を持ちます。

定義 4

一貫した評価-- サンプルサイズが無限大になる傾向があり、確率が推定パラメータ $Q.$ に近づく統計的評価。

定義5

一貫した評価-- サンプルサイズが無限大になる傾向があるため、不偏推定値の分散がゼロになる傾向がある統計的推定値。

一般的な平均とサンプルの平均

定義6

全体の平均-- 一般母集団バリアントの値の算術平均。

定義7

サンプル平均-- サンプル母集団の値の算術平均。

一般平均とサンプル平均の値は、次の式を使用して求めることができます。

  1. オプション $x_1,\ x_2,\dots ,x_k$ の値がそれぞれ頻度 $n_1,\ n_2,\dots ,n_k$ を持つ場合、
  1. オプション $x_1,\ x_2,\dots ,x_k$ の値が異なる場合、

この概念に関連するのは、平均からの偏差の概念です。 この値は次の式を使用して求められます。

平均偏差には次の特性があります。

    $\sum(n_i\left(x_i-\overline(x)\right)=0)$

    平均偏差はゼロです。

一般分散、サンプル分散、修正分散

もう 1 つの主要なパラメータは、一般分散と標本分散の概念です。

一般的な差異:

サンプルの分散:

一般標準偏差とサンプル標準偏差は、次の概念にも関連付けられています。

一般的な分散を推定するために、修正分散の概念が導入されます。

補正標準偏差の概念も導入されています。

問題解決の例

例1

人口は次の分布表によって定義されます。

図1.

それについて、一般平均、一般分散、一般標準偏差、補正分散、補正標準偏差を求めてみましょう。

この問題を解決するには、まず計算表を作成しましょう。

図2。

値 $\overline(x_в)$ (サンプル平均) は次の式で求められます。

\[\overline(x_in)=\frac(\sum\limits^k_(i=1)(x_in_i))(n)\]

\[\overline(x_in)=\frac(\sum\limits^k_(i=1)(x_in_i))(n)=\frac(87)(30)=2.9\]

次の式を使用して一般分散を求めてみましょう。

一般的な標準偏差:

\[(\sigma )_в=\sqrt(D_в)\約 1.42\]

修正された差異:

\[(S^2=\frac(n)(n-1)D)_в=\frac(30)(29)\cdot 2.023\約 2.09\]

標準偏差を修正しました。

たとえば、一般集団の量的特徴を研究したいとします。 理論的考察から、特徴がどのような分布を持っているかを正確に確立できたと仮定しましょう。 当然のことながら、この分布を決定するパラメータを推定するという問題が生じます。 たとえば、研究対象の特性が母集団内に正規分布していることが事前にわかっている場合、数学的期待値 a と標準偏差 s を推定 (近似的に見つける) する必要があります。これら 2 つのパラメータによって正規分布が完全に決定されるためです。 。

通常、研究者が自由に使えるのはサンプルデータだけです。たとえば、n 回の観測の結果として得られる定量的特性 x 1、x 2、...、x n の値です。 推定パラメータはこれらのデータによって表現されます.

q * を理論的分布の未知のパラメータ q の統計的推定値とします。 区別する 公平なそして 追い出された評価。

公平な統計的推定値 q * を呼び出します。その数学的期待値は、任意のサンプル サイズの推定パラメータ q と等しくなります。

それ以外の場合、つまり M(q *) ¹ q の場合、推定値が呼び出されます。 追い出された.

不偏要件とは、観測値が q から同じ方向に系統的に逸脱してはいけないことを意味します。

統計的評価の要件もあります 効率これは、(特定のサンプル サイズに対して) 可能な限り最小の分散を意味し、サンプル サイズが大きい場合には、要件が 支払能力つまり、確率変数の観測値と推定パラメータの実質的な一致です。

統計資料が変動系列の形式で提示される場合、その後の分析は、原則として、研究対象の母集団の固有のパターンを完全に反映するいくつかの定数値を使用して実行されます。

これらの定数には平均値が含まれており、その中で最も重要なのは次のとおりです。 算術平均- 意味、性質、製造方法が他のものより単純です。

一般集団の研究ではサンプルが採取されるため、サンプルを特徴付ける定数値は次のように呼ばれます。 サンプル平均と指定されています。

あることを示すことができる 不偏推定一般集団の特性の算術平均値、つまり

いくつかのセットを部分に分割しましょう - グループ、必ずしもボリュームが同じであるとは限りません。 次に、グループ メンバーの算術平均分布は次のように呼ばれます。 グループ平均、および母集団全体の同じ特性の分布の算術平均 - 一般的な平均。 グループは次のように呼ばれます ばらばらの、母集団の各メンバーが 1 つのグループのみに属している場合。

全体の平均は、すべての素グループのグループ平均の算術平均に等しくなります。

例。表データに従って企業従業員の平均給与を計算します

解決。定義により、全体の平均は次のようになります。

. (*)

n 1 = 40、n 2 = 50、n 3 = 60

ワークショップ No. 1 の労働者の平均給与。それを見つけるために、ワークショップ全体の算術平均給与をまとめました。便宜上、これらの値は 5 分の 1 に減らすことができます。 (これが最大公約数です): 15、17、19、21。残りは式から明らかです。

同様の操作を実行すると、 、 が見つかります。

取得した値を(*)に代入すると、

平均は、分布を特定の方法で特徴付ける定数値です。一部の分布は手段によってのみ判断されます。 たとえば、レベルを比較するには 賃金異なる業界では、平均賃金を比較するだけで十分です。 しかし、平均を使用して、最高賃金の労働者と最低賃金の労働者の賃金レベルの差や、平均賃金からどのような乖離が生じているかを判断することはできません。

統計において、最大の関心は、算術平均を中心とした属性値の広がりです。実際および理論的研究では、特性の分散は分散と標準偏差によって特徴付けられることが多くなります。

サンプルの分散 D B は、特性の観察値の平均値からの偏差の二乗の算術平均です。

体積 n のサンプルの特性のすべての値 x 1、x 2、... x n が異なる場合、

. (3)

属性 x 1、x 2、... x k の値がそれぞれ頻度 n 1、n 2、... n k であり、n 1 + n 2 + ... + n k = n の場合、

. (4)

分散指標を属性値と同じ単位で表す必要がある場合は、要約特性を使用できます。 標準偏差

分散を計算するには、通常、次の公式が使用されます。

集団が重複しないグループに分割されている場合、それらを特徴付けるために、グループ、グループ内、グループ間、および全体の分散の概念を導入できます。

グループ分散は、j 番目のグループのメンバーの平均、つまりグループ平均に対する分布の分散です。

ここで、n i は値 x i の周波数、グループ j の体積です。

グループ内分散はグループ分散の算術平均です

ここで、N j (j = 1, 2, …, m) は、素グループの体積です。

グループ間分散は、すべての互いに素なグループのグループ平均の、全体の平均からの偏差の二乗の算術平均です。

.

一般的な分散とは、全体の平均に対する母集団全体の特性の値の分散です。

,

ここで、n i は値 x i の頻度です。 - 全体の平均。 n は母集団全体の体積です。

D の分散の合計は合計に等しいことがわかります。つまり、

例。次の 2 つのグループで構成される母集団の分散の合計を求めます。

最初のグループ 2番目のグループ
x i 私は x i 私は

解決。グループ平均を求めてみましょう

グループの分散を見つけてみましょう

一般的な平均値を求めてみましょう

必要な合計差異

上記で考慮された推定値は通常、次のように呼ばれます。 ポイント、これらの推定値が決定されるため、 1 つの数字。 万一に備えて 少量のサンプル、間隔推定値が使用され、決定されます 2つの数字、区間の終わりと呼ばれます。

間隔の推定により、次のことを確立できます。 精度と信頼性評価。 これらの概念の意味を説明しましょう。 サンプルデータから見つかった統計的特性 q * を未知のパラメーター q の推定値として機能させます。 q * パラメータ q がより正確に決定されるほど、絶対値は小さくなることが明らかです。 言い換えれば、d > 0 かつ の場合、d が小さいほど推定の精度が高くなります。

したがって、数値 d > 0 は次のことを特徴づけます。 正確さ評価。 しかしその一方で、統計的手法では、推定値 q * が不等式を満たしていると断言することはできません。 ここでしか話せないのは、 確率g, これによりこの不等式が実現されます。 この確率 g は次のように呼ばれます。 信頼性(信頼確率) q を q * で推定します。

したがって、これまでの話から次のことがわかります

関係 (*) は次のように理解されます。区間 (q * - d, q * + d) が未知のパラメーター q を含む (カバーする) 確率は g に等しいです。 与えられた信頼性 g を持つ未知のパラメータをカバーする区間 (q * - d, q * + d) は信頼度と呼ばれます。

例。確率変数 X は、既知の標準偏差 s = 3 の正規分布を持ちます。サンプル サイズが n = 36 で、推定値の信頼性が g = 0.95 である場合、サンプル平均を使用して未知の数学的期待値 a を推定するための信頼区間を求めます。 。

解決。確率変数 X が正規分布している場合、独立した観測から求められる標本平均 も正規分布しており、分布パラメータは次のとおりであることに注意してください: , (54 ページを参照)。

関係が満たされることを要求します

.

式 (**) (43 ページを参照) を使用し、X を に、s を に置き換えると、次のようになります。

この章を学習した後、学生は次のようになります。 知る、サンプルは一般集団の経験的な類似物と考えることができること、サンプルデータの助けを借りて一般集団の特性を判断し、その特性、統計的推定値の分布の基本法則を評価できること、 できるモーメントと最尤法を使用して母集団パラメータの点と区間の推定値を生成します。 自分の得られた推定値の精度と信頼性を判断する方法。

統計的推定の種類

一般母集団のパラメータについて私たちが知っていることは、それらが客観的に存在するということですが、一般母集団は無限であるか、または過度に大きいという事実により、それらを直接決定することは不可能です。 したがって、問題はこれらの特性を評価することだけである可能性があります。

一般集団から抽出されたサンプルについては、代表性の条件に従って、一般集団の特性に類似した特性を決定することが可能であることが以前に確立されていました。

cjp 定義 8.1.サンプルから求められた分布パラメータの近似値をパラメータ推定値と呼びます。

確率変数 (一般母集団) の推定パラメーターを 0 として表し、サンプルを使用して得られたその推定値を 0 として表します。

どのサンプルもランダムであるため、スコア 0 は確率変数です。 異なるサンプルから得られる推定値はそれぞれ異なります。 したがって、サンプルに応じて 0 を関数とみなします: 0 = 0(X in)。

シュシュR 意味 8.2. 統計的評価は次のように呼ばれます。 裕福な、確率的に推定パラメータに傾向がある場合:

この等式は、サンプル サイズが無限に増加するにつれて、イベント 0=0 の信頼性が高まることを意味します。

例としては、あるイベントの相対頻度が挙げられます。 あ、これは、ポアソンの定理に従った、この事象の確率の一貫した推定値です (式 (6.1)、パート 1 を参照)。

定義8.3.統計的推定は、同じサンプルサイズで分散が最小である場合に効率的であると言われます。

評価を検討する 数学的期待 確率変数 X.そのような見積もりとして私たちが選択するのは X.確率変数の数学的期待値を求めてみましょう X.

まず重要な点を述べておきます。すべての確率変数が ×、同じ母集団から抽出される ×、つまり、次の分布と同じ分布になります。 ×、書くことができます:

さあ、見つけてみましょう M(Xインチ):


したがって、サンプル平均は、確率変数の数学的期待の統計的推定値です。 この推定値は、チェビシェフの定理の当然の帰結に従って、確率的に数学的期待値 (6.3) に収束するため、一貫しています。

検討中のケースでは、選択した推定値 (確率変数) の数学的期待値が推定パラメータ自体に等しいことが確認されました。 この性質を持つ推定値は、数学的統計において特別な位置を占め、不偏推定値と呼ばれます。

定義8.4。数学的期待値が推定パラメータと等しい場合、統計的推定値 © は不偏であると呼ばれます。

この要件が満たされていない場合、推定にはバイアスがかかっていると呼ばれます。

したがって、サンプル平均は期待値の不偏推定値です。

標本分散バイアスを分析してみましょう D、一般分散の推定値として選択された場合 DX。これを行うには、条件 (8.2) が満たされているかどうかを確認してみましょう?):


結果として得られる 2 つの項をそれぞれ変換してみましょう。

ここでは等式が使用されました M(X.) = M(X 2)、(8.1) と同じ理由で妥当です。

では第二期を見てみましょう。 二乗和の公式を使用する n私たちが得た条件


再び等式 (8.1) と、X と X が独立した確率変数であるという事実を考慮して、次のように書きます。

そして最終的には次のようになります:

得られた結果を(8.3)に代入してみましょう。

変換後に得られるのは、

したがって、標本分散は次のように結論付けることができます。 追い出された一般的な分散の推定。

得られた結果を考慮して、不偏条件 (8.2) を満たす一般分散の推定値を構築するタスクを設定します。 これを行うには、確率変数を考慮します。

この数量に関して、条件 (8.2) が満たされていることは簡単にわかります。

標本分散と補正標本分散の差は、標本サイズが大きくなると重要でなくなることに注意してください。

確率変数の特性の推定値を選択するときは、その精度を知ることが重要です。 場合によっては、高い精度が必要な場合もあれば、大まかな推定値で十分な場合もあります。 たとえば、乗り継ぎ便を計画する場合、乗り継ぎ地点への到着予定時刻をできるだけ正確に知ることが重要です。 別の状況、たとえば、家にいて注文した商品を持って宅配業者を待っている場合、到着時刻の高い精度は私たちにとって重要ではありません。 どちらの場合も、確率変数は到着時間であり、注目する確率変数の特性は平均移動時間です。

評価には2種類あります。 最初のケースでは、タスクはパラメータの特定の数値を取得することです。 別のケースでは、関心のあるパラメータが所定の確率で該当する区間が決定されます。