分布パラメータの静的推定。 点推定とそのプロパティ

講義概要:

    評価の考え方

    統計的推定値の特性

    点推定値を求める方法

    間隔パラメータの推定

    正規分布母集団の既知の分散を使用した数学的期待値の信頼区間。

    カイ二乗分布とスチューデントの t 分布。

    分散が未知の正規分布を持つ確率変数の数学的期待値の信頼区間。

    正規分布の標準偏差の信頼区間。

参考文献:

    ウェンツェル、E.S. 確率論 [本文] / E.S.ヴェンツェル。 – M.:

    大学院

    、2006年。 – 575ページ。

グムルマン、V.E. 確率論と数理統計 [本文] / V.E. グムルマン。 - M.: 高等学校、2007 年。 - 480 ページ。

クレーマー、N.S. 確率論と数理統計 [本文] / N.Sh.
クレーマー - M: UNITY、2002. – 543 p. P.1. 評価の考え方二項分布、指数分布、正規分布などの分布は、1 つ以上のパラメーターに依存する分布のファミリーです。 たとえば、確率密度を持つ指数分布は 1 つのパラメータ λ に依存し、正規分布は

- 2 つのパラメータから
メートル
そしてσ。 研究中の問題の状況から、どの分布族について話しているのかは通常明らかです。 ただし、関心のある分布特性の式に含まれるこの分布のパラメータの具体的な値は不明のままです。 したがって、少なくともこれらの量のおおよその値を知る必要があります。
一般集団の分布の法則は、その分布に含まれるパラメータの値まで決定されます θ 、そのうちのいくつかは知られているかもしれません。 数学的統計のタスクの 1 つは、観測値のサンプルから未知のパラメーターの推定値を見つけることです。 一般の人々からは。 未知のパラメータの推定は関数の構築で構成されます この関数の値が推定された未知のパラメータとほぼ等しくなるようなランダムなサンプルからの。 関数 θ .

呼ばれた 統計パラメータ 統計) 統計的 θ 評価

(将来的には単純に パラメータ
; 別のサンプルを作成すると、一般的に、関数は異なる値を取得します。

推定値には、点推定値と区間推定値の 2 種類があります。

スポット 1 つの数値によって決定されるスコアと呼ばれます。 観測値の数が少ない場合、これらの推定値は重大な誤差につながる可能性があります。 これらを回避するために、間隔推定が使用されます。

間隔 2 つの数値によって決定される推定値です。推定値が所定の確率で含まれる区間の終わりです。 θ .

P.2 統計的推定値の性質

サイズ
呼ばれた 評価精度。 少ないほど
、より良いほど、未知のパラメータがより正確に決定されます。

パラメータの評価は、パラメータの真の値に「近づく」ために満たさなければならない多くの要件の影響を受けます。 ある意味「良性」の評価かもしれません。 推定の品質は、推定に不偏性、効率性、一貫性の特性があるかどうかをチェックすることで決まります。

(将来的には単純に 統計的 θ 呼ばれた 移動されていない(系統的誤差なし)、推定の数学的期待が真の値と一致する場合 θ :

. (1)

等式 (1) が成り立たない場合、推定値は 一般の人々からは。 未知のパラメータの推定は関数の構築で構成されます 追い出された(系統的誤差あり)。 この偏りは、測定誤差、計数誤差、またはサンプルの非ランダムな性質に起因する可能性があります。 系統的な誤差は過大評価または過小評価につながります。

数学的統計の問題によっては、不偏推定値がいくつか存在する場合があります。 通常、散乱(分散)が最も少ないものが優先されます。

(将来的には単純に 一般の人々からは。 未知のパラメータの推定は関数の構築で構成されます 効果的可能なすべての不偏パラメータ推定値の中で分散が最小の場合 θ .

させて D() は最小分散であり、
– 他の不偏推定値の分散 統計的 θ 。 次に、推定の効率 に等しい

. (2)

それは明らかです
。 近いほど
1 になるほど、評価はより効果的になります 。 もし

、その後、見積もりが呼び出されます 漸近的に効率的.

コメント: スコアの場合 偏りがある場合、その分散の小ささはまだ誤差の小ささを示しません。 たとえば、パラメータの推定値として θ ある数字 、分散がゼロであっても推定値が得られます。 ただし、この場合、エラー(エラー)
好きなだけ大きくできます。

(将来的には単純に 一般の人々からは。 未知のパラメータの推定は関数の構築で構成されます 裕福な、サンプルサイズが増加した場合(
) 推定値は確率的にパラメータの正確な値に収束します。 θ 、つまり 誰かのためなら

. (3)

評価の妥当性 統計的 θ 成長とともにという意味です nサンプルサイズ 評価の質 改善しています。

定理 1. 標本平均は、数学的期待値の不偏かつ一貫した推定値です。

定理 2. 修正された標本分散は、偏りのない一貫した分散推定値です。

定理 3. サンプルの経験的分布関数は、確率変数の分布関数の不偏かつ一貫した推定値です。

トピック 7. 分布パラメータの統計的推定: 点推定と区間推定

統計的手法の意味は、限られたサンプル、つまり一般集団の特定の部分を使用して、全体としての特性について合理的な判断を下すことです。

当然のことながら、母集団調査を標本調査に置き換えると、次のようないくつかの疑問が生じます。

1. サンプルは母集団の特性をどの程度反映していますか?つまり、サンプルは母集団をどの程度代表していますか?

2. 母集団パラメータの値について、標本パラメータからどのような情報が得られるのでしょうか?

3. サンプリングによって得られる統計的特性 (平均値、分散、またはその他の派生値) は、一般母集団から得られる特性と等しいと言えますか?

このチェックは、同じ母集団からの異なるサンプルに対して取得されたパラメーターの値が通常一致しないことを示します。 サンプリングにより計算されたサンプルパラメータの数値は、おおよその結果にすぎません。 統計的評価母集団におけるこれらのパラメータの値。 統計的評価では、観察される現象にはばらつきがあるため、おおよその値しか得られません。

注記。 厳密に言えば、統計学における推定値とは、推定パラメータを計算するための規則であり、推定値とは、つまり評価を行うという意味であり、近似値を示すことを意味する。

さまざまな評価があります ポイントそして 間隔の推定値.

分布パラメータの点推定

させて x 1 、 x 2 、…、 x n– サンプル量 n分布関数を持つ母集団から F(×).

このサンプルの数値特性は次のように呼ばれます。 選択的 (経験的な) 数値的特性。

サンプルの数値特性は特定のサンプルの特性ですが、一般母集団の分布の特性ではないことに注意してください。 ただし,こうした特徴を利用して母集団パラメータを推定することができます。

スポット単一の数値によって決定される統計的推定値です。

点推定の特徴は、 プロパティ:公平性、一貫性、効率性。

公平な点推定値と呼ばれ、その数学的期待値は、任意のサンプルサイズの推定パラメータに等しくなります。

点推定は次のように呼ばれます 裕福な サンプルサイズを無制限に増加させた場合 ( n® ¥) 確率的にパラメータの真の値に収束します。つまり、母集団の推定パラメータの真の値に近づく傾向があります。

効果的点推定値です (指定されたサンプル サイズに対して n) は可能な限り最小の分散を持ちます。つまり、一般母集団の同じ推定値からのサンプル推定値の偏差が最小になることが保証されます。

数学的統計では、一般平均値 a の一貫した不偏推定値が標本平均であることが示されています。

どこ x i– サンプリングオプション、 私は– 周波数オプション x i, – サンプルサイズ。

一般分散の不偏推定値サンプルの分散を補正するのに役立ちます

,

より便利な公式  .

学年 s一般分散の 2 も一貫していますが、効果的ではありません。 ただし、正規分布の場合、それは「漸近的に効率的」です。つまり、増加するにつれて、 n可能な最小値に対する分散の比率は無限に 1 に近づきます。

したがって、ディストリビューションからサンプルが与えられた場合、 F(×) 確率変数 ×未知のものと 数学的期待 および分散 s 2 の場合、これらのパラメータの値を計算するために、次の近似式を使用する権利があります。

点推定には、サンプル サイズが小さい場合、推定パラメータと大きく異なる可能性があるという欠点があります。 したがって、パラメータとその推定値の間の近さを把握するために、いわゆる区間推定値が数学的統計に導入されます。

信頼区間

結果の統計処理中に、未知のパラメーター θ の点推定値を見つけるだけでなく、この推定値の精度を特徴付ける必要がある場合は、信頼区間が見つかります。

信頼区間– これは、母集団の未知のパラメータが所定の信頼確率で特定される区間です。

信頼確率未知の母集団パラメータが信頼区間に属する確率です。

信頼区間の長さは区間推定の精度を特徴づけ、サンプル サイズと信頼確率に依存します。 サンプルサイズが大きくなると、長さも長くなります。 間隔が減少し (精度が増加)、信頼確率が 1 に近づく傾向があるため、長さが信頼されるようになります。 区間が増加する (精度が低下する) 実際には、信頼確率 p とともに、有意水準 α = 1 - p がよく使用されます。

通常、p = 0.95 または (それほど一般的ではありませんが) 0.99 が使用されます。 これらの確率は、既知のサンプル指標に基づいて一般的なパラメーターについて自信を持って判断するのに十分であると考えられます。

数学的期待値の信頼区間は次の形式になります。 ここで、S は標準偏差、 はスチューデント分布の臨界値です (付録 1 からトピック 7 を参照)

一般集団の量的特徴を研究する必要があるとします。 理論的考察により、特徴量がどのような分布をしているかを確立することができたと仮定します。 この分布を決定するパラメータを推定するという問題が発生します。 たとえば、調査対象の特性が正規法則に従って一般集団に分布していることが事前にわかっている場合、数学的期待値と標準偏差を推定する必要があります。これら 2 つのパラメータによって正規分布が完全に決定されるためです。 特性にポアソン分布があると信じる理由がある場合は、この分布を決定するパラメータを推定する必要があります。 通常、観測から得られたサンプル データのみが利用可能です: 、 、 ... 、 。 これらのデータにより推定パラメータが表現されます。 、 、 ... を独立確率変数 、 、 ... 、 の値として考えると、理論的分布の未知のパラメータの統計的推定値を見つけることは、近似値を与える観測された確率変数の関数を見つけることを意味すると言えます。推定されたパラメータの値。

それで、 統計的評価理論的分布の未知のパラメーターは、観測された確率変数の関数と呼ばれます。 1 つの数値を使用した未知の母集団パラメータの統計的推定値は、 ポイント。 次の点推定値が考慮されます: 偏りのあるものと偏りのないもの、効果的で一貫したもの。

統計的推定値が推定パラメータの適切な近似値を提供するには、統計的推定値が特定の要件を満たしている必要があります。 これらの要件を示しましょう。 理論的分布の未知のパラメーターの統計的推定があるとします。 ボリュームのサンプルから推定値が見つかったと仮定します。 実験を繰り返しましょう。つまり、一般母集団から同じサイズの別のサンプルを抽出し、そのデータを使用して推定値などを見つけます。それぞれ異なる数値 、 、 ... を取得します。他の。 したがって、推定値は確率変数、数値 、 、 ... はその可能な値と考えることができます。

推定値が超過を伴う近似値を与える場合、サンプル データから求めた数値 ( ) は真の値より大きくなります。 その結果、確率変数の数学的期待値 (平均値) は より大きくなります。 デメリットを伴う近似値が得られる場合は、 です。

したがって、数学的期待値が推定対象のパラメータと等しくない統計的推定値を使用すると、系統的誤差が生じる可能性があります。 したがって、推定値の数学的期待値が推定パラメータと等しいことを要求する必要があります。 要件に準拠すると、系統的なエラーが排除されます。

公平なは統計的推定値と呼ばれ、その数学的期待値は推定されたパラメータと等しくなります。

避難したこれは統計的推定値と呼ばれ、その数学的期待値は推定されたパラメータと等しくありません。

ただし、不偏推定値が常に推定対象のパラメータの良好な近似値を与えると仮定するのは間違いです。 実際、考えられる値は平均値の周囲に広く分散している可能性があります。つまり、値の分散が顕著である可能性があります。 この場合、たとえば 1 つのサンプルのデータから見つかった推定値は、その平均値、つまり推定されたパラメータ自体から大きく離れていることが判明する可能性があります。 おおよその値として考慮すると、 大きな間違い。 数量の分散を小さくする必要がある場合、大きな誤差が生じる可能性は排除されます。 したがって、統計的評価は効率要件の対象となります。

効果的は、(特定のサンプル サイズについて) 可能な限り最小の分散を持つ統計的推定値です。 大きなサンプルを考慮する場合、統計的推定値が一貫している必要があります。

裕福なこれは統計的推定値と呼ばれ、確率的に推定パラメータに一致する傾向があります。 たとえば、不偏推定値の分散がゼロに近づく傾向がある場合、その推定値は一貫していることがわかります。

不偏性、効率、一貫性の観点から、どのサンプル特性が一般平均と分散を最もよく推定するかという問題を考えてみましょう。

量的特性に関して離散的な一般集団を研究してみましょう。 一般中等教育は、一般集団の特性の値の算術平均と呼ばれます。 数式を使用して計算することもできますが、 、ここで、 は体積の一般集団の特性の値、 は対応する周波数、および です。

定量的特性の独立した観察の結果として、特性値を持つボリュームのサンプルを一般集団から抽出しましょう . サンプル平均は標本母集団の算術平均と呼ばれます。 式を使用して計算することもできますが、 、ここで、 は体積のサンプル母集団における特性の値、 は対応する周波数、および です。

一般平均が不明で、サンプル データを使用してそれを推定する必要がある場合は、不偏で一貫した推定値であるサンプル平均が一般平均の推定値として採用されます。 したがって、同じ一般母集団からの十分に大きなサイズのいくつかのサンプルからサンプル平均が見つかった場合、それらは互いにほぼ等しくなるということになります。 これが物件です サンプルの安定性を意味します.

2 つの母集団の分散が同じ場合、標本平均と一般平均の近さは、標本サイズと一般母集団のサイズの比率に依存しないことに注意してください。 これはサンプル サイズに依存します。サンプル サイズが大きいほど、サンプル平均と一般平均との差は少なくなります。

平均値を中心とした母集団の量的特性の値の分散を特徴付けるために、概要特性、つまり一般分散が導入されます。 一般的な差異母集団の特性の値の平均値からの偏差の二乗の算術平均と呼ばれ、次の式を使用して計算されます。 、 または .

平均値付近のサンプルの定量的特性の観察値の分散を特徴付けるために、要約特性、つまりサンプル分散が導入されます。 サンプルの分散特性の観察値の平均値からの偏差の二乗の算術平均と呼ばれ、次の式を使用して計算されます。 、 または .

分散に加えて、平均値を中心とした一般(サンプル)母集団の特性の値の分散を特徴付けるために、要約特性、つまり標準偏差が使用されます。 一般的な標準偏差一般分散の平方根と呼ばれます: 。 サンプル標準偏差は標本分散の平方根と呼ばれます。

量的特性に関する独立した観察の結果として、一般集団からサンプル量を抽出するとします。 サンプルデータに基づいて未知の一般分散を推定する必要があります。 標本分散を一般分散の推定値として取る場合、この推定値は系統誤差につながり、一般分散の値が過小評価されてしまいます。 これは、サンプルの分散が偏った推定値であるという事実によって説明されます。 言い換えれば、標本分散の数学的期待値は、推定された一般分散と等しくありませんが、次と等しくなります。 .

標本の分散を修正して、その期待値が母集団の分散と等しくなるようにするのは簡単です。 これを行うには、分数を掛けるだけで十分です。 その結果、通常 で表される修正分散が得られます。 修正された分散は、母分散の不偏推定値になります。 .

2. 間隔の推定.

パラメータ推定の統計理論では、点推定とともに区間推定の問題も扱います。 区間推定の問題は、次のように定式化できます。サンプル データを使用して、事前に選択した確率に基づいて、推定されたパラメータがこの区間内に位置すると言える中立的な数値を構築します。 区間推定は、点推定がほぼランダムであり、したがってあまり信頼できない場合、観測数が少ない場合に特に必要です。

信頼区間パラメータの場合、このような間隔は、1 に近い事前に選択された確率で、パラメータの未知の値が含まれていると主張することが可能な間隔と呼ばれます。 。 選択した確率の数値が小さいほど、未知のパラメーターの推定値はより正確になります。 逆に、この数値が大きい場合、この間隔を使用して行われた推定は実践にはほとんど役に立ちません。 信頼区間の終わりはサンプルの要素に依存するため、 と の値はサンプルごとに異なる場合があります。 確率は通常、信頼確率(信頼性)と呼ばれます。 通常、推定の信頼性は事前に指定されており、1 に近い数値が値として採用されます。 信頼確率の選択は数学的な問題ではなく、解決される特定の問題によって決まります。 最もよく設定される信頼性は に等しいです。 ; 。

確率変数 (量的特性) が正規分布していると仮定して、標準偏差の既知の値の一般平均の信頼区間を導出せずに提示してみます。

ここで、 は 1 に近い所定の数値であり、関数の値は付録 2 に示されています。

この関係の意味は次のとおりです。信頼区間 ( ) は未知のパラメーターをカバーしており、推定の精度は と同等です。 数値は、 または の等価性から決定されます。 表 (付録 2) を使用して、ラプラス関数の値が対応する引数 ( に等しい) を見つけます。

例1。 確率変数には、標準偏差が既知の正規分布があります。 サンプルサイズが指定され、推定値の信頼性が指定されている場合、サンプル平均に基づいて未知の一般平均を推定するための信頼区間を求めます。

解決。 見つけてみましょう。 関係から次のことがわかります。 表 (付録 2) を使用すると、 がわかります。 見積もりの​​精度を調べてみましょう 。 信頼区間は次のようになります。 。 たとえば、 の場合、信頼区間には次の信頼限界があります。 。 したがって、未知のパラメータの値はサンプルデータと一致し、不等式を満たします。 .

標準偏差の値が不明な特性の正規分布の一般平均の信頼区間は、次の式で与えられます。 .

したがって、信頼区間は次のようになると確実に言えます。 未知のパラメータをカバーします。

既製の表 (付録 4) があり、これを使用すると、与えられたものが与えられた場合に確率を見つけることができ、また逆も同様で、与えられたものが与えられた場合に確率を見つけることができます。

例 2。 母集団の量的特徴は正規分布します。 体積サンプルに基づいて、サンプル平均と修正標準偏差が求められました。 信頼性のある信頼区間を使用して、未知の一般平均を推定します。

解決。 見つけてみましょう。 表 (付録 4) を使用すると、次のことがわかります。 信頼限界を見つけてみましょう。

したがって、未知のパラメータは信頼性をもって信頼区間に含まれます。

3. 統計的仮説の概念。 仮説検定問題の一般的な定式化.

統計的仮説のテストは、パラメーター推定の理論と密接に関連しています。 自然科学、技術、経済学では、何らかのランダムな事実を明らかにするために、統計的に検証できる、つまりランダムなサンプルでの観察結果に基づいて検証できる仮説を表現することに頼ることがよくあります。 下 統計的仮説仮説とは、確率変数の分布のタイプまたは個々のパラメーターに関連することを意味します。 したがって、たとえば、同じ条件下で同じ作業を行う労働者の労働生産性の分布には正規分布則があるという統計的仮説があります。 同様の並行稼働マシンで生産される部品の平均サイズは互いに変わらないという仮説も統計的になります。

統計的仮説は次のように呼ばれます。 単純、確率変数の分布を一意に決定する場合、それ以外の場合は仮説と呼ばれます。 複雑な。たとえば、単純な仮説は、確率変数が数学的期待値が 0 で分散が等しい正規法則に従って分布するという仮定です。 1に等しい。 確率変数が分散が 1 に等しい正規分布を持ち、数学的期待値が区間からの数値であると仮定すると、これは複雑な仮説になります。 複雑な仮説の別の例は、連続確率変数が区間から値を取得する可能性が高いという仮定です。この場合、確率変数の分布は連続分布のいずれかのクラスになる可能性があります。

多くの場合、量の分布は既知であり、観測値のサンプルを使用してこの分布のパラメーターの値に関する仮定をテストする必要があります。 このような仮説をこう呼ぶ パラメトリック.

テストされる仮説は次のように呼ばれます 帰無仮説と指定されています。 仮説とともに、代替 (競合) 仮説の 1 つが検討されます。 たとえば、パラメータが特定の値に等しいという仮説がテストされている場合、つまり、次の仮説の 1 つが対立仮説と見なされます。 : ; : ; : 、 は指定された値です。 対立仮説の選択は、問題の具体的な定式化によって決まります。

仮説を受け入れるか拒否するかを決定するルールは、と呼ばれます。 基準。 決定は確率変数の観測サンプルに基づいて行われるため、適切な統計量 (この場合は検定統計量と呼ばれます) を選択する必要があります。 単純なパラメトリック仮説をテストする場合: パラメーターの推定と同じ統計が基準統計として選択されます。

統計的仮説検定は、確率の低い事象は不可能であると考えられ、確率が高い事象は信頼できると考えられるという原則に基づいています。 この原理は次のように実装できます。 サンプルを分析する前に、と呼ばれる特定の小さな確率が固定されます。 重要性のレベル。 を統計値のセットとし、仮説が真である場合、基準統計量が に該当する確率が に等しいようなサブセット、つまり を とします。 .

観測値のサンプルから計算された統計のサンプル値で表します。 この基準は次のように定式化されます。 の場合は仮説を棄却します。 の場合は仮説を受け入れます。 事前に決定された有意水準の使用に基づく基準は、と呼ばれます。 重要性の基準。 仮説を棄却する決定が下される基準統計のすべての値のセットは、と呼ばれます クリティカルエリア; その地域はと呼ばれます 採用地域仮説。

有意水準によってクリティカル領域のサイズが決まります。 一連の統計値における臨界領域の位置は、対立仮説の定式化によって異なります。 たとえば、仮説がテストされ、対立仮説が () として定式化される場合、臨界領域は統計分布の右側 (左側) の「尾部」に位置します。つまり、次の不等式の形式になります。 ()、ここで、 と は、仮説が正しい場合に、それに応じた確率で受け入れられる統計値です。 この場合、基準は次のように呼ばれます。 一方的な、それぞれ右利きと左利き。 対立仮説が次のように定式化される場合、臨界領域は分布の両方の「裾」に位置します。つまり、一連の不等式と によって決定されます。 この場合、基準は次のように呼ばれます 双方向.

図では、 図 30 は、さまざまな対立仮説のクリティカル領域の位置を示しています。 これは、仮説が正しい場合の基準統計の分布密度であり、仮説が受け入れられる領域です。 .

したがって、有意性検定を使用したパラメトリック統計仮説の検定は、次の段階に分けることができます。

1) 検証可能な仮説 () と対立仮説 () を定式化します。

2) 有意水準を割り当てる。 観察結果と一致しない。 の場合、仮説を受け入れます。つまり、仮説が観察結果と矛盾しないと仮定します。

通常、ステップ 4 ~ 7 を実行するときは、正規分布の統計、スチューデント統計、フィッシャー統計など、分位数が表にまとめられた統計が使用されます。

例 3。 車のエンジンのパスポートデータによると、燃料消費量は 100kmマイレージは 10リットル。 エンジンの設計変更により、燃料消費量の低減が見込まれます。 検証するためにテストが行​​われます 25 アップグレードされたエンジンを搭載したランダムに選択された車、および各車ごとの平均燃料消費量のサンプル 100kmテスト結果による走行距離は 9.3リットル。 燃料消費量のサンプルは、平均と分散を持つ正規分布した母集団から抽出されると仮定します。 初期統計の臨界領域仮説が真である、つまり有意水準と等しいと仮定します。 このようなクリティカル領域を含む基準について、1 番目と 2 番目のタイプのエラーの確率を求めます。 は正規分布であり、数学的期待値は に等しく、分散は に等しい。 式 (11.2) を使用して、2 番目のタイプのエラーの確率を求めます。

したがって、一般に認められた基準によれば、燃料消費量が 13.6% の自動車は、 9リットルの上 100km走行距離は燃費のある車両として分類されます 10リットル.

4. 理論的および経験的な頻度。 同意基準。

経験的頻度- 経験(観察)の結果として得られる周波数。 理論上の周波数式を使用して計算されます。 正規分布の法則については、次のように求めることができます。

, (11.3)

数学の実践的なレッスンの自己準備用

トピック: サンプルの統計分布、離散および間隔変動シリーズ。 分布パラメータの点と区間の推定。 測定誤差とその推定値。

トピックの関連性:専門分野を勉強する過程とさらなる専門的活動の両方で遭遇する物理的、化学的、生物学的およびその他の性質の問題を解決する手段としての数理統計の基本的な概念と方法に精通する

レッスンの目的: 離散および連続確率変数の統計系列を構築し、一般パラメータの点推定値を計算し、直接および間接測定の誤差を計算する方法を学びます。

トピック学習計画

1. 数理統計の基本的な問題。

2. 一般母集団とサンプル母集団。

3. 離散変化系列とそのグラフィック表現。

4. 間隔変動シリーズとそのグラフ表示。 統計的推定の種類。

5. 統計的評価の要件。

6. 一般平均とサンプル平均の概念。

7. 一般分散、標本分散、修正分散の概念。

8. 一般偏差、標本偏差、補正標準偏差の概念。

基本的な文献:

1. モロゾフ、Yu.V. 高等数学と統計の基礎: 教科書。 医学生向け そして薬剤師。 大学と学部/Yu.V. モロゾフ。-

M.:医学、2004.-232 p.

2. 高等数学と数理統計の基礎: 教科書。 医学生向け そして薬剤師。 大学/IV パヴルシコフ、L.V.ロゾフスキー、A.E.カプルツェビッチ、その他 - 第 2 版、改訂 - M.: GOETAR -

メディア、2006.-423 p.

さらに読む:

高等数学の実践的な授業のための方法論的な推奨事項 [電子リソース]:教育方法。 大学向けマニュアル/著者構成。 :T.A.ノビッチコワ。 GOU VPO「クルスク州立医科大学」部門。 物理学、コンピュータ サイエンス、数学。-クルスク: KSMU、2009 年。

グムルマン V.E. 理論と数学的統計。 M.「高等学校」編。 2004 年 5 月

自制心に関する質問:

1) 統計系列の定義。

2) 人口の定義。

3) サンプル母集団の定義。

4) サンプルの代表性。

5) サンプルの種類。

6) バリアントとは何と呼ばれますか?

7) ランキングの決定。

8) 周波数、相対周波数、累積周波数の決定。

9) 区間変動系列を構築するためのアルゴリズム。

10) ポリゴンの定義、累積 (離散変化系列)。

11) ヒストグラムの定義、累積 (間隔変動シリーズ)、統計的評価の決定。

12) 統計的評価の要件は何ですか?

13) どの統計的推定値が偏りがあると呼ばれますか?または不偏と呼ばれますか?

14) グループ化されたデータとグループ化されていないデータの一般平均とサンプル平均を計算する式。

15) グループ化されたデータとグループ化されていないデータの母集団と標本の分散を計算する式。

16) 一般平均に対するサンプル平均の推定値はどれくらいですか?

17) 一般分散に対する標本分散の推定値はどれですか?

18) 補正標準偏差を計算する式。

19) どのような測定を直接と呼びますか?

20) X 値の真の絶対誤差とは何を意味しますか?

21) X の真の値は何とみなされますか?

22) X の真の値の点推定値は何ですか?

23) X の分散の推定値はいくらですか?

25) X の真の値の信頼区間の限界を見つけるにはどうすればよいでしょうか?

26) どのような測定値が間接的と呼ばれますか?

27) y = f(x1, x2, ..., xn) の場合、平均値 y の二乗平均平方根誤差を計算するにはどのような式が使用されますか?

28) 式は何ですか 絶対誤差 y:はい?

29) 相対誤差 y を見つける方法:ε y ?

自習課題:

1. テトラサイクリンの活性についての個別の試験の結果、次の値が得られました(1 mgあたりの作用単位):925、940、760、905、995、965、940、925、940 、905. 配布シリーズをコンパイルします。 ポリゴンを構築し、累積します。

2. 標本分布に従って相対度数のヒストグラムを作成します: 11、15、16、18、15.5、19、20.1、20.9、23、24.5、23、21、23.9、24.6、25.5、26、29、28.6、30.1、 32.

3. 指定された標本分布から補正された標準偏差を求めます。

行動のガイドライン:

1. トピックに関する基本概念を学習する

2. 自制のための質問に答える

3. トピックに関する問題解決の例に取り組む

4. 自制のためのタスクを完了する

5. トピックに関するテストを解く

このトピックを学習した後、学生は次のことを理解する必要があります。 バリエーションシリーズの概念、その種類とそのグラフィック表現、

統計的評価の概念、その種類、評価の要件、一般平均とサンプル平均、一般分散とサンプル分散の概念。 離散および連続確率変数の統計系列を構築し、一般パラメータの点推定値を計算し、直接および間接測定の誤差を計算することができる。

簡単な理論

数学的統計学観察または実験の結果として得られる統計情報を収集、グループ化、および分析する方法に特化した応用数学の一分野です。

ここから数学的統計の問題をたどります。

統計データの選択方法。

統計データをグループ化する方法。

データ分析方法:

既知の分布のパラメータの推定。

未知の分布関数の推定。

ある確率変数の他の確率変数への依存性の評価。

統計的仮説の検証。

観測数を決定する方法 (実験計画)。

意思決定。

数学的統計、確率変数の研究が関連しています

特定の値を取る一連の独立した実験を実行することによって。

統計上の母集団– 何らかの定性的または定量的特性に関して均質なオブジェクトのセット。

たとえば、一連の医薬品の錠剤がある場合、錠剤の標準性は定性的な兆候として機能し、錠剤の管理された重量は定量的な兆候として機能します。

人口– それに帰属することができるすべてのオブジェクトで構成されるセット。

理論的にはそうかもしれません。 無限に大きい、または無限に近いコレクション。

たとえば、世界中のリウマチ患者はすべて一般集団です。 実際には、これは特定の範囲 (都市、地域) 内にあります。

母集団内のオブジェクトの数はその体積と呼ばれ、N で表されます。

サンプル母集団– 一般集団からランダムに選択されたオブジェクトのセット。

サンプル内のオブジェクトの数はその体積と呼ばれ、n で示されます。

サンプルの特性が母集団の特性を十分に反映するには、サンプルは以下の条件を満たす必要があります。 代表者(代表者).

この要件により、サンプル内の要素の選択がランダムであることが保証されます。 どのオブジェクトもサンプルに含まれる可能性は同等です。

一般母集団からオブジェクトを選択する手法に応じて、サンプルは次のように分割されます。

繰り返し

繰り返しのない

(選択したオブジェクトが返されます)

(選択したオブジェクトは返されません)

一般の方へ)

一般の方へ)

実際には、非反復サンプリングが使用されます。

一般母集団の体積 N が大きく、サンプルの相対体積 n/N が小さい場合、選択手法に応じて両方のサンプルを説明する式の違いは小さくなります。

離散級数分布

特性の観測値はバリアントと呼ばれます。 ランキング - 昇順の並べ替えオプション、または

降順

バリエーションシリーズランク付けされた一連のオプションとそれに対応する頻度と呼ばれます。

統計的サンプル分布オプションのリストとそれらに対応する頻度または相対頻度を呼び出します。

サイズ n のサンプルが一般母集団から抽出されたとします。 調査対象の特徴量 x1 の定量値が m1 回出現、x2 – m 2

回、…、x k – m k 回。

また、∑ m i = n

i =1

数値 mi は頻度と呼ばれ、サンプル サイズ n に対するそれらの比は相対頻度 pi = mi /n と呼ばれます。 また、Σpi=1である。

定量的特性が離散的である場合、その値と対応する頻度または相対頻度が表の形式で表示されます。

円周率 = ミ/n

パイ * =

m1/n

(m1 +m2 )/n

ミ*/ン

変動系列を研究する場合、周波数の概念とともに、累積周波数 (mi *) が使用されます。 累積頻度は、x 未満の特徴値を持つバリアントがいくつ観察されたかを示します。

累積頻度 mi * と観測値の総数 n の比は、相対頻度 pi * = mi * /n と呼ばれます。

離散統計系列のグラフィック表現 – 周波数(相対)の多角形。

多角形は離散変化系列を表すものであり、相対度数多角形の場合は直線の端が座標(xi,mi)または(xi,pi)となる折れ線である。

間隔統計系列。

万一に備えて 大量バリアント (n>50) と特性の連続分布 統計分布符号は、一連の間隔とそれに対応する周波数として指定できます。

等間隔の行がよく使用されます。

適切なクラス間隔幅を選択する必要があります。 間隔の数は、サンプルの範囲とその量によって異なります。

ヒストグラムを構築するためのアルゴリズム。

1. サンプル X = (x 1, x 2, ..., x n) があるとします。 n – その体積

サンプル範囲 D = x 最大 – x 最小

2. クラス数

K = 1 + 3.32 × log n (n のスタージェスの公式)< 100 )

K = 5 × log n (n > 100 のブルックス式)

3. クラス間隔の値 D x = D / K

4. 部分区間の境界と中点

x1l = xmin – D x / 2

x1pr = x2l = xmin + D x / 2

x 1 = x 分

x 2 = x 1 + D x

5. 区間に該当する頻度:

変化系列とは、底辺が属性値 xi =xi+1 -xi, i=1,2,…,k の間隔に等しく、高さが周波数 (相対周波数) mi (pi) に等しい、長方形の階段状の図形です。 ) の間隔。

長方形の上底の中点を直線で結ぶと、同じ分布の多角形が得られます。

経験的分布関数ランダムな分布のアイデアを得る

分布法則が不明な値 X は、経験的な分布関数を構築します。

経験的分布関数 (サンプル分布関数) は関数 F* (x) であり、各値 x についてイベント X の相対頻度を決定します。

ここで、m* は、属性 X の値が x 未満であることが観測された観測の数です。

人口分布関数は理論関数と呼ばれます。

経験的関数と理論的関数の違いは、理論的関数がイベント X の確率を決定することです。<х, а эмпирическая – относительную частоту данного события.

統計的評価の概念。

一般集団の量的特徴を研究することが必要です。 人口の分布法則がわかっているとします。 この法則はいくつかのパラメータによって決まります。 サンプル データは、未知の母集団パラメーターを推定するために使用されます。

統計的評価母集団分布の未知のパラメーターは、観測された確率変数の関数と呼ばれます。

次のように示しましょう:

θ – 未知のパラメータ。 θ* – 未知のパラメータの統計的評価。 θ* = f (x 1, x 2, …, x n)

θ* の統計的推定値は次のとおりです。 確率変数したがって、分散と標準偏差、および代表性の誤差 (一般的な指標からのサンプル指標の偏差) が存在します。

統計的推定値には、点推定値と区間推定値の 2 種類があります。

サンプルデータに依存する単一の数値による推定値は、点推定値と呼ばれます。

区間の終わりとなる 2 つの数値による推定値は区間と呼ばれます。

点の統計的推定の要件。

評価の質は、1 つの特定のサンプルによって決まるのではなく、

考えられる特定のサンプルのセット全体、つまり セット全体にわたって

未知のパラメータ θ の点推定 θ i * 。

統計的推定値が適切であるためには

推定パラメータの近似値は、次の条件を満たす必要があります。

次の要件:

偏りのない(系統的な誤差がない)

任意のサンプルサイズ M(θ *) = θ);

効率(考えられるすべての推定値の中で、有効な

推定値の分散は最小になります (min D(θ *) )。

(追跡

確率

推定パラメータは n → ∞、つまり θ * ¾¾ ¾ ® θ );

n → ∞

一般的な

ポイント推定

プロパティ

パラメータ

ポイント推定

M(X) = xr =

シフト不可

x in = ∑ x i

= ∑ m i x i サンプル

効率的

∑x i

i=1

i=1

裕福な

N i = 1

漸近的に

−×

−×

公平、つまり

М(Dв) ¹ σг 2、しかし

n i = 1

n i = 1

D(X) = σ g =

標本分散

) = σ

− x i )

n → ∞

N i = 1

S 2 =

D修正

n - 1

シフト不可

分散

δ in =

置換可能

(標準)

σ g =

σ g 2

修正されました

二乗平均平方根

公平な

偏差

が確率変数である場合、分散が存在します –

xv

サンプル平均分散:

× n × S 2 =

) = D(

∑ xi ) =

D(∑ xi ) =

∑ D(xi ) =

∑(xi−

n(n − 1) i =1

評価の正確性、信頼性

間隔の推定 2 つの数値 (区間の終わり) によって決定される推定値と呼ばれます。

間隔推定により、点推定の精度と信頼性を確立できます。

q * を、確率変数である未知のパラメーター q の点推定値とします。

1/2q - q * 1/2 が小さいほど、q * はパラメータ q をより正確に決定します。

δ > 0 かつ 1/2q - q * 1/2 の場合< δ , то чем меньше δ , тем точнее оценка. Число

δはと呼ばれます 評価精度.

偶然の力 q * 不等式 1/2q - q * 1/2 の確率についてのみ話せます。< e .

推定値 q の信頼度 (信頼確率) * 確率と呼ばれる g 、不平等が実現されます 1/2q - q * 1/2< δ .

通常、g = 0.95; 0.99; 0.999…P(|Θ-Θ*|< δ)=γ

信頼確率 g は、信頼区間がパラメーター q をカバーするという信頼の程度を特徴付けると言われることがあります。

P (q * - e< q < q * + e} = g означает, что вероятность того, что интервал (q * - e ; q * + e ) заключает в себе неизвестный параметр q , равна g :

未知のパラメータが区間 1/2q - q * 1/2 内に収まらない確率< e , равна 1 - g = a (уровень значимости).

有意水準 (リスク) は、理論的特性からの経験的特性の偏差係数が最大誤差 P(|Θ-Θ*|) を超える確率です。< ∆)=γ , предельная ошибка – максимально допустимая |Θ-Θ*|< ∆

学生の分布

X ~ N(μ,σ) とすると、分布パラメータは不明です。

− μ における量 T = x の分布を考えてみましょう。

f=n-1 の自由度を持つ値 T の分布は、t 分布またはスチューデント分布と呼ばれます。

確率密度関数 φ(t) は自由度の数に依存し、確率変数の分散には依存しません。

自由度の数が増加すると、この量の分布は正規に近づきます。

未知の分散に対する数学的期待の区間推定値は区間です。

(x - tγ (f) × Sx、x + tγ (f) × Sx)

既知の数学的期待値の区間推定

分散は間隔です

(x - uα × Sx; x + uα × Sx)

Ф (u α ) = 1− α はラプラス関数です。

問題解決の例

1) それを統計的離散系列の形式で提示し、度数、相対度数、累積曲線 (累積度数曲線) の多角形を構築します: 6.7; 6.8; 7; 6.5; 7.3; 7; 7.2; 6.9; 7.1; 6.8; 7.1; 6.8; 7.1; 7.2; 6.8; 6.9;

7; 6,7; 6,6; 6,3; 7,5; 6,9.

解決。 mi – 周波数、p – 相対周波数、pi * – 累積相対周波数

ピ*

周波数ポリゴン

この章を学習した後、学生は次のようになります。 知る、サンプルは一般集団の経験的な類似物と考えることができること、サンプルデータの助けを借りて一般集団の特性を判断し、その特性、統計的推定値の分布の基本法則を評価できること、 できるモーメントと最尤法を使用して母集団パラメータの点と区間の推定値を生成します。 自分の得られた推定値の精度と信頼性を判断する方法。

統計的推定の種類

一般母集団のパラメータについて私たちが知っていることは、それらが客観的に存在するということですが、一般母集団は無限であるか、または過度に大きいという事実により、それらを直接決定することは不可能です。 したがって、問題はこれらの特性を評価することだけである可能性があります。

一般集団から抽出されたサンプルについては、代表性の条件に従って、一般集団の特性に類似した特性を決定することが可能であることが以前に確立されました。

cjp 定義 8.1.サンプルから求められた分布パラメータの近似値をパラメータ推定値と呼びます。

確率変数 (一般母集団) の推定パラメーターを 0 として表し、サンプルを使用して得られたその推定値を 0 として表します。

どのサンプルもランダムであるため、スコア 0 は確率変数です。 異なるサンプルから得られる推定値はそれぞれ異なります。 したがって、サンプルに応じて 0 を関数とみなします: 0 = 0(X in)。

シュシュR 意味 8.2. 統計的評価は次のように呼ばれます。 裕福な、確率的に推定パラメータに傾向がある場合:

この等式は、サンプル サイズが無限に増加するにつれて、イベント 0=0 の信頼性が高まることを意味します。

例としては、あるイベントの相対頻度が挙げられます。 あ、これは、ポアソンの定理に従った、この事象の確率の一貫した推定値です (式 (6.1)、パート 1 を参照)。

定義8.3.統計的推定は、同じサンプルサイズで分散が最小である場合に効率的であると言われます。

評価を検討する 数学的期待 確率変数 X.そのような見積もりとして私たちが選択するのは X.確率変数の数学的期待値を求めてみましょう X.

まず重要な点を述べておきます。すべての確率変数が ×、同じ母集団から抽出される ×、つまり、次の分布と同じ分布になります。 ×、書くことができます:

さあ、見つけてみましょう M(Xインチ):


したがって、サンプル平均は、確率変数の数学的期待値の統計的推定値です。 この推定値は、チェビシェフの定理の当然の帰結に従って、確率的に数学的期待値 (6.3) に収束するため、一貫しています。

検討中のケースでは、選択した推定値 (確率変数) の数学的期待値が推定パラメータ自体に等しいことが確認されました。 この特性を持つ推定値は、数学的統計において特別な位置を占め、不偏推定値と呼ばれます。

定義8.4。数学的期待値が推定パラメータと等しい場合、統計的推定値 © は不偏であると呼ばれます。

この要件が満たされていない場合、推定にはバイアスがかかっていると呼ばれます。

したがって、サンプル平均は期待値の不偏推定値です。

標本分散バイアスを分析してみましょう D、一般分散の推定値として選択された場合 DX。これを行うには、条件 (8.2) が満たされているかどうかを確認してみましょう?):


結果として得られる 2 つの項をそれぞれ変換してみましょう。

ここでは等式が使用されました M(X.) = M(X 2)、(8.1) と同じ理由で妥当です。

では第二期を見てみましょう。 二乗和の公式を使用する n私たちが得た条件


再び等式 (8.1) と、X と X が独立した確率変数であるという事実を考慮して、次のように書きます。

そして最終的には次のようになります:

得られた結果を(8.3)に代入してみましょう。

変換後に得られるのは、

したがって、標本の分散は次のように結論付けることができます。 追い出された一般的な分散の推定。

得られた結果を考慮して、不偏条件 (8.2) を満たす一般分散の推定値を構築するタスクを設定します。 これを行うには、確率変数を考慮します。

この量については、条件 (8.2) が満たされていることは簡単にわかります。

標本分散と補正標本分散の差は、標本サイズが大きくなると重要でなくなることに注意してください。

確率変数の特性の推定値を選択するときは、その精度を知ることが重要です。 場合によっては、高い精度が必要な場合もあれば、大まかな推定で十分な場合もあります。 たとえば、乗り継ぎ便を計画する場合、乗り継ぎ地点への到着予定時刻をできるだけ正確に知ることが重要です。 別の状況、たとえば、家にいて注文した商品を持って宅配業者を待っている場合、到着時刻の高い精度は私たちにとって重要ではありません。 どちらの場合も、確率変数は到着時間であり、注目する確率変数の特性は平均移動時間です。

評価には2種類あります。 最初のケースでは、タスクはパラメータの特定の数値を取得することです。 別のケースでは、関心のあるパラメータが所定の確率で該当する区間が決定されます。