Intervale de încredere pentru așteptări matematice, varianță, probabilitate. Rezolvarea problemelor

Fie CB X o populație generală și fie β parametrul necunoscut CB X. Dacă estimarea statistică în * este consecventă, atunci cu cât dimensiunea eșantionului este mai mare, cu atât obținem mai precis valoarea lui β. Cu toate acestea, în practică, nu avem mostre foarte mari, așa că nu putem garanta o precizie mai mare.

Fie b* o estimare statistică pentru c. Valoarea |in* - in| se numește precizie de estimare. Este clar că acuratețea este CB, deoarece β* este o variabilă aleatorie. Să specificăm un mic număr pozitiv 8 și să cerem ca acuratețea estimării |в* - в| a fost mai mică de 8, adică | în* - în |< 8.

Fiabilitatea g or probabilitatea de încredere estimează în cu în * este probabilitatea g cu care inegalitatea |în * - în|< 8, т. е.

De obicei, fiabilitatea g este specificată în avans, iar g este considerat un număr apropiat de 1 (0,9; 0,95; 0,99; ...).

Deoarece inegalitatea |în * - în|< S равносильно двойному неравенству в* - S < в < в* + 8, то получаем:

Intervalul (în * - 8, în * + 5) se numește interval de încredere, adică. interval de încredere acoperă parametrul necunoscut în cu probabilitatea y. Rețineți că capetele intervalului de încredere sunt aleatorii și variază de la un eșantion la altul, deci este mai corect să spunem că intervalul (în * - 8, în * + 8) acoperă parametrul necunoscut în, mai degrabă decât în ​​aparține acestui interval.

Lasă populatie este dat de o variabilă aleatoare X, distribuită după o lege normală, iar abaterea standard a este cunoscută. Necunoscuta este așteptarea matematică a = M (X). Este necesar să se găsească intervalul de încredere pentru a pentru o anumită fiabilitate y.

Eșantion mediu

este evaluare statistică pentru xg = a.

Teorema. Variabila aleatoare xB are distributie normala, dacă X are o distribuție normală și M (XB) = a,

A (XB) = a, unde a = y/B (X), a = M (X). l/i

Intervalul de încredere pentru a are forma:

Găsim 8.

Folosind raportul

unde Ф(r) este funcția Laplace, avem:

P ( | XB - a |<8} = 2Ф

În tabelul de valori ale funcției Laplace găsim valoarea lui t.

După ce a desemnat

T, obținem F(t) = g Deoarece g este dat, atunci de

Din egalitate aflăm că estimarea este corectă.

Aceasta înseamnă că intervalul de încredere pentru a are forma:

Având în vedere un eșantion din populația X

ng La" X2 Xm
n. n1 n2 nm

n = U1 + ... + nm, atunci intervalul de încredere va fi:

Exemplul 6.35. Aflați intervalul de încredere pentru estimarea așteptării matematice a a distribuției normale cu o fiabilitate de 0,95, cunoscând media eșantionului Xb = 10,43, dimensiunea eșantionului n = 100 și abaterea standard s = 5.

Să folosim formula

Interval de încredere pentru așteptările matematice - acesta este un interval calculat din date care, cu o probabilitate cunoscuta, contine asteptarea matematica a populatiei generale. O estimare naturală a așteptărilor matematice este media aritmetică a valorilor observate. Prin urmare, pe parcursul lecției vom folosi termenii „medie” și „valoare medie”. În problemele de calculare a unui interval de încredere, un răspuns solicitat cel mai adesea este ceva de genul „Intervalul de încredere al mediei [valoarea unei anumite probleme] este de la [valoarea mai mică] la [valoarea mai mare]”. Folosind un interval de încredere, puteți evalua nu numai valorile medii, ci și ponderea specifică a unei anumite caracteristici a populației generale. Valorile medii, dispersia, abaterea standard și eroarea, prin care vom ajunge la noi definiții și formule, sunt discutate în lecție Caracteristicile eșantionului și populației .

Estimări punctuale și pe intervale ale mediei

Dacă valoarea medie a populației este estimată printr-un număr (punct), atunci o medie specifică, care este calculată dintr-un eșantion de observații, este luată ca o estimare a valorii medii necunoscute a populației. În acest caz, valoarea mediei eșantionului - o variabilă aleatorie - nu coincide cu valoarea medie a populației generale. Prin urmare, atunci când indicați media eșantionului, trebuie să indicați simultan eroarea de eșantionare. Măsura erorii de eșantionare este eroarea standard, care este exprimată în aceleași unități ca și media. Prin urmare, se folosește adesea următoarea notație: .

Dacă estimarea mediei trebuie să fie asociată cu o anumită probabilitate, atunci parametrul de interes în populație trebuie evaluat nu printr-un număr, ci printr-un interval. Un interval de încredere este un interval în care, cu o anumită probabilitate P se constată valoarea indicatorului populaţiei estimate. Interval de încredere în care este probabil P = 1 - α se găsește variabila aleatoare, calculată după cum urmează:

,

α = 1 - P, care poate fi găsit în anexa la aproape orice carte de statistică.

În practică, media și varianța populației nu sunt cunoscute, astfel încât varianța populației este înlocuită cu varianța eșantionului, iar media populației cu media eșantionului. Astfel, intervalul de încredere în majoritatea cazurilor se calculează după cum urmează:

.

Formula intervalului de încredere poate fi utilizată pentru a estima media populației dacă

  • se cunoaște abaterea standard a populației;
  • sau abaterea standard a populației este necunoscută, dar dimensiunea eșantionului este mai mare de 30.

Media eșantionului este o estimare imparțială a mediei populației. La rândul său, varianța eșantionului nu este o estimare imparțială a varianței populației. Pentru a obține o estimare imparțială a varianței populației în formula variației eșantionului, dimensiunea eșantionului n ar trebui înlocuit cu n-1.

Exemplul 1. S-au colectat informații din 100 de cafenele selectate aleatoriu dintr-un anumit oraș că numărul mediu de angajați din acestea este de 10,5 cu o abatere standard de 4,6. Determinați intervalul de încredere de 95% pentru numărul de angajați ai cafenelei.

unde este valoarea critică a distribuției normale standard pentru nivelul de semnificație α = 0,05 .

Astfel, intervalul de încredere de 95% pentru numărul mediu de angajați ai cafenelei a variat între 9,6 și 11,4.

Exemplul 2. Pentru un eșantion aleatoriu din populația de 64 de observații, au fost calculate următoarele valori totale:

suma valorilor din observații,

suma abaterilor pătrate ale valorilor de la medie .

Calculați intervalul de încredere de 95% pentru așteptările matematice.

Să calculăm abaterea standard:

,

Să calculăm valoarea medie:

.

Inlocuim valorile in expresia pentru intervalul de incredere:

unde este valoarea critică a distribuției normale standard pentru nivelul de semnificație α = 0,05 .

Primim:

Astfel, intervalul de încredere de 95% pentru așteptarea matematică a acestui eșantion a variat între 7,484 și 11,266.

Exemplul 3. Pentru un eșantion de populație aleatoriu de 100 de observații, media calculată este 15,2 și abaterea standard este 3,2. Calculați intervalul de încredere de 95% pentru valoarea așteptată, apoi intervalul de încredere de 99%. Dacă puterea eșantionului și variația acesteia rămân neschimbate și coeficientul de încredere crește, intervalul de încredere se va îngusta sau se va lărgi?

Inlocuim aceste valori in expresia pentru intervalul de incredere:

unde este valoarea critică a distribuției normale standard pentru nivelul de semnificație α = 0,05 .

Primim:

.

Astfel, intervalul de încredere de 95% pentru media acestui eșantion a variat între 14,57 și 15,82.

Substituim din nou aceste valori în expresia pentru intervalul de încredere:

unde este valoarea critică a distribuției normale standard pentru nivelul de semnificație α = 0,01 .

Primim:

.

Astfel, intervalul de încredere de 99% pentru media acestui eșantion a variat între 14,37 și 16,02.

După cum vedem, pe măsură ce coeficientul de încredere crește, crește și valoarea critică a distribuției normale standard și, în consecință, punctele de început și de sfârșit ale intervalului sunt situate mai departe de medie și astfel intervalul de încredere pentru așteptarea matematică crește. .

Estimări punctiforme și pe intervale ale greutății specifice

Ponderea unui atribut al eșantionului poate fi interpretată ca o estimare punctuală a cotei p de aceeaşi caracteristică în populaţia generală. Dacă această valoare trebuie să fie asociată cu probabilitatea, atunci intervalul de încredere al greutății specifice trebuie calculat p caracteristică în populaţie cu probabilitate P = 1 - α :

.

Exemplul 4.Într-un oraș sunt doi candidați OŞi B candideaza la functia de primar. 200 de locuitori ai orașului au fost chestionați aleatoriu, dintre care 46% au răspuns că vor vota pentru candidat O, 26% - pentru candidat B iar 28% nu știu pe cine vor vota. Determinați intervalul de încredere de 95% pentru proporția de locuitori ai orașului care susțin candidatul O.

Adesea, evaluatorul trebuie să analizeze piața imobiliară a segmentului în care se află proprietatea evaluată. Dacă piața este dezvoltată, poate fi dificil să se analizeze întregul set de obiecte prezentate, așa că pentru analiză se folosește un eșantion de obiecte. Acest eșantion nu se dovedește întotdeauna a fi omogen, uneori este necesar să îl curățați de punctele extreme - oferte de piață prea mari sau prea scăzute. În acest scop este folosit interval de încredere. Scopul acestui studiu este de a efectua o analiză comparativă a două metode de calculare a intervalului de încredere și de a selecta opțiunea optimă de calcul atunci când se lucrează cu diferite eșantioane în sistemul estimatica.pro.

Intervalul de încredere este un interval de valori ale atributelor calculate pe baza unui eșantion, care, cu o probabilitate cunoscută, conține parametrul estimat al populației generale.

Scopul calculării unui interval de încredere este de a construi un astfel de interval pe baza datelor eșantionului, astfel încât să se poată afirma cu o probabilitate dată că valoarea parametrului estimat se află în acest interval. Cu alte cuvinte, intervalul de încredere conține valoarea necunoscută a valorii estimate cu o anumită probabilitate. Cu cât intervalul este mai larg, cu atât este mai mare inexactitatea.

Există diferite metode pentru a determina intervalul de încredere. În acest articol ne vom uita la 2 metode:

  • prin abaterea mediană și standard;
  • prin valoarea critică a t-statisticilor (coeficientul Student).

Etapele analizei comparative a diferitelor metode de calcul al CI:

1. formați un eșantion de date;

2. o procesăm folosind metode statistice: calculăm valoarea medie, mediana, varianța etc.;

3. calculați intervalul de încredere în două moduri;

4. analizați probele curățate și intervalele de încredere rezultate.

Etapa 1. Eșantionarea datelor

Eșantionul a fost format folosind sistemul estimatica.pro. Eșantionul a inclus 91 de oferte pentru vânzarea de apartamente cu 1 cameră în zona a 3-a de preț cu aspectul de tip „Hrușciov”.

Tabelul 1. Proba inițială

Pret 1 mp, unitate

Fig.1. Proba inițială



Etapa 2. Prelucrarea probei inițiale

Procesarea unui eșantion folosind metode statistice necesită calcularea următoarelor valori:

1. Media aritmetică

2. Mediana este un număr care caracterizează eșantionul: exact jumătate dintre elementele eșantionului sunt mai mari decât mediana, cealaltă jumătate sunt mai mici decât mediana

(pentru un eșantion cu un număr impar de valori)

3. Interval - diferența dintre valorile maxime și minime din eșantion

4. Varianta - folosită pentru a estima mai precis variația datelor

5. Abaterea standard eșantion (în continuare - SD) este cel mai frecvent indicator al dispersării valorilor de ajustare în jurul mediei aritmetice.

6. Coeficient de variație – reflectă gradul de împrăștiere a valorilor de ajustare

7. coeficient de oscilație - reflectă fluctuația relativă a valorilor extreme ale prețurilor din eșantion în jurul valorii medii

Tabelul 2. Indicatori statistici ai eșantionului inițial

Coeficientul de variație, care caracterizează omogenitatea datelor, este de 12,29%, dar coeficientul de oscilație este prea mare. Astfel, putem spune că eșantionul original nu este omogen, așa că să trecem la calcularea intervalului de încredere.

Etapa 3. Calculul intervalului de încredere

Metoda 1. Calcul folosind mediana și abaterea standard.

Intervalul de încredere se determină astfel: valoare minimă - abaterea standard se scade din mediană; valoarea maximă - abaterea standard se adaugă la mediană.

Astfel, intervalul de încredere (47179 CU; 60689 CU)

Orez. 2. Valori care se încadrează în intervalul de încredere 1.



Metoda 2. Construirea unui interval de încredere folosind valoarea critică a statisticilor t (coeficientul studentului)

S.V. Gribovsky în cartea sa „Metode matematice pentru estimarea valorii proprietății” descrie o metodă de calculare a intervalului de încredere prin coeficientul Student. Atunci când calculează folosind această metodă, estimatorul trebuie să stabilească el însuși nivelul de semnificație ∝, care determină probabilitatea cu care va fi construit intervalul de încredere. În mod obișnuit, sunt utilizate niveluri de semnificație de 0,1; 0,05 și 0,01. Ele corespund probabilităților de încredere de 0,9; 0,95 și 0,99. Cu această metodă, se presupune că adevăratele valori ale așteptării și varianței matematice sunt practic necunoscute (ceea ce este aproape întotdeauna adevărat atunci când se rezolvă probleme practice de estimare).

Formula intervalului de încredere:

n - dimensiunea eșantionului;

Valoarea critică a t-statisticilor (distribuția Student) cu un nivel de semnificație ∝, numărul de grade de libertate n-1, care se determină din tabele statistice speciale sau folosind MS Excel (→„Statistică”→ STUDIST);

∝ - nivelul de semnificație, luați ∝=0,01.

Orez. 2. Valori care se încadrează în intervalul de încredere 2.

Etapa 4. Analiza diferitelor metode de calcul a intervalului de încredere

Două metode de calcul a intervalului de încredere - prin mediană și coeficientul Student - au condus la valori diferite ale intervalelor. În consecință, am primit două mostre diferite curățate.

Tabelul 3. Statistici pentru trei eșantioane.

Indicator

Proba inițială

1 opțiune

Opțiunea 2

Valoarea medie

Dispersia

Coef. variatii

Coef. oscilații

Număr de obiecte retrase, buc.

Pe baza calculelor efectuate, putem spune că valorile intervalului de încredere obținute prin diferite metode se intersectează, astfel încât puteți utiliza oricare dintre metodele de calcul la discreția evaluatorului.

Considerăm însă că atunci când lucrăm în sistemul estimatica.pro, este indicat să alegeți o metodă de calcul a intervalului de încredere în funcție de gradul de dezvoltare a pieței:

  • dacă piața este nedezvoltată, utilizați metoda de calcul folosind mediana și abaterea standard, deoarece numărul de obiecte retrase în acest caz este mic;
  • dacă piața este dezvoltată, aplicați calculul prin valoarea critică a t-statisticilor (coeficientul Student), deoarece este posibil să se formeze un eșantion inițial mare.

La pregătirea articolului s-au folosit următoarele:

1. Gribovsky S.V., Sivets S.A., Levykina I.A. Metode matematice de evaluare a valorii proprietatii. Moscova, 2014

2. System data estimatica.pro

Există două tipuri de estimări în statistică: punct și interval. Estimare punctuală este un singur eșantion statistic care este utilizat pentru a estima un parametru de populație. De exemplu, media eșantionului este o estimare punctuală a așteptărilor matematice a populației și a varianței eșantionului S 2- estimarea punctuală a varianței populației σ 2. s-a demonstrat că media eșantionului este o estimare imparțială a așteptărilor matematice a populației. O medie a eșantionului se numește imparțial deoarece media tuturor mediilor eșantionului (cu aceeași dimensiune a eșantionului) n) este egală cu așteptarea matematică a populației generale.

Pentru variația eșantionului S 2 a devenit o estimare imparțială a varianței populației σ 2, numitorul varianței eșantionului trebuie setat egal cu n – 1 , nu n. Cu alte cuvinte, varianța populației este media tuturor variațiilor posibile ale eșantionului.

La estimarea parametrilor populației, ar trebui să se țină cont de faptul că statisticile eșantionului precum , depind de mostre specifice. A ține cont de acest fapt, a obține estimarea intervalului așteptarea matematică a populației generale, analizați distribuția mediilor eșantionului (pentru mai multe detalii, vezi). Intervalul construit este caracterizat de un anumit nivel de încredere, care reprezintă probabilitatea ca parametrul adevărat al populației să fie estimat corect. Intervale similare de încredere pot fi utilizate pentru a estima proporția unei caracteristici rși principala masă distribuită a populației.

Descărcați nota în sau format, exemple în format

Construirea unui interval de încredere pentru așteptarea matematică a populației cu o abatere standard cunoscută

Construirea unui interval de încredere pentru ponderea unei caracteristici în populație

Această secțiune extinde conceptul de interval de încredere la date categorice. Acest lucru ne permite să estimăm ponderea caracteristicii în populație r folosind partajarea eșantionului rS= X/n. După cum este indicat, dacă cantitățile nrŞi n(1 – p) depășește numărul 5, distribuția binomială poate fi aproximată ca normal. Prin urmare, pentru a estima ponderea unei caracteristici în populație r se poate construi un interval al cărui nivel de încredere este egal cu (1 – α)x100%.


Unde pS- proporția de eșantion a caracteristicii egală cu X/n, adică numărul de succese împărțit la dimensiunea eșantionului, r- ponderea caracteristicii în populația generală, Z- valoarea critică a distribuției normale standardizate, n- dimensiunea eșantionului.

Exemplul 3. Sa presupunem ca din sistemul informatic este extras un esantion format din 100 de facturi completate in ultima luna. Să presupunem că 10 dintre aceste facturi au fost întocmite cu erori. Astfel, r= 10/100 = 0,1. Nivelul de încredere de 95% corespunde valorii critice Z = 1,96.

Astfel, probabilitatea ca între 4,12% și 15,88% din facturi să conțină erori este de 95%.

Pentru o anumită dimensiune a eșantionului, intervalul de încredere care conține proporția caracteristicii în populație pare mai larg decât pentru o variabilă aleatoare continuă. Acest lucru se datorează faptului că măsurătorile unei variabile aleatoare continue conțin mai multe informații decât măsurătorile datelor categorice. Cu alte cuvinte, datele categorice care iau doar două valori conțin informații insuficiente pentru a estima parametrii distribuției lor.

ÎNcalcularea estimărilor extrase dintr-o populație finită

Estimarea așteptărilor matematice. Factorul de corecție pentru populația finală ( fpc) a fost folosit pentru a reduce eroarea standard cu un factor. La calcularea intervalelor de încredere pentru estimările parametrilor populației, se aplică un factor de corecție în situațiile în care probele sunt extrase fără a fi returnate. Astfel, un interval de încredere pentru așteptarea matematică având un nivel de încredere egal cu (1 – α)x100%, se calculează prin formula:

Exemplul 4. Pentru a ilustra utilizarea factorului de corecție pentru o populație finită, să revenim la problema calculării intervalului de încredere pentru suma medie a facturilor, discutată mai sus în Exemplul 3. Să presupunem că o companie emite 5.000 de facturi pe lună și = 110,27 dolari, S= 28,95 USD N = 5000, n = 100, α = 0,05, t 99 = 1,9842. Folosind formula (6) obtinem:

Estimarea cotei unei caracteristici. Atunci când alegeți fără returnare, intervalul de încredere pentru proporția atributului având un nivel de încredere egal cu (1 – α)x100%, se calculează prin formula:

Intervale de încredere și probleme etice

Atunci când se eșantionează o populație și se trag concluzii statistice, apar adesea probleme etice. Principalul este modul în care intervalele de încredere și estimările punctuale ale statisticilor eșantionului sunt de acord. Publicarea estimărilor punctuale fără a specifica intervalele de încredere asociate (de obicei la nivelul de încredere de 95%) și dimensiunea eșantionului din care sunt derivate pot crea confuzie. Acest lucru poate da utilizatorului impresia că estimarea punctuală este exact ceea ce are nevoie pentru a prezice proprietățile întregii populații. Astfel, este necesar să înțelegem că în orice cercetare accentul ar trebui să nu fie pe estimările punctuale, ci pe estimările pe intervale. În plus, o atenție deosebită trebuie acordată selecției corecte a dimensiunilor eșantionului.

Cel mai adesea, obiectele manipulării statistice sunt rezultatele anchetelor sociologice ale populației pe anumite probleme politice. În același timp, rezultatele sondajului sunt publicate pe primele pagini ale ziarelor, iar eroarea de eșantionare și metodologia de analiză statistică sunt publicate undeva la mijloc. Pentru a demonstra validitatea estimărilor punctuale obținute este necesar să se indice mărimea eșantionului pe baza căruia au fost obținute, limitele intervalului de încredere și nivelul său de semnificație.

Următoarea notă

Sunt folosite materiale din cartea Levin et al. Statistics for Managers. – M.: Williams, 2004. – p. 448–462

Teorema limitei centrale afirmă că, cu o dimensiune a eșantionului suficient de mare, distribuția eșantionului de medii poate fi aproximată printr-o distribuție normală. Această proprietate nu depinde de tipul de distribuție a populației.

Pentru început, amintiți-vă următoarea definiție:

Să luăm în considerare următoarea situație. Fie că variantele populației au o distribuție normală cu așteptare matematică $a$ și abatere standard $\sigma$. Media eșantionului în acest caz va fi considerată ca o variabilă aleatorie. Când cantitatea $X$ este distribuită în mod normal, media eșantionului va fi, de asemenea, distribuită în mod normal cu parametrii

Să găsim un interval de încredere care acoperă valoarea $a$ cu o fiabilitate de $\gamma $.

Pentru a face acest lucru, avem nevoie de egalitate

Din asta obținem

De aici putem găsi cu ușurință $t$ din tabelul cu valorile funcției $Ф\left(t\right)$ și, în consecință, găsim $\delta $.

Să ne amintim tabelul de valori al funcției $Ф\left(t\right)$:

Figura 1. Tabelul valorilor funcției $Ф\left(t\right).$

Integrală de încredere pentru estimarea așteptărilor matematice pentru o necunoscută $(\mathbf \sigma )$

În acest caz, vom folosi valoarea de variație corectată $S^2$. Înlocuind $\sigma $ cu $S$ în formula de mai sus, obținem:

Exemple de probleme pentru găsirea unui interval de încredere

Exemplul 1

Fie ca cantitatea $X$ să aibă o distribuție normală cu varianță $\sigma =4$. Fie dimensiunea eșantionului $n=64$ și fiabilitatea $\gamma =0,95$. Găsiți intervalul de încredere pentru estimarea așteptărilor matematice ale acestei distribuții.

Trebuie să găsim intervalul ($\overline(x)-\delta ,\overline(x)+\delta)$.

După cum am văzut mai sus

\[\delta =\frac(\sigma t)(\sqrt(n))=\frac(4t)(\sqrt(64))=\frac(\t)(2)\]

Parametrul $t$ poate fi găsit din formulă

\[Ф\left(t\right)=\frac(\gamma )(2)=\frac(0,95)(2)=0,475\]

Din tabelul 1 aflăm că $t=1,96$.





eroare: Continut protejat!!