Eșantionul pătrat mediu explicația erorii standard pentru. Exemple de formule de eroare medie

Conceptul și calculul erorii de eșantionare.

Sarcina observației selective este de a da idei corecte despre indicatorii de sinteză ai întregii populații pe baza unei părți a acestora supuse observării. Se numește posibila abatere a ponderii eșantionului și a mediei eșantionului de la ponderea și media în populația generală Eroare de eșantionare sau eroare de reprezentativitate. Cu cât valoarea acestei erori este mai mare, cu atât indicatorii de observare a eșantionului diferă de cei ai populației generale.

Diferă:

erori de eșantionare;

Erori de înregistrare.

Erori de înregistrare apar atunci când un fapt este incorect stabilit în procesul de observare. Ele sunt caracteristice atât pentru observarea continuă, cât și pentru observația selectivă, dar sunt mai puțin în observația selectivă.

Natura erorii este:

Tendențios - deliberat, i.e. au fost selectate fie cele mai bune, fie cele mai proaste unități ale populației. În acest caz, observațiile își pierd sensul;

Aleatoriu - principalul principiu organizatoric al observației selective este de a preveni selecția deliberată, i.e. asigura respectarea strictă a principiului selecției aleatorii.

Regula generală a selecției aleatorii este: unitățile individuale ale populației generale trebuie să aibă exact aceleași condiții și oportunități de a se încadra în numărul de unități incluse în eșantion. Aceasta caracterizează independența rezultatului eșantionului față de voința observatorului. Voința observatorului generează erori tendențioase. Eroarea de eșantionare în selecția aleatorie este aleatorie. Caracterizează mărimea abaterilor caracteristicilor generale față de cele din eșantion.

Datorită faptului că caracteristicile în populația studiată variază, compoziția unităților din eșantion poate să nu coincidă cu compoziția unităților întregii populații. Înseamnă că R si nu se potrivesc cu WȘi . Posibila discrepanță între aceste caracteristici este determinată de eroarea de eșantionare, care este determinată de formula:

unde este varianța generală.

unde este varianța eșantionului.

Aceasta arată unde varianța generală diferă de varianța eșantionului în timp.

Există selecție repetată și nerepetată. Esența reselectării este că fiecare unitate din eșantion, după observare, revine la populația generală și poate fi reexaminată. La reeșantionare, se calculează eroarea medie de eșantionare:

Pentru indicatorul ponderii unui atribut alternativ, varianța eșantionului este determinată de formula:

În practică, reselecția este rar folosită. Cu selecția nerepetitivă, dimensiunea populației generale N scade în timpul prelevării, formula eroare medie eșantionarea pentru un atribut cantitativ are forma:



, Apoi

Una dintre posibilele valori în care poate fi ponderea trăsăturii studiate este egală cu:

unde este eroarea de eșantionare a caracteristicii alternative.

Exemplu.

Într-un sondaj aleatoriu de 10% din produsele lotului produse terminate conform metodei fără prelevare repetată s-au obținut următoarele date privind conținutul de umiditate din probe.

Determinați procentul mediu de umiditate, varianța, abaterea standard, cu o probabilitate de 0,954, limitele posibile în care se așteaptă media. % umiditate din toate produsele finite, cu o probabilitate de 0,987, limite posibile ale greutății specifice ale produselor standard, cu condiția ca produsele cu un conținut de umiditate de până la 13 și peste 19% să aparțină unui lot nestandard.

Numai cu o anumită probabilitate se poate argumenta că ponderea generală a ponderii eșantionului și media generală a mediei eșantionului se abate în t o singura data.

În statistică, aceste abateri sunt numite erori marginale de eșantionare și sunt marcate.

Probabilitatea judecăților poate fi crescută sau scăzută în t o singura data. Cu o probabilitate de 0,683, cu 0,954, cu 0,987, atunci indicatorii populației generale sunt determinați de indicatorii eșantionului.

Discrepanța dintre valorile indicatorilor obținuți din eșantion și parametrii corespunzători ai populației generale se numește eroare de reprezentativitate. Distingeți între erorile de eșantionare sistematice și aleatorii.

Bug-uri aleatorii se explică prin reprezentarea insuficient uniformă în populaţia eşantion a diverselor categorii de unităţi ale populaţiei generale.

Erori sistematice poate fi asociată cu o încălcare a regulilor de selecție sau a condițiilor de implementare a eșantionului.

Astfel, la sondajul bugetelor gospodăriilor, cadrul de eșantionare a fost construit de mai bine de 40 de ani pe baza principiului selecției teritorial-sectoriale, care s-a datorat scopului principal al anchetei bugetare - de a caracteriza nivelul de trai al lucrătorilor, angajaților. și fermierii colectivi. Eșantionul a fost distribuit pe regiuni și sectoare ale economiei RSFSR proporțional cu numărul total de salariați; pentru a crea un eșantion de industrie, a fost folosit un eșantion tipic cu o selecție mecanică de unități în cadrul grupurilor.

Principalul criteriu de selecție a fost salariul mediu lunar. Principiul selecției a asigurat reprezentarea proporțională în setul eșantion de lucrători cu diferite niveluri de salarizare.

Odată cu apariția noului grupuri sociale(antreprenori, fermieri, șomeri), reprezentativitatea eșantionului a fost încălcată nu numai din cauza diferențelor cu structura populației generale, ci și din cauza unei erori sistematice apărute din cauza unei nepotriviri între unitatea de eșantionare (angajat) și unitate de observare (gospodărie). O gospodărie cu mai mult de un membru al familiei care lucrează a fost, de asemenea, mai probabil să fie selectată decât o gospodărie cu un singur lucrător. Familiile fără un loc de muncă în sectoarele chestionate au căzut în afara gamei unităților selectate (gospodării de pensionari, gospodării care există în detrimentul persoanelor fizice). activitatea muncii, și așa mai departe.). A fost dificil de evaluat acuratețea rezultatelor obținute (limitele intervalelor de încredere, erori de eșantionare), deoarece modelele probabilistice nu au fost utilizate în construcția eșantionului.

În 1996–1997 a fost introdusă o abordare fundamental nouă a formării unui eșantion de gospodării. Ca bază pentru implementarea acestuia au fost utilizate datele microrecensământului populației din 1994. Populația generală în selecție a fost formată din toate tipurile de gospodării, cu excepția gospodăriilor colective. Și setul de eșantionare a început să fie organizat ținând cont de reprezentativitatea compoziției și a tipurilor de gospodării din cadrul fiecărui subiect al Federației Ruse.

Măsurarea erorilor în reprezentativitatea indicatorilor eșantionului se bazează pe ipoteza unui caracter aleatoriu al distribuției acestora cu un număr infinit de eșantioane.

Cuantificarea fiabilității unui indicator de eșantion este utilizată pentru a vă face o idee despre caracteristica generală. Aceasta se realizează fie pe baza unui indicator de eșantion, ținând cont de eroarea sa aleatorie, fie pe baza unei anumite ipoteze (despre valoarea varianță medie, natura distributiei, legatura) in raport cu proprietatile populatiei generale.

Pentru a testa ipoteza, se evaluează consistența datelor empirice cu datele ipotetice.

Mărimea erorii de reprezentativitate aleatoare depinde de:

  • 1) pe dimensiunea eșantionului;
  • 2) gradul de variație a trăsăturii studiate în populația generală;
  • 3) metoda acceptată de formare a unei populații eșantion.

Există erori medii (standard) și marginale de eșantionare.

Eroare medie caracterizează măsura abaterilor indicatorilor eșantionului față de indicatorii similari ai populației generale.

eroare marginală se obișnuiește să se ia în considerare discrepanța maximă posibilă între eșantion și caracteristicile generale, i.e. eroare maximă pentru o probabilitate dată de apariție.

În funcție de populația eșantion, este posibil să se evalueze diverși indicatori (parametri) ai populației generale. Cele mai frecvent utilizate scoruri sunt:

  • - valoarea medie generală a trăsăturii studiate (pentru o trăsătură cantitativă multivalorică);
  • – cota generală (pentru un semn alternativ).

Principiul de bază al aplicării metodei de eșantionare este asigurarea unei șanse egale pentru toate unitățile populației generale care urmează să fie selectate în populația eșantionată. Cu această abordare, se respectă cerința selecției aleatorii, obiective și, prin urmare, eroarea de eșantionare este determinată în primul rând de dimensiunea acesteia ( P ). Odată cu creșterea acesteia din urmă, valoarea erorii medii scade, caracteristicile populației eșantionului se apropie de caracteristicile populației generale.

Cu același număr de seturi de eșantionare și alte condiții egale, eroarea de eșantionare va fi mai mică în unul dintre ele, care este selectat din populația generală cu o variație mai mică a trăsăturii studiate. O scădere a variației unei trăsături înseamnă o scădere a valorii varianței (pentru o trăsătură cantitativă sau pentru o trăsătură alternativă).

Dependența mărimii erorii de eșantionare de metodele de formare a populației eșantionului este determinată de formulele pentru eroarea medie de eșantionare (Tabelul 5.2).

Să suplimentăm indicatorii din Tabel. 5.2 cu următoarele explicații.

Varianta eșantionului este puțin mai mică decât cea generală; s-a dovedit în statistica matematică că

Tabelul 5.2

Formule pentru calcularea erorii medii de probă mri diferite căi selecţie

Tipul eșantionului

repetat pt

irepetabil pentru

De fapt

Aleatoriu

(simplu)

Serial

(cu egal

Tipic (proporțional cu dimensiunea grupurilor)

Dacă eșantionul este mare (de ex. P suficient de mare), atunci raportul se apropie de unitate și varianța eșantionului coincide practic cu cea generală.

Eșantionul este considerat necondiționat de mare atunci când n> 100 și necondiționat mic la P < 30. При оценке результатов малой выборки указанное соотношение выборочной и генеральной дисперсии следует принимать во внимание.

Acestea pot fi calculate folosind următoarele formule:

unde este media i a-a serie; este media generală pentru întregul eșantion;

unde este proporția de unități dintr-o anumită categorie în i a-a serie; - ponderea unitatilor din aceasta categorie in intregul esantion; r- numărul de episoade selectate.

4. Pentru a determina eroarea medie a unui eșantion tipic în cazul selectării unităților proporțional cu mărimea fiecărui grup, media a variaţiile intra-grup(– pentru o caracteristică cantitativă, pentru o caracteristică alternativă). Conform regulii de adunare a variațiilor, valoarea mediei variațiilor intragrup este mai mică decât valoarea varianta totala. Valoarea erorii medii posibile a unui eșantion tipic este mai mică decât eroarea unui eșantion aleatoriu propriu simplu.

Selecția combinată este adesea folosită: selecția individuală a unităților este combinată cu selecția de grup, selecția tipică este combinată cu selecția în serie. Cu orice metodă de selecție, cu o anumită probabilitate, se poate argumenta că abaterea mediei (sau ponderii) eșantionului de la media generală (sau cota) nu va depăși o anumită valoare, care se numește eroare marginală mostre.

Raportul dintre limita erorii de eșantionare (∆) garantat cu o oarecare probabilitate F(t), iar eroarea medie de eșantionare are forma: sau , unde t – coeficient de încredere, determinat în funcție de nivelul de probabilitate F(t).

Valorile funcției F(t) Și t sunt determinate pe baza unor tabele matematice special întocmite. Iată câteva dintre cele mai frecvent utilizate:

T

Astfel, eroarea marginală de eșantionare răspunde la întrebarea cu privire la acuratețea eșantionării cu o anumită probabilitate, a cărei valoare depinde de valoarea coeficientului de încredere. t. Da, la t = 1 probabilitate F(t ) abaterea caracteristicilor eșantionului de la cele generale cu valoarea unei singure erori medii este 0,683. În consecință, în medie, din fiecare 1000 de eșantioane, 683 vor da indicatori generalizați (medie, pondere), care se vor diferenția de cei generali prin nu mai mult de o singură eroare medie. La t = 2 probabilitate F(t) este egal cu 0,954, ceea ce înseamnă că din 1000 de eșantioane, 954 vor da indicatori generali care vor diferi de cei generali cu cel mult de două ori eroarea medie a eșantionului etc.

Alături de valoarea absolută a erorii marginale de eșantionare, calculăm și eroare relativă, care este definit ca procentul erorii marginale de eșantionare față de caracteristica corespunzătoare a eșantionului:

În practică, se obișnuiește să se stabilească valoarea lui ∆, de regulă, la 10% din nivelul mediu așteptat al atributului.

Calculul erorilor medii și marginale de eșantionare vă permite să determinați limitele în care vor fi caracteristicile populației generale:

Limitele în care, cu un grad de probabilitate dat, va fi cuprinsă o valoare necunoscută a indicatorului studiat în populația generală se numesc interval de încredere, și probabilitatea F(t) probabilitatea de încredere. Cu cât valoarea lui ∆ este mai mare, cu atât intervalul de încredere este mai mare și, în consecință, cu atât acuratețea estimării este mai mică.

Luați în considerare următorul exemplu. Pentru a determina mărimea medie a unui depozit la o bancă, au fost selectate 200 de conturi în valută ale deponenților folosind metoda eșantionării aleatorii repetate. Ca urmare, s-a constatat că valoarea medie a depozitului a fost de 60 de mii de ruble, dispersia a fost de 32. În același timp, 40 de conturi s-au dovedit a fi la cerere. Este necesar, cu o probabilitate de 0,954, să se determine limitele în care se află valoarea medie a depozitului pe conturile în valută la bancă și ponderea conturilor la vedere.

Calculați eroarea medie a mediei eșantionului folosind formula de reselecție

Eroarea marginală a mediei eșantionului cu o probabilitate de 0,954 va fi

În consecință, depozitul mediu în conturile bancare în valută este de peste o mie de ruble:

Cu o probabilitate de 0,954, se poate argumenta că depozitul mediu în conturile bancare în valută variază de la 59.200 la 60.800 de ruble.

Să determinăm ponderea depozitelor la vedere în populația eșantion:

Eroare medie de distribuire a eșantionului

Eroarea marginală a acțiunii cu o probabilitate de 0,954 va fi

Astfel, ponderea conturilor la cerere în populația generală este cuprinsă în w :

Cu o probabilitate de 0,954, se poate susține că ponderea conturilor la vedere în numărul total de conturi în valută din bancă variază între 14,4 și 25,6%.

În studiile specifice, este important să se stabilească raportul optim între măsura fiabilității rezultatelor obținute și mărimea erorii acceptabile de eșantionare. În acest sens, la organizarea unei observații prin eșantion, se pune întrebarea legată de determinarea dimensiunii eșantionului necesar pentru a obține acuratețea necesară a rezultatelor cu o probabilitate dată. Calculul mărimii eșantionului necesar se efectuează pe baza formulelor pentru eroarea marginală de eșantionare în conformitate cu tipul și metoda de selecție (Tabelul 5.3).

Tabelul 5.3

Formule pentru calcularea mărimii eșantionului cu o metodă adecvată de selecție aleatorie

Să continuăm exemplul, care prezintă rezultatele unui sondaj eșantion al conturilor personale ale deponenților bănci.

Este necesar să se determine câte conturi trebuie examinate, astfel încât, cu o probabilitate de 0,977, eroarea în determinarea sumei medii a depozitului să nu depășească 1,5 mii de ruble. Să exprimăm din formula pentru eroarea marginală de eșantionare pentru reselecție indicatorul mărimii eșantionului:

Atunci când se determină dimensiunea eșantionului necesară folosind formulele de mai sus, devine dificil să se găsească valorile lui σ2 și da, deoarece aceste valori pot fi obținute numai după o anchetă prin eșantion. În acest sens, în locul valorilor efective ale acestor indicatori, se înlocuiesc cu cele aproximative, care ar putea fi determinate pe baza oricăror observații din eșantion de probă sau din anchete analitice anterioare.

În cazurile în care statisticianul cunoaște valoarea medie a caracteristicilor studiate (de exemplu, din instrucțiuni, acte legislative etc.) sau limitele în care această caracteristică variază, se poate aplica următorul calcul folosind formule aproximative:

iar produsul w(1 – w) trebuie înlocuit cu valoarea 0,25 (w = 0,5).

Pentru a obține un rezultat mai precis, luați valoarea maximă posibilă a acestor indicatori. Dacă distribuția unei trăsături în populația generală respectă legea normală, atunci intervalul de variație este aproximativ egal cu 6σ (valorile extreme sunt separate de medie cu 3σ pe ambele părți). Prin urmare, dar dacă distribuția este în mod evident asimetrică, atunci .

Cu orice tip de probă, volumul acestuia începe să fie calculat conform formulei de reeșantionare

Dacă, ca rezultat al calculului, cota de selecție ( n ) depășește 5%, atunci calculul se efectuează după formula selecției nerepetitive.

Pentru un eșantion tipic, este necesar să se împartă volumul total al populației eșantionului între tipurile de unități selectate. Calculul numărului de observații din fiecare grup depinde de formele organizatorice menționate anterior ale unui eșantion tipic.

În selecția tipică de unități disproporționat față de numărul de grupuri, numărul total de unități selectate este împărțit la numărul de grupuri, valoarea rezultată dă numărul de selecție din fiecare grup tipic:

Unde k este numărul de grupuri tipice identificate.

La selectarea unităților proporțional cu numărul de grupuri tipice, numărul de observații pentru fiecare grup este determinat de formula

de unde este dimensiunea eșantionului i -a grupa; - volum i -a grupa.

La selectare, ținând cont de variația trăsăturii, procentul eșantionului din fiecare grup trebuie să fie proporțional cu abaterea standard din acest grup (). Calculul numărului () se efectuează conform formulelor

În selecția în serie, numărul necesar de serii selectate este determinat în același mod ca și în selecția aleatorie corectă:

Reselectare

Selecție care nu se repetă

În acest caz, varianțele și erorile de eșantionare pot fi calculate pentru valoarea medie sau proporția trăsăturii.

Când se utilizează observația selectivă, caracteristicile rezultatelor acesteia sunt posibile pe baza unei comparații a limitelor de eroare obținute ale indicatorilor selectivi cu valoarea erorii admisibile.

În acest sens, se pune problema determinării probabilității ca eroarea de eșantionare să nu depășească eroarea admisibilă. Rezolvarea acestei probleme se reduce la calculul bazat pe formula pentru eroarea marginală de eșantionare a cantității t.

Continuând luarea în considerare a unui exemplu de sondaj eșantion al conturilor personale ale clienților băncilor, vom găsi probabilitatea cu care se poate argumenta că eroarea în determinarea mărimii medii a depozitului nu va depăși 785 de ruble:

relevante nivel de încredere va fi 0,95.

În prezent, practica observației selective include observații statistice efectuate de:

  • - cadavrele lui Rosstat;
  • – alte ministere și departamente (de exemplu, monitorizarea întreprinderilor în sistemul Băncii Rusiei).

O binecunoscută generalizare a experienței în organizarea anchetelor prin sondaj ale întreprinderilor mici, populației și gospodăriilor este prezentată în Prevederile metodologice privind statistica. Ei dau mai mult concept larg eșantion de observație decât cea discutată mai sus (Tabelul 5.4).

În practica statistică, sunt utilizate toate cele patru tipuri de eșantioane, prezentate în tabel. 5.4. Cu toate acestea, de obicei se acordă preferință eșantioanelor probabilistice (aleatorie) descrise mai sus, care sunt cele mai obiective, deoarece pot fi utilizate pentru a evalua acuratețea rezultatelor obținute din datele eșantionului în sine.

Tabelul 5.4

Tipuri de mostre

În mostre tip cvasialeator selecția probabilistică se presupune pe baza faptului că expertul care ia în considerare eșantionul îl consideră acceptabil. Un exemplu de utilizare a eșantionării cvasialeatoare în practica statistică este „Sondajul prin eșantionare a întreprinderilor mici pentru a studia procesele sociale în întreprinderile mici”, realizat în 1996 în unele regiuni ale Rusiei. Unitățile de observare (întreprinderile mici) au fost selectate cu experiență, ținând cont de reprezentarea sectoarelor economice din eșantionul deja format al anchetei activităților financiare și economice ale întreprinderilor mici (formularul „Informații privind principalii indicatori ai activităților financiare și economice”. a unei întreprinderi mici”). La rezumarea datelor eșantionului, s-a presupus că setul de eșantion a fost format prin metoda selecției aleatorii simple.

direct utilizarea judecății expertului este cea mai comună metodă de includere intenționată a unităților într-o probă. Un exemplu de astfel de metodă de selecție este metoda monografică, care presupune obținerea de informații de la o singură unitate de observație, ceea ce este tipic, potrivit organizatorului sondajului - un expert.

Mostre bazate pe selecție direcțională, sunt implementate folosind o procedură obiectivă, dar fără a utiliza un mecanism probabilistic. Este larg cunoscută metoda matricei principale, în care eșantionul include cele mai mari (semnificative) unități de observație care oferă principala contribuție la indicator, de exemplu, valoarea totală a unei caracteristici reprezentând scopul principal al anchetei.

În practica statistică, este adesea folosit metoda combinată de observare statistică. Combinația dintre metodele de observare continuă și selectivă are două aspecte:

  • alternanta in timp;
  • utilizarea lor simultană (o parte a populației este observată în mod continuu, iar o parte - selectiv).

alternanţă eşantionarea periodică cu anchete sau recensăminte continue relativ rare este necesară pentru a clarifica componenţa populaţiei studiate. În viitor, aceste informații sunt folosite ca bază statistică pentru observarea eșantionului. Exemple sunt recensămintele populației și anchetele prin eșantion în gospodării între ele.

În acest caz, trebuie să rezolvați următoarele sarcini:

  • – determinarea compoziţiei semnelor de observaţie continuă, care asigură organizarea probei;
  • – fundamentarea perioadelor de alternanță, i.e. atunci când datele continue nu mai sunt relevante și sunt necesare costuri pentru a le actualiza.

Utilizare simultană în cadrul unei anchete de observații continue și eșantionare se datorează eterogenității populațiilor întâlnite în practica statistică. Acest lucru este valabil mai ales pentru sondaje activitate economică un ansamblu de întreprinderi, care se caracterizează prin distribuții distorsionate ale caracteristicilor studiate, când un anumit număr de unități au caracteristici foarte diferite de cea mai mare parte a valorilor. În acest caz, astfel de unități sunt observate în mod continuu, iar cealaltă parte a populației este observată selectiv.

Cu această organizare a observațiilor, principalele sarcini sunt:

  • – stabilirea proporţiei optime a acestora;
  • – dezvoltarea metodelor de evaluare a acurateței rezultatelor.

Un exemplu tipic care ilustrează acest aspect al aplicării metodei combinate este principiu general efectuarea de anchete asupra populației întreprinderilor, conform cărora sondajele populației întreprinderilor mari și mijlocii se efectuează în principal printr-o metodă continuă, iar întreprinderile mici printr-o metodă de eșantionare.

Dezvoltarea ulterioară a metodologiei de eșantionare se realizează atât în ​​combinație cu organizarea observării continue, cât și prin organizarea de anchete speciale, a căror desfășurare este dictată de necesitatea obținerii de informații suplimentare pentru a rezolva probleme specifice. Astfel, organizarea anchetelor în domeniul condițiilor și nivelului de trai al populației este prevăzută în două aspecte:

  • - componente obligatorii;
  • – module suplimentare în interior sistem integrat indicatori.

Componentele obligatorii pot fi anchete anuale de venituri, cheltuieli și consum (asemănătoare anchetelor bugetare gospodăriilor casnice), care includ și indicatori de bază ai condițiilor de viață ale populației. În fiecare an, conform unui plan special, componentele obligatorii ar trebui completate cu anchete (module) unice ale condițiilor de viață ale populației, care vizează un studiu aprofundat al oricărui subiect social selectat din numărul lor total (de exemplu , bunurile gospodăriei, sănătatea, alimentația, educația, condițiile de muncă, condițiile de locuire, timpul liber, mobilitatea socială, securitatea etc.) cu frecvență variabilă, determinată de nevoia de indicatori și capacități de resurse.

În timpul observației selective, aceasta ar trebui să fie asigurată accident selecția unității. Fiecare unitate trebuie să aibă șanse egale de a fi selectată cu celelalte. Pe asta se bazează eșantionarea aleatorie.

LA eșantion aleatoriu adecvat se referă la selectarea unităților din întreaga populație generală (fără o împărțire preliminară în niciun grup) prin tragere la sorți (în principal) sau o altă metodă similară, de exemplu, folosind un tabel de numere aleatorii. Selectie aleatorie Această selecție nu este aleatorie. Principiul aleatoriei sugerează că includerea sau excluderea unui obiect din eșantion nu poate fi influențată de niciun alt factor decât hazardul. Un exemplu de fapt aleatoriu selecția poate servi ca circulații de câștiguri: din numărul total de bilete emise, o anumită parte a numerelor care reprezintă câștigurile este selectată aleatoriu. În plus, toate numerele au o șansă egală de a intra în eșantion. În acest caz, numărul de unități selectate în setul de eșantion este de obicei determinat pe baza proporției acceptate din eșantion.

Cotă de probă este raportul dintre numărul de unități ale populației eșantionului și numărul de unități ale populației generale:

Deci, cu o probă de 5% dintr-un lot de piese în 1000 de unități. marime de mostra P este de 50 de unități, iar cu o probă de 10% - 100 de unități. etc. Cu organizarea științifică corectă a eșantionării, erorile de reprezentativitate pot fi reduse la valori minime, ca urmare, observația selectivă devine suficient de precisă.

Selecția aleatorie adecvată „în forma sa pură” este rar folosită în practica observației selective, dar este punctul de plecare printre toate celelalte tipuri de selecție, conține și implementează principiile de bază ale observației selective.

Să luăm în considerare câteva întrebări ale teoriei metodei de eșantionare și ale formulei de eroare pentru un eșantion aleator simplu.

Atunci când se aplică metoda de eșantionare în statistică, se folosesc de obicei două tipuri principale de indicatori generalizatori: valoarea medie a unei trăsături cantitativeȘi valoarea relativă a caracteristicii alternative(distribuie sau gravitație specifică unități din populația statistică, care diferă de toate celelalte unități ale acestei populații doar prin prezența trăsăturii studiate).

Cotă de probă (w), sau frecvența, este determinată de raportul dintre numărul de unități care au caracteristica studiată T, La numărul total unități de probă P:

De exemplu, dacă din 100 de detalii eșantion ( n=100), 95 de părți s-au dovedit a fi standard (T=95), apoi fracția eșantionului

w=95/100=0,95 .

Pentru a caracteriza fiabilitatea indicatorilor eșantionului, există mijlocȘi eroare marginală de eșantionare.

Eroare de eșantionare ? sau, cu alte cuvinte, eroarea de reprezentativitate este diferența dintre eșantionul corespunzător și caracteristicile generale:

*

*

Eroarea de eșantionare este caracteristică doar observațiilor selective. Cu cât valoarea acestei erori este mai mare, cu atât indicatorii eșantionului diferă de indicatorii generali corespunzători.

Media eșantionului și ponderea eșantionului sunt inerente variabile aleatoare, care poate lua valori diferite în funcție de unitățile populației incluse în eșantion. Prin urmare, erorile de eșantionare sunt, de asemenea, variabile aleatoare și pot prelua diverse sensuri. Prin urmare, determinați media erorilor posibile - eroarea medie a eșantionului.

De ce depinde înseamnă eroare de eșantionare? Sub rezerva principiului selecției aleatorii, eroarea medie de eșantionare este determinată în primul rând marime de mostra: cu cât populația este mai mare, ceteris paribus, cu atât eroarea medie de eșantionare este mai mică. Acoperind o anchetă prin sondaj cu un număr tot mai mare de unități ale populației generale, caracterizăm tot mai precis întreaga populație.

Eroarea medie de eșantionare depinde și de gradul de variație trăsătură studiată. Gradul de variație, după cum știți, este caracterizat de dispersie? 2 sau w(1-w)-- pentru o caracteristică alternativă. Cu cât variația caracteristicii și, prin urmare, varianța este mai mică, cu atât eroarea medie de eșantionare este mai mică și invers. Cu dispersie zero (atributul nu variază), eroarea medie de eșantionare este zero, adică orice unitate a populației generale va caracteriza cu exactitate întreaga populație conform acestui atribut.

Dependența erorii medii de eșantionare de volumul acesteia și de gradul de variație a atributului se reflectă în formulele care pot fi utilizate pentru a calcula eroarea medie de eșantionare în condițiile de observare a probei, când caracteristicile generale ( x,p) sunt necunoscute și, prin urmare, nu este posibil să se găsească eroarea reală de eșantionare direct din formule (form. 1), (form. 2).

W Cu selecție aleatorie erori medii calculat teoretic prin următoarele formule:

* pentru trăsătura cantitativă medie

* pentru partajare (caracteristică alternativă)

Din moment ce practic varianța atributului în populația generală? 2 nu este cunoscut exact, în practică se utilizează valoarea varianței S 2 calculată pentru populația eșantionului pe baza legii numerelor mari, conform căreia populația eșantionului cu o dimensiune a eșantionului suficient de mare reproduce cu acuratețe caracteristicile populatie generala.

Prin urmare, formule de calcul mijloc erori de eșantionare reeșantionarea aleatorie va fi după cum urmează:

* pentru trăsătura cantitativă medie

* pentru partajare (caracteristică alternativă)

Totuși, varianța populației eșantionului nu este egală cu varianța populației generale și, prin urmare, erorile medii de eșantionare calculate prin formulele (form. 5) și (form. 6) vor fi aproximative. Dar în teoria probabilității se demonstrează că varianța generală se exprimă prin opțiunea prin următoarea relație:

Deoarece P/(n-1) pentru suficient de mare P -- valoare apropiată de unitate, se poate presupune că, și de aceea, în calculele practice ale erorilor medii de eșantionare, se pot folosi formule (form. 5) și (form. 6). Și numai în cazul unui eșantion mic (când dimensiunea eșantionului nu depășește 30) este necesar să se țină cont de coeficient P/(n-1) și calculați eroare medie eșantion mică dupa formula:

W X Cu selecție aleatorie nerepetitivă în formulele de mai sus pentru calcularea erorilor medii de eșantionare, este necesar să se înmulțească expresia rădăcinii cu 1-(n / N), deoarece numărul de unități din populația generală este redus în procesul de eșantionare nerepetitivă. Prin urmare, pentru o selecție nerepetitivă formule de calcul eroare medie de eșantionare va lua următoarea formă:

* pentru trăsătura cantitativă medie

* pentru partajare (caracteristică alternativă)

. (form. 10)

Deoarece Pîntotdeauna mai puțin N, apoi factorul suplimentar 1-( n/N) va fi întotdeauna mai puțin de unu. De aici rezultă că eroarea medie cu selecția nerepetitivă va fi întotdeauna mai mică decât cu selecția repetată. În același timp, cu un procent relativ mic din eșantion, acest factor este aproape de unu (de exemplu, cu un eșantion de 5% este 0,95; cu un eșantion de 2% este 0,98 etc.). Prin urmare, uneori, în practică, formulele (formele 5) și (formele 6) sunt utilizate pentru a determina eroarea medie de eșantionare fără multiplicatorul specificat, deși eșantionul este organizat ca unul nerepetat. Acest lucru se întâmplă atunci când numărul de unități ale populației generale N este necunoscut sau nelimitat, sau când P foarte putin in comparatie cu N, iar în esență, introducerea unui factor suplimentar, apropiat ca valoare de unul, practic nu va afecta valoarea erorii medii de eșantionare.

Prelevare mecanică de probe constă în faptul că selectarea unităţilor din eşantion din general, împărţite după criteriul neutru în intervale egale(grupuri) este realizată astfel încât să fie selectată doar o unitate din fiecare astfel de grup din eșantion. Pentru a evita erorile sistematice, trebuie selectată unitatea care se află în mijlocul fiecărui grup.

La organizarea selecției mecanice, unitățile populației sunt pre-aranjate (de obicei într-o listă) într-o anumită ordine (de exemplu, alfabetic, după locație, în ordinea crescătoare sau descrescătoare a valorilor oricărui indicator care nu este asociat). cu proprietatea în studiu etc.) etc.), după care se selectează mecanic un anumit număr de unități, la un anumit interval. În acest caz, mărimea intervalului în populația generală este egală cu reciproca ponderii eșantionului. Deci, cu o probă de 2%, fiecare a 50-a unitate (1: 0,02) este selectată și verificată, cu o probă de 5%, fiecare a 20-a unitate (1: 0,05), de exemplu, detaliu descendent din mașină.

Cu o populație suficient de mare, selecția mecanică în ceea ce privește acuratețea rezultatelor este aproape de aleatorie adecvată. Prin urmare, pentru a determina eroarea medie a unei probe mecanice, se folosesc formulele de eșantionare auto-aleatorie nerepetitivă (form. 9), (form. 10).

Pentru a selecta unități dintr-o populație eterogenă, așa-numitele eșantion tipic , care este utilizat în cazurile în care toate unitățile populației generale pot fi împărțite în mai multe grupe omogene calitativ, similare în funcție de caracteristicile care afectează indicatorii studiați.

La sondajul întreprinderilor, astfel de grupuri pot fi, de exemplu, industrie și subsector, forme de proprietate. Apoi, din fiecare grup tipic, o selecție individuală a unităților din eșantion este făcută printr-un eșantion aleatoriu sau mecanic.

Un eșantion tipic este utilizat de obicei în studiul populațiilor statistice complexe. De exemplu, într-un sondaj prin sondaj al bugetelor familiale ale lucrătorilor și angajaților din anumite sectoare ale economiei, productivitatea muncii lucrătorilor dintr-o întreprindere, reprezentată de grupuri separate de calificare.

Un eșantion tipic oferă rezultate mai precise în comparație cu alte metode de selectare a unităților dintr-un set de mostre. Tipificarea populației generale asigură reprezentativitatea unui astfel de eșantion, reprezentarea fiecărui grup tipologic din acesta, ceea ce face posibilă excluderea influenței. varianta intergrup la eroarea medie de eșantionare.

La determinarea eroarea medie a unui eșantion tipic ca indicator al variaţiei este media variaţiilor intragrup.

Eroarea medie de eșantionare se gasesc dupa formulele:

* pentru trăsătura cantitativă medie

(reselectare); (form. 11)

(selecție ireversibilă); (form. 12)

* pentru partajare (caracteristică alternativă)

(reselectare); (form.13)

(selecție nerepetitivă), (form. 14)

unde este media variațiilor intragrup pentru populația eșantion;

Media variațiilor intra-grup ale cotei (trăsătură alternativă) în populația eșantion.

eșantionare în serie presupune selecția aleatorie din populația generală nu a unităților individuale, ci a grupurilor lor egale (cuiburi, serii) pentru a supune toate unitățile fără excepție la observație în astfel de grupuri.

Utilizarea eșantionării în serie se datorează faptului că multe mărfuri pentru transportul, depozitarea și vânzarea lor sunt ambalate în pachete, cutii etc. Prin urmare, atunci când controlați calitatea mărfurilor ambalate, este mai rațional să verificați mai multe pachete (serii) decât să selectați cantitatea necesară de mărfuri din toate pachetele.

Întrucât în ​​cadrul grupurilor (seriilor) sunt examinate toate unitățile fără excepție, eroarea medie de eșantionare (când se selectează serii egale) depinde doar de varianța intergrup (interserii).

W Eroarea medie de eșantionare pentru scorul mediu în timpul selecției în serie, acestea se găsesc după formulele:

(reselectare); (form.15)

(selecție nerepetitivă), (form. 16)

Unde r- numărul de serii selectate; R- numărul total de episoade.

Varianța intergrup a eșantionului în serie se calculează după cum urmează:

unde este media i- seria a; - media generală pentru întreaga populație eșantion.

W Eroare medie de eșantionare pentru distribuire (funcție alternativă) în selecția în serie:

(reselectare); (form. 17)

(selecție nerepetitivă). (form. 18)

Intergrup(inter-serie) variația cotei de eșantion în serie determinat de formula:

, (form. 19)

unde este cota caracteristicii în i a-a serie; - ponderea totală a trăsăturii în întregul eșantion.

În practica anchetelor statistice, pe lângă metodele de selecție avute în vedere anterior, se folosește combinarea acestora (selecție combinată).

Observație selectivă

Conceptul de observație selectivă

Metoda de eșantionare este utilizată atunci când utilizarea observației continue este imposibilă din punct de vedere fizic din cauza unei cantități uriașe de date sau nu este fezabilă din punct de vedere economic. Imposibilitatea fizică apare, de exemplu, atunci când se studiază fluxurile de pasageri, prețurile pieței, bugetele familiei. Inutilitatea economică apare atunci când se evaluează calitatea mărfurilor asociate cu distrugerea acestora. De exemplu, degustarea, testarea cărămizilor pentru rezistență etc. Observația selectivă este, de asemenea, utilizată pentru a testa rezultatele unuia continuu.

Unitățile statistice selectate pentru observare sunt selectiv agregat sau probă,și întreaga matrice - general set (GS). Se notează numărul de unități din eșantion P, pe tot parcursul HS N. Atitudine n/N numită mărimea relativă sau cota de eșantion.

Calitatea rezultatelor prelevării depinde de reprezentativitate mostre, adică asupra cât de reprezentativă este în HS. Pentru a asigura reprezentativitatea eșantionului, este necesar să se respecte principiul selecției aleatorii a unităților, care presupune că includerea unei unități HS în eșantion nu poate fi influențată de niciun alt factor decât hazardul.

Metode de eșantionare

1. De fapt aleatoriu selecție: toate unitățile HS sunt numerotate și numerele extrase corespund unităților din eșantion, cu numărul de numere egal cu dimensiunea eșantionului planificat. În practică, în loc de tragere la sorți, se folosesc generatoare de numere aleatorii. Aceasta metoda selecția poate fi repetate(atunci când fiecare unitate selectată din eșantion este returnată la HS după observare și poate fi re-inspectată) și nerepetat(când unitățile chestionate din HS nu sunt returnate și nu pot fi reinspectate). La selecția repetată, probabilitatea de a intra în eșantion pentru fiecare unitate a HS rămâne neschimbată, iar la selecția nerepetată, se modifică (crește), dar pentru cei care rămân în HS după ce sunt selectate mai multe unități din aceasta, probabilitatea de intrare în eșantion este același.



2. Mecanic selecție: unitățile populației sunt selectate cu un pas constant N / A. Deci, dacă conține o populație generală de 100 de mii de unități și este necesar să selectați 1 mie de unități, atunci fiecare sută unitate va intra în eșantion.

3. stratificat Selecția (stratificată) se efectuează dintr-o populație generală eterogenă, atunci când este mai întâi împărțită în grupuri omogene, după care unitățile sunt selectate din fiecare grup în populația eșantion în mod aleatoriu sau mecanic proporțional cu numărul lor în populația generală.

4. Serial selecție (cuibărată): aleatoriu sau mecanic, nu sunt selectate unități individuale, ci anumite serii (cuibări), în cadrul cărora se efectuează observarea continuă.

Eroare medie de eșantionare

După finalizarea selecției numărului necesar de unități din eșantion și înregistrarea caracteristicilor acestor unități prevăzute de programul de observare, se procedează la calculul indicatorilor generalizatori. Acestea includ valoarea medie a trăsăturii studiate și proporția de unități care au o anumită valoare a acestei trăsături. Cu toate acestea, dacă HS face mai multe eșantioane, determinând în același timp caracteristicile lor generalizate, atunci se poate stabili că valorile lor vor fi diferite, în plus, ele vor diferi de valoarea lor reală în HS, dacă aceasta este determinată prin observarea continuă . Cu alte cuvinte, caracteristicile de generalizare calculate din datele eșantionului vor diferi de valorile lor reale din HS, așa că introducem următoarele simboluri (Tabelul 8).

Tabelul 8 Convenții

Se numește diferența dintre valoarea caracteristicilor generalizatoare ale eșantionului și populația generală Eroare de eșantionare, care se împarte în eroare înregistrare si eroare reprezentativitate. Prima apare din cauza unor informații incorecte sau inexacte din cauza neînțelegerii esenței problemei, a neglijenței registratorului la completarea chestionarelor, formularelor etc. Este destul de ușor de detectat și reparat. Al doilea rezultă din nerespectarea principiului selecției aleatorii a unităților din eșantion. Este mai dificil de detectat și eliminat, este mult mai mare decât primul și, prin urmare, măsurarea sa este sarcina principală a observației selective.

Pentru a măsura eroarea de eșantionare, eroarea medie a acesteia este determinată de formula (39) pentru selecția repetată și de formula (40) pentru eșantionarea nerepetitivă:

= ;(39) = . (40)

Din formulele (39) și (40) se poate observa că eroarea medie este mai mică pentru un eșantion nerepetitiv, ceea ce determină aplicarea sa mai largă.

Pe baza valorilor caracteristicilor unităților de eșantion înregistrate în conformitate cu programul de observare statistică, se calculează caracteristicile generalizate ale eșantionului: eșantion mediu() Și cota de eșantion unități care au o trăsătură de interes pentru cercetători, în numărul lor total ( w).

Se numește diferența dintre indicatorii eșantionului și populația generală Eroare de eșantionare.

Erorile de eșantionare, ca și erorile oricărui alt tip de observație statistică, sunt împărțite în erori de înregistrare și erori de reprezentativitate. Sarcina principală a metodei de eșantionare este studierea și măsurarea erorilor aleatorii de reprezentativitate.

Media eșantionului și cota eșantionului sunt variabile aleatoare care pot lua valori diferite în funcție de unitățile populației care se află în eșantion. Prin urmare, erorile de eșantionare sunt și ele sunt variabile aleatoriiși poate lua valori diferite. Prin urmare, se determină media erorilor posibile.

Eroare medie de eșantionare (µ - mu) este egal cu:

pentru mijloc ; pentru împărțire ,

Unde R- ponderea unei anumite caracteristici in populatia generala.

În aceste formule σ x 2Și R(1-R) sunt caracteristici ale populației generale, care sunt necunoscute în timpul observării eșantionului. În practică, ele sunt înlocuite cu caracteristici similare ale populației eșantionului pe baza legii numerelor mari, conform căreia populația eșantionului, cu un volum suficient de mare, reproduce cu acuratețe caracteristicile populației generale. Metodele de calcul a erorilor medii de eșantionare pentru medie și pentru ponderea în selecțiile repetate și nerepetate sunt date în tabel. 6.1.

Tabelul 6.1.

Formule pentru calcularea erorii medii de eșantionare pentru medie și pentru cotă

Valoarea este întotdeauna mai mică decât unu, astfel încât valoarea erorii medii de eșantionare cu selecția nerepetitivă este mai mică decât cu selecția repetată. În cazurile în care fracția eșantionului este nesemnificativă și factorul este aproape de unitate, corecția poate fi neglijată.

Pretinde că generalul valoarea medie indicator sau ponderea generală nu va depăși limitele erorii medii de eșantionare este posibilă numai cu un anumit grad de probabilitate. Prin urmare, pentru a caracteriza eroarea de eșantionare, pe lângă eroarea medie, calculăm eroare marginală de eșantionare(Δ), care este legat de nivelul de probabilitate care o garantează.

Nivel de probabilitate ( R) determină valoarea abaterii normalizate ( t), si invers. Valori t date în tabele distributie normala probabilități. Cele mai frecvent utilizate combinații tȘi R sunt date în tabel. 6.2.


Tabelul 6.2

Valorile abaterii standard t cu valorile corespunzătoare ale nivelurilor de probabilitate R

t 1,0 1,5 2,0 2,5 3,0 3,5
R 0,683 0,866 0,954 0,988 0,997 0,999

t este un factor de încredere care depinde de probabilitatea cu care se poate garanta că eroarea marginală nu va depăși t ori eroarea medie. Acesta arată câte erori medii sunt conținute în eroarea marginală.. Astfel, dacă t= 1, apoi cu o probabilitate de 0,683 se poate susține că diferența dintre eșantion și indicatorii generali nu va depăși o eroare medie.

Formulele pentru calcularea erorilor marginale de eșantionare sunt date în tabel. 6.3.

Tabelul 6.3.

Formule pentru calcularea erorii marginale de eșantionare pentru medie și pentru cotă

După calcularea erorilor marginale ale eșantionului, se găsește intervale de încredere pentru indicatorii generali. Probabilitatea care este luată în considerare la calcularea erorii unei caracteristici a eșantionului se numește nivel de încredere. Un nivel de încredere al probabilității de 0,95 înseamnă că doar în 5 cazuri din 100 eroarea poate depăși limitele stabilite; probabilități de 0,954 - în 46 de cazuri din 1000, iar la 0,999 - în 1 caz din 1000.

Pentru media generală, limitele cele mai probabile în care se va afla, ținând cont de eroarea marginală a reprezentativității, vor arăta astfel:

.

Cele mai probabile granițe în care se va afla cota generală vor arăta astfel:

.

De aici, media generală , cota generală .

Date în tabel. 6.3. formulele sunt utilizate în determinarea erorilor de eșantionare, efectuate prin metode aleatorii și mecanice efective.

Cu selecția stratificată, reprezentanții tuturor grupurilor se încadrează în mod necesar în eșantion și, de obicei, în aceleași proporții ca și în populația generală. Prin urmare, eroarea de eșantionare în acest caz depinde în principal de media variațiilor intragrup. Pe baza regulii de adăugare a variațiilor, putem concluziona că eroarea de eșantionare pentru selecția stratificată va fi întotdeauna mai mică decât pentru selecția aleatorie corectă.

Cu selecția în serie (imbricată), dispersia intergrup va fi o măsură a fluctuației.



eroare: Conținutul este protejat!!