Cum se determină dimensiunea optimă a eșantionului pentru o anchetă în masă. Dimensiunea eșantionului de sondaj

După ce metoda de cercetare este determinată și instrumentul este dezvoltat, se determină parametrii cercetării: tipul, compoziția și proprietățile probei și volumul acesteia. Pentru a determina tipul de eșantion, trebuie să utilizați tabelele din prelegeri: determinați volumul și proprietățile populatia, apoi alegeți un model de eșantionare..

Tabelul cu dimensiunea eșantionului vă permite să determinați dimensiunea eșantionului pe baza unui indicator de fiabilitate predeterminat P și a unei valori de eroare acceptabilă predeterminată e. P arată ce parte a populației poate acoperi eșantionul cât mai mult posibil (acest lucru arată fiabilitatea acestuia) și eroarea arată ce discrepanțe minime vor fi permise între proprietățile populației generale și proprietățile eșantionului.

Tabel cu mărimi eșantionului
e P 0,10 0,09 0,03 0,07 0,06 0,05 0,04 0,03 0,02 0,01
0,75
0,80
0,85
0,90
0,91
0,92
0,93
0,94
0,95
0,96
0,965
0,970
0,975
0,980
0,985
0,990
0,991
0,992
0,993
0,994
0,995
0,996
0,997
0,998
0,999


Să presupunem că vrem să acoperim populația cu o fiabilitate de cel puțin 80% și permitem o eroare de cel puțin 10% în studiul nostru. În același timp, nu știm nimic despre ce valori poate lua variabila pe care o studiem, adică nu avem nicio informație a priori despre populația generală: nu cunoaștem media și nici varianța posibilă. - nimic. Apoi pur și simplu căutăm intersecția corespunzătoare în tabel (P = 0,80, e = 0,10): dimensiunea eșantionului va fi de 41 de persoane. Tabelul este alcătuit din calculul valorii maxime a varianței variabilei dihotomice. Se poate observa că, odată cu creșterea preciziei eșantionului, volumul acesteia crește rapid - dacă în cazul descris am văzut un volum de 41 de persoane, atunci pentru parametrii în P = 95% și e = 5% (standard pentru majoritatea studiilor) volumul va fi deja de 384 de persoane. Prin urmare, tabelul trebuie utilizat în cazurile în care populația generală este relativ mică și sunt permise erori semnificative.

Pentru a asigura o dimensiune redusă a eșantionului pentru o populație relativ mare, este necesar să se cunoască în prealabil parametrii de distribuție ai variabilei studiate: media și varianța. În acest caz, puteți utiliza nomograma de mai jos pentru a calcula eșantioanele (nomograma a fost construită pentru fiabilitate P = 95%, ceea ce este suficient). Pentru a utiliza o nomogramă, trebuie să cunoașteți două mărimi: coeficientul de variabilitate vși eroare admisibilă e. Coeficientul de variabilitate este definit ca coeficientul de variație

adică pentru a o determina, trebuie să cunoașteți media aritmetică și abaterea standard a variabilei studiate.

Pentru a simplifica calculul coeficientului de variabilitate, este necesar să se cunoască intervalul de variație, adică valorile maxime și minime pe care le poate atinge variabila studiată. În acest caz, calculul v se face astfel:

,Unde Xmax, Xmin sunt valorile maxime și minime ale variabilei studiate, A este un număr real pozitiv constant (alege de obicei între 5 și 6).


Exemplul 1. Să presupunem că știm că coeficientul de variabilitate al variabilei studiate este de 6%. Găsiți dimensiunea eșantionului cu o eroare admisă de 5%. Pentru a face acest lucru, pe scara din stânga a nomogramei, marcat v%, căutăm punctul 6. Pe scara dreaptă a nomogramei, indicat ε% , căutăm valoarea de eroare selectată, care este de 5%. Marcam aceste puncte pe linii și le conectăm de-a lungul riglei cu o linie dreaptă. Ne uităm la locul în care această linie intersectează scara centrală, indicată n 1. Această intersecție are loc la punctul 6. Prin urmare, dimensiunea eșantionului va fi de 6 persoane.

Exemplul 2. Să știm că coeficientul de variabilitate al variabilei studiate este de 16%. Găsiți dimensiunea eșantionului pentru o anumită eroare de 5%. 16% mai mult de 10% maxim notat pe scară v%, iar scalele sunt logaritmice, așa că împărțim 16 la 10 și pe scară v% nomograme care caută un punct 1.6. Pe scara dreaptă a nomogramei ε% căutăm valoarea de eroare selectată, care este de 5%. Marcam aceste puncte pe cântare și le conectăm de-a lungul riglei cu o linie dreaptă. Vedeți unde linia traversează scara centrală n 1. Intersecția are loc în punctul 0.4. Deoarece am redus 16% la 1,6%, adică de 10 ori, înmulțim 0,4 cu 100. Mărimea eșantionului va fi de 40 de persoane (comparați cu eșantionul de mai sus de 384 de persoane pentru P = 95% și e = 5% fără a lua în considerare contează o anumită valoare a varianței).

Exemplul 3. Se studiază consumul de țigări de către studenți și se studiază doar cei care fumează țigări (populație generală - fumători). Eroarea admisă este de 5%. Se știe dinainte (de exemplu, datele sunt preluate din surse de informații secundare de marketing) că studenții fumează țigări în cantitate de la un pachet de țigări la trei zile până la două pachete pe zi și, în medie, un pachet de țigări pe zi. zi este suficientă pentru un student care fumează. Atunci valorile corespunzătoare vor fi Xmax=2, Xmin\u003d 0,33, iar media va fi 1. Coeficientul de variabilitate v va fi

iar pe scara din stânga punem deoparte 2,8%, pe dreapta 5%, le combinăm și pe scara centrală a nomogramei obținem nota 1,2 - asta înseamnă că dimensiunea eșantionului ar trebui să fie de 120 de persoane.

Exemplul 4. Să presupunem că, folosind exemplul anterior, nu există acces la grupul reprezentativ țintă (fumători). Aceasta înseamnă că atât fumătorii, cât și nefumătorii trebuie să fie incluși în eșantion. În acest caz, parametrii pentru calcul vor fi Xmax=2, Xmin=0. Care va fi media? Calculul mediei conform expresiei (2+0)/2=1 nu este corect, deoarece media anterioară a fost calculată numai pentru fumători, iar acum nu se ia raportul dintre dimensiunile grupurilor de fumători și nefumători. în considerare. De exemplu, dacă proporția de nefumători este de 60% și proporția de fumători este de 40%, atunci media ar fi 0,4.

Să comparăm posibilele dimensiuni ale eșantioanelor și erorile de cercetare:

Dacă nu există date despre raportul dintre grupurile reprezentative și nereprezentative în populația generală, atunci calculul coeficientului de variabilitate se realizează printr-o modificare a valorii A. De regulă, dacă media este calculată prin expresia ( Xmax+Xmin)/2, atunci A redus la 5 sau mai puțin.

După cum puteți vedea, eșantionarea simplă aleatorie necesită volume semnificative pentru a obține precizia necesară. Dimensiunea totală a eșantionului poate fi redusă semnificativ în două moduri:

1) efectuarea de zonare sau stratificare, adică evidențierea calitativă diverse grupuriîn populația generală și plasarea eșantionului tocmai în rândul reprezentanților acestor grupuri;

2) efectuarea selecției cuiburilor, adică împărțirea populației generale în un numar mare de părți identice și distribuirea probei între aceste părți.

Când efectuați un eșantion stratificat, puteți proceda după cum urmează (vezi diagrama de mai jos).

Inițial, se stabilește cât de multe informații a priori se cunosc despre populația generală. Pentru un eșantion stratificat de dimensiune minimă executat corespunzător, este necesar să se cunoască dimensiunea totală a populației N, numărul de straturi studiate i, numărul fiecărui strat N i, iar în cadrul fiecărui strat valoarea medie corespunzătoare a variabilei studiate și varianța acesteia. Dacă toți acești parametri sunt cunoscuți, atunci folosind nomograma discutată mai sus, este posibil să se calculeze dimensiunea eșantionului proporțional stratificat.

Pentru a face acest lucru, determinați mai întâi varianța generală a variabilei studiate ca sumă a variațiilor intragrup și intergrup, apoi determinați media generală a straturilor medii, apoi determinați coeficientul de variabilitate și determinați dimensiunea totală a eșantionului din nomogramă atunci când setarea erorii admisibile. σ

Varianta generală este

Unde σ 2 p - varianta intragrup, A σ 2 m- dispersie intergrup.

Varianta intragrup este determinata de variații cunoscute variabilă studiată în cadrul fiecărui strat

Unde N i- număr i- acel strat, σ 2 i- dispersie i- acel strat.

Varianta intergrup sunt determinate pe baza mediilor cunoscute pentru fiecare strat și a mediei generale calculate pe baza acestora:

Dacă numărul de straturi este cunoscut, dar dimensiunea acestora (și/sau dimensiunea populației generale) este necunoscută, atunci dimensiunea totală a eșantionului este mai întâi calculată în modul indicat și apoi este împărțită la numărul de straturi, astfel încât fiecare strat conține aceeași proporție din eșantion - acesta va fi eșantionul stratificat egal.

Dacă variațiile în cadrul straturilor sunt necunoscute, atunci este necesar să se cunoască intervalul de variație în cadrul fiecărui strat, adică valorile XmaxȘi Xmin. Apoi dispersiile straturilor pot fi calculate din expresie

Dacă numărul de straturi este necunoscut, atunci varianța intra-grup este calculată ca medie aritmetică simplă a varianțelor straturilor.

Dacă mediile din fiecare strat sunt necunoscute, dar intervalul de variație este cunoscut, atunci mediile din cadrul straturilor sunt definite ca mediile dintre valorile extreme ale variabilei studiate.

Dacă prezența straturilor este necunoscută, dar parametrii mediei, varianței și densității de distribuție a unităților de observare sunt cunoscuți din populația generală, atunci se efectuează un eșantion de district folosind metode imbricate sau proporționale. Dacă unitățile de observație sunt distribuite relativ uniform pe teritoriul pe care se află populația generală (coeficientul de variație al densității de plasare nu este mai mare de 15-25%), atunci se folosesc cuiburi, fiecare dintre ele care conține același număr. a unităţilor de observaţie. Cuiburile sunt alocate astfel încât să aibă aceeași dimensiune (de exemplu, zonă). Numărul de cuiburi este proporțional cu raportul dintre dimensiunea totală a eșantionului n la numărul total de unităţi de observare N. Din fiecare cuib este selectată o singură unitate de observație, plasarea probei în cuiburi se realizează printr-o metodă uniformă mecanică sau aleatorie.

Dacă plasarea unităților de observare în zona de studiu este neuniformă, atunci aceasta este împărțită în regiuni cu același număr de unități de observare în fiecare - aceasta este o eșantionare proporțională regiune cu regiune. Pentru a face acest lucru, dimensiunea totală a eșantionului este calculată conform nomogramei, după care acest eșantion este distribuit între regiuni proporțional cu numărul de unități de observație. În cadrul raioanelor, în acest caz, amplasarea probei se realizează fie prin cuibărit, fie în alt mod, similar procedurilor cunoscute de plasare a probelor.

Exemplul 5. Să folosim exemplul 3, studiind consumul de țigări. Dacă nu există date despre parametrii posibili ai variabilei studiate, atunci cu datele P=95%, e=5%, dimensiunea eșantionului va fi de 384 de persoane. Să evidențiem două straturi - bărbați și femei. Să se știe a priori (de exemplu, dintr-un studiu pilot) că consumul zilnic de pachete de țigări la bărbați este Xmax=2, Xmin=0,33, la femei Xmax=3, Xmin=0,1. Calculați dimensiunea eșantionului în acest caz

Deoarece nu știm nimic despre raportul dintre dimensiunile straturilor, presupunem că numerele lor sunt egale și ponderea numerelor lor în populația generală este de 0,5 fiecare. Atunci varianța intragrup va fi

și intergrup

cu media generală

Atunci varianța generală va fi

iar coeficientul de variabilitate va fi

Conform nomogramei, cu o eroare admisă de 5%, dimensiunea eșantionului va fi de aproximativ 240 de persoane (cu mai mult de 140 mai puțin decât conform tabelului). În acest caz, acest eșantion ar trebui împărțit în 120 de bărbați și 120 de femei.

Dacă această dimensiune a eșantionului este prea mare, atunci este necesar să creșteți numărul de straturi, asigurându-vă că intervalul de variație în fiecare strat este minim, iar dimensiunile straturilor sunt apropiate, adică să ne străduim să minimizați varianța totală.

În cazul în care se cunoaște dimensiunea populației generale în ansamblu, este posibil să se ajusteze dimensiunea eșantionului pentru nerecurență, după cum urmează:

1) pentru celebru v%Și e calculat din dimensiunea eșantionului de nomogramă n 1;

2) eroarea admisibilă dată este ajustată pentru dimensiunea populației

3) conform nomogramei pentru eroarea corectată e corectȘi v% se găsește noua dimensiune a eșantionului n 2.

Exemplul 6 Să presupunem că se efectuează un studiu pentru un segment țintă de 1600 de unități de observație cu v%=25% și e=5%. Conform nomogramei, dimensiunea eșantionului va fi atunci de 100 de unități de observație. Corectarea erorii pentru dimensiunea eșantionului

Conform nomogramei, dimensiunea eșantionului ajustat va fi (la v%=25% și e=5,2%) 90 unități de observație.

CAPITOLUL 1.

În această parte a lucrării, elevul prelucrează datele pe care le-a colectat și trage o concluzie cu privire la sarcină: cum să rezolve problema.

Pentru procesare, un student poate folosi MS Excel, SPSS, Statistika pentru Windows, MatLab, MatCad și alte programe pentru procesarea matricelor mari de date. Principalele sarcini care trebuie rezolvate atunci când utilizați aceste instrumente:

verificarea datelor:

stabilirea legilor de distribuție;

stabilirea de relații între date;

clasificarea și segmentarea datelor;

prognozarea desfăşurării evenimentelor.

Studiați secvența de procesare a datelor

  1. calcul în cadrul analizei distribuțiilor bivariate pentru fiecare tabel de date, coeficient de variație, raport de corelație și abateri standard4
  2. calculul matricelor de corelație și covarianță;
  3. selectarea unei matrice de date în conformitate cu condiții predeterminate;
  4. calculul distribuțiilor (ținând cont de condițiile specificate);
  5. recodare (corectarea erorilor de date);
  6. introducerea de noi indicatori (calculul indicilor).

Tabelul de mai jos descrie metodele posibile de analiză a datelor. Desigur, nu ar trebui să le folosiți pe toate deodată. Elevul alege exact acele 1-2 metode care sunt cele mai potrivite pentru dezvăluirea problemei.

Metode cantitative pentru analiza datelor de cercetare de marketing
1.Metode de compresie a statisticilor descriptive 2.Metode de analiză a tablourilor de bord
1.1 Gruparea 1.2 Estimarea parametrilor de distribuție 1.3 Matricea de covarianță și corelație
2.1 Orientarea către caracteristica calitativă integrală 2.2 Orientare cantitativă
2.2.1 Analiza variatiei 2.2.2 Analiza corelație-regresie 2.2.3 Analiza cauzală
2.1.1 Fără informații a priori despre trăsătura studiată 2.1.2 Cu informații a priori despre clasele de caracteristici 2.1.3 Cu informații a priori despre creșterea (scăderea) caracteristicii)
2.1.1.1 Metode de evaluare inter pares 2.1.1.2 Analiza matricei de date.
2.1.3.1 Întărirea scalei prin atributul rezultat 2.1.3.2 Evaluarea semnificației indicatorului (corelații de rang)
2.1.1.2.1 Analiza factorială 2.1.1.2.2 Analiza structurală latentă 2.1.1.2.3 Analiza clusterelor 2.1.1.2.4 Metode de evaluare a semnificației unui indicator
2.1.2.1 Metode de întărire a scalei nominale prin atributul rezultat 2.1.2.2 Evaluarea materialității indicatorilor de sistem
2.1.2.2.1 Metode teorie de recunoaștere a modelelor 2.1.2.2.2 Metode ale teoriei informaţiei 2.1.2.2.3 Metode ale teoriei grafurilor

Pentru determinarea principalelor caracteristici, în funcție de întrebările folosite, se pot aplica următoarele metode de analiză a măsurătorilor pe scale în întrebări:

Metode statistice de identificare a relațiilor

Scara caracteristicii rezultate (finale). Scala factorilor (predictor) Metoda de prelucrare statistică
Cantitativ (I, O, A, R) Cantitativ (I, O, A, R) Regresia Corelații
Cantitativ (I, O, A, R) Ora (T) Dinamica serii temporale
Cantitativ (I, O, A, R) Necantitativ (C, P) Analiza variatiei
Cantitativ (I, O, A, R) Analiza regresiei tipologice de covarianță
necantitativ (K) Cantitativ (I, O, A, R) Analiză discriminantă Analiză cluster Taxonomie Împărțire amestecuri
necantitativ (P) Necantitativ (C, P) Corelații de rang Analiza tabelelor de contingente
Cantitativ și necantitativ Cantitativ și necantitativ Funcții logice de decizie
Tipuri de scale la întrebări: I - interval, O - relativ, A - absolut, P - diferență, P - ordinal, K - clasificare (nominal)

De exemplu, analiza corelației pentru segmentarea consumatorilor se realizează după cum urmează:

  1. valorile medii sunt evidențiate, abateri standard, coeficientul de variație, eroarea mediei și interval de încredere;
  2. se calculează matricea de covarianță și corelație (de exemplu, în MS Excel);
  3. se calculează „proximitatea” obiectelor în spațiul caracteristicilor (pentru segmentare);
  4. se calculează căi de corelație maximă pentru a grupa variabilele;
  5. traseele distanței maxime sunt calculate de matricea distanțelor pentru a clasifica obiectele;
  6. se determină cele mai apropiate grupuri, care vor fi segmente de consumatori;
  7. se verifică o măsură a proximității grupurilor (de exemplu, un raport de corelație).

La sfârșitul acestui capitol, studentul descrie rezultatele analizei datelor astfel încât soluțiile sale la sarcinile stabilite pentru lucrare, concluziile finale și formulările acestora să fie clare.

Concluzie

În această secțiune, elevul formulează o soluție completă la problema pusă la începutul lucrării sale.

Bibliografie

Lista surselor utilizate (lista de referințe) ar trebui să fie realizată la sfârșitul textului lucrării, în conformitate cu GOST 7.1-84, de exemplu:

Zinnurov U. G. Fundamentele cercetării de marketing: Tutorial/ U. G. Zinnurov; Ufimsk. stat aviaţie tehnologie. un-t. Ufa, 1996.- 110 p.

Sursele din listă se află în ordine alfabetică. Trebuie făcute referiri la toate sursele enumerate în lucrare. Notele de subsol ale paginii nu sunt permise.

În cazul în care sursa sunt site-uri de Internet, este necesar să se indice adresa completă a site-ului (copiind bara de adrese) pe care au fost obținute informații specifice. În acest caz, este dată, de exemplu, data ultimului acces la acest site.

Când puneți întrebarea „De câți respondenți am nevoie pentru un sondaj?”, vă întrebați cu adevărat „Cât de mare trebuie să fie eșantionul meu pentru a estima cu exactitate populația mea?” Având în vedere complexitatea acestor concepte, am împărțit procesul în 5 pași, făcându-vă ușor să calculați dimensiunea ideală a eșantionului și să vă asigurați acuratețea rezultatelor sondajului.

5 pași pentru a vă asigura că eșantionul dvs. estimează cu exactitate populația:

Pasul 1

Care este populația ta generală?

Prin termenul „populație generală” înțelegem întregul grup de persoane a căror părere veți cere (eșantionul va fi format din membrii acestei populații care vor participa efectiv la sondaj).

De exemplu, dacă doriți să înțelegeți cum să găsiți o piață pentru pasta de dinți în Franța, populația dvs. va fi locuitorii Franței. Și dacă încercați să determinați câte zile de vacanță ar dori să aibă oamenii care lucrează pentru o companie de pastă de dinți, atunci populația dvs. este angajații acelei companii.

Fie că este o țară sau o companie, stabilirea unei populații este un prim pas important. Odată ce v-ați hotărât asupra populației, setați (aproximativ) dimensiunea acesteia. De exemplu, Franța are aproximativ 65 de milioane de oameni, dar o companie de pastă de dinți are probabil mult mai puțini angajați.

Ai primit numărul potrivit? Bine, atunci hai să mergem mai departe...

Pasul 2

Care este precizia necesară?

Acest pas este un fel de evaluare a riscului pe care sunteți dispus să vă asumați în ceea ce privește posibilitatea unor răspunsuri inexacte la sondaj din cauza faptului că nu sondați întreaga populație. Prin urmare, ar trebui să răspundeți la două întrebări:

  1. Cât de încrezător trebuie să fii că răspunsurile pe care le primești reflectă opiniile populației generale?
    Aceasta este marja ta de eroare. Deci, să presupunem că 90% dintre membrii eșantionului le place gumă de mestecat cu gust de struguri. O marjă de eroare de 5% adaugă 5% pe fiecare parte a acestui număr, ceea ce înseamnă că de fapt 85-95% din eșantion îi place guma cu aromă de struguri. 5% este marja de eroare cel mai des folosită, dar o puteți seta între 1% și 10%, în funcție de sondaj. Nu este recomandat să ridicați această cifră peste 10%.
  2. Cât de sigur trebuie să fii că eșantionul reprezintă cu exactitate populația?

    Acesta este nivelul tău de încredere. Nivelul de încredere este probabilitatea ca eșantionul să fie semnificativ pentru rezultatele obținute. Calculul se face de obicei după cum urmează. Dacă ați selectat aleatoriu încă 30 de eșantioane din această populație, cât de des ar diferi semnificativ rezultatul pentru un eșantion de rezultatele pentru celelalte 30 de eșantioane? Un nivel de încredere de 95% înseamnă că, în 95% din timp, rezultatele se potrivesc. 95% este cea mai des folosită valoare, dar o puteți seta la 90% sau 99%, în funcție de sondaj. Scăderea valorii nivelului de încredere sub 90% nu este recomandată.

Pasul 3

De ce dimensiune eșantion am nevoie?

În tabelul de mai jos, selectați o dimensiune aproximativă a populației țintă și o marjă de eroare pentru a determina numărul de interviuri finalizate necesare.

Acum că aveți valorile pasului 1 și pasului 2, utilizați tabelul la îndemână de mai jos pentru a determina dimensiunea eșantionului necesar...

Populația Marja de eroare Nivel de încredere
10% 5% 1% 90% 95% 99%
100 50 80 99 74 80 88
500 81 218 476 176 218 286
1000 88 278 906 215 278 400
10 000 96 370 4900 264 370 623
100 000 96 383 8763 270 383 660
1 000 000+ 97 384 9513 271 384 664

Notă. Datele sunt furnizate doar cu titlu orientativ. De asemenea, pentru populațiile de peste 1 milion, cifrele pot fi rotunjite la cea mai apropiată sută.

Pasul 4

Cât de receptivi vor fi oamenii?

Din păcate, nu toți cei cărora le trimiteți un sondaj vor primi un răspuns.

Procentul de persoane care completează formularul de sondaj pe care îl primesc este denumit „rata de răspuns”. Determinarea procentului de respondenți la sondaj vă va ajuta să determinați numărul total cazuri ale sondajului care trebuie trimise pentru a primi numărul necesar de răspunsuri.

Rata de răspuns depinde direct de o serie de factori, cum ar fi relația cu publicul țintă, lungimea și complexitatea sondajului, stimulentele oferite și subiectul sondajului. Pentru sondajele online în care nu a fost stabilită nicio relație cu destinatarii în prealabil, ratele de răspuns de 20-30% sunt considerate foarte mari. O valoare mai conservatoare și mai probabilă este de 10-14%, dacă nu ați efectuat anterior un sondaj în această populație.

Pasul 5

Deci câte persoane ar trebui să le trimiți sondajul?

Acesta este un pas ușor!

Pur și simplu împărțiți numărul pe care l-ați obținut la pasul 3 la numărul pe care l-ați obținut la pasul 4. Acesta este numărul dvs. magic.

De exemplu, dacă vrei ca 100 de femei care folosesc șampon să completeze un sondaj și crezi că 10% dintre femeile cărora le trimiți sondajul îl vor completa, trebuie să trimiți sondajul la 1000 de femei (100/10%)!

Populația- un set de unitati care au caracter de masa, tipicitate, uniformitate calitativa si prezenta variatiei.

Populația statistică este formată din obiecte existente material (Angajați, întreprinderi, țări, regiuni), este un obiect.

Unitatea de populație- fiecare unitate specifică a populaţiei statistice.

Una și aceeași populație statistică poate fi omogenă într-o trăsătură și eterogenă în alta.

Uniformitate calitativă- asemănarea tuturor unităților populației pentru orice caracteristică și neasemănarea pentru toate celelalte.

Într-o populație statistică, diferențele dintre o unitate a populației și alta sunt mai adesea de natură cantitativă. Modificările cantitative ale valorilor atributului diferitelor unități ale populației se numesc variație.

Variație caracteristică- modificarea cantitativă a unui semn (pentru un semn cantitativ) în timpul trecerii de la o unitate a populației la alta.

semn este o proprietate caracteristică sau altă caracteristică a unităților, obiectelor și fenomenelor care pot fi observate sau măsurate. Semnele sunt împărțite în cantitative și calitative. Diversitatea și variabilitatea valorii unei caracteristici în unități individuale ale populației se numesc variație.

Caracteristicile atributive (calitative) nu sunt cuantificabile (compunerea populației pe sex). Caracteristicile cantitative au o expresie numerică (compunerea populației pe vârstă).

Index- aceasta este o caracteristică generalizantă cantitativă și calitativă a oricărei proprietăți a unităților sau agregatelor în acest scop în condiții specifice de timp și loc.

Tabloul de punctaj este un set de indicatori care reflectă cuprinzător fenomenul studiat.

De exemplu, luați în considerare salariul:
  • Semn - salarii
  • Populația statistică - toți angajații
  • Unitatea populației este fiecare muncitor
  • Omogenitate calitativă - salariu acumulat
  • Variație caracteristică - o serie de numere

Populația generală și eșantionul din ea

Baza este un set de date obținute ca urmare a măsurării uneia sau mai multor caracteristici. Set de obiecte cu adevărat observat, reprezentat statistic printr-o serie de observații variabilă aleatorie, este prelevarea de probe, și existentul ipotetic (gândit) - populatie generala. Populația generală poate fi finită (număr de observații N = const) sau infinit ( N = ∞), iar un eșantion din populația generală este întotdeauna rezultatul unui număr limitat de observații. Se numește numărul de observații care alcătuiesc un eșantion marime de mostra. Dacă dimensiunea eșantionului este suficient de mare n→∞) se ia în considerare eșantionul mare, altfel se numește probă volum limitat. Se ia în considerare eșantionul mic, dacă, la măsurarea unei variabile aleatoare unidimensionale, dimensiunea eșantionului nu depășește 30 ( n<= 30 ), iar când se măsoară simultan mai multe ( k) caracteristici într-o relație spațială multidimensională n La k nu depășește 10 (n/k< 10) . Formele eșantionului serie de variații dacă membrii săi sunt statisticile comenzilor, adică valorile eșantionului ale variabilei aleatoare X sunt sortate în ordine crescătoare (clasate), valorile atributului sunt numite Opțiuni.

Exemplu. Aproape același set de obiecte selectat aleatoriu - băncile comerciale ale unui district administrativ al Moscovei, poate fi considerat ca un eșantion din populația generală a tuturor băncilor comerciale din acest district și ca un eșantion din populația generală a tuturor băncilor comerciale din Moscova , precum si un esantion de banci comerciale din tara si etc.

Metode de bază de eșantionare

De fiabilitatea concluziilor statistice și interpretarea semnificativă a rezultatelor depinde reprezentativitate mostre, adică completitudinea și adecvarea prezentării proprietăților populației generale, în raport cu care acest eșantion poate fi considerat reprezentativ. Studiul proprietăţilor statistice ale populaţiei poate fi organizat în două moduri: utilizând continuuȘi discontinuu. Observație continuă include examinarea tuturor unitati studiat agregate, A observație necontinuă (selectivă).- doar părți din ea.

Există cinci moduri principale de organizare a eșantionării:

1. selecție aleatorie simplă, în care obiectele sunt selectate aleatoriu din populația generală de obiecte (de exemplu, folosind un tabel sau un generator de numere aleatorii), iar fiecare dintre eșantioanele posibile are o probabilitate egală. Se numesc astfel de mostre de fapt aleatoriu;

2. selecție simplă printr-o procedură obișnuită se realizează folosind o componentă mecanică (de exemplu, datele, zilele săptămânii, numerele apartamentelor, literele alfabetului etc.) iar eșantioanele obținute în acest fel se numesc mecanic;

3. stratificat selecţia constă în faptul că populaţia generală de volum este subdivizată în submulţimi sau straturi (straturi) de volum astfel încât . Straturile sunt obiecte omogene din punct de vedere al caracteristicilor statistice (de exemplu, populația este împărțită în straturi pe grupe de vârstă sau clasă socială; întreprinderi pe industrie). În acest caz, eșantioanele sunt numite stratificat(in caz contrar, stratificat, tipic, zonat);

4. metode serial selecția sunt folosite pentru a forma serial sau mostre imbricate. Sunt convenabile dacă este necesar să se examineze simultan un „bloc” sau o serie de obiecte (de exemplu, un transport de mărfuri, produse dintr-o anumită serie sau populația din diviziunea administrativ-teritorială a țării). Selectarea serii poate fi efectuată în mod aleatoriu sau mecanic. În același timp, se efectuează o cercetare continuă a unui anumit lot de mărfuri sau a unei întregi unități teritoriale (o clădire de locuit sau un sfert);

5. combinate selecția (în trepte) poate combina mai multe metode de selecție simultan (de exemplu, stratificată și aleatorie sau aleatorie și mecanică); se numeste un astfel de esantion combinate.

Tipuri de selecție

De minte există selecție individuală, de grup și combinată. La selecție individuală unități individuale ale populației generale sunt selectate în setul de eșantion, cu selecția grupului sunt grupuri (serii) de unități calitativ omogene și selecție combinată implică o combinație între primul și al doilea tip.

De metodă selectie distinge repetate și nerepetitive probă.

irepetabil numită selecție, în care unitatea care a intrat în eșantion nu revine la populația inițială și nu participă la selecția ulterioară; în timp ce numărul de unităţi ale populaţiei generale N redus în timpul procesului de selecție. La repetate selecţie prinsîn eșantion, unitatea după înregistrare este returnată populației generale și, astfel, își păstrează o șansă egală, alături de alte unități, de a fi utilizată în continuarea procedurii de selecție; în timp ce numărul de unităţi ale populaţiei generale N rămâne neschimbată (metoda este rar folosită în studiile socio-economice). Cu toate acestea, cu un mare N (N → ∞) formule pentru nerepetat selecția sunt apropiate de cele pentru repetate selecția și acestea din urmă sunt folosite aproape mai des ( N = const).

Principalele caracteristici ale parametrilor populației generale și eșantionului

La baza concluziilor statistice ale studiului se află distribuția unei variabile aleatoare, în timp ce valorile observate (x 1, x 2, ..., x n) se numesc realizări ale variabilei aleatoare X(n este dimensiunea eșantionului). Distribuția unei variabile aleatoare în populația generală este teoretică, de natură ideală, iar analogul eșantionului este empiric distributie. Unele distribuții teoretice sunt date analitic, i.e. al lor Opțiuni determinați valoarea funcției de distribuție în fiecare punct din spațiul valorilor posibile ale variabilei aleatoare. Pentru un eșantion, este dificil, și uneori imposibil, să se determine funcția de distribuție, prin urmare Opțiuni sunt estimate din date empirice și apoi sunt substituite într-o expresie analitică care descrie distribuția teoretică. În acest caz, ipoteza (sau ipoteză) despre tipul de distribuție poate fi atât corectă statistic, cât și eronată. Dar, în orice caz, distribuția empirică reconstruită din eșantion o caracterizează doar aproximativ pe cea adevărată. Cei mai importanți parametri de distribuție sunt valorea estimatași dispersie.

Prin însăși natura lor, distribuțiile sunt continuuȘi discret. Cea mai cunoscută distribuție continuă este normal. Analogi selectivi ai parametrilor și pentru ei sunt: ​​valoarea medie și varianța empirică. Dintre cele discrete în studiile socio-economice, cele mai frecvent utilizate alternativă (dihotomică) distributie. Parametrul de așteptare al acestei distribuții exprimă valoarea relativă (sau acțiune) unități ale populației care au caracteristica studiată (se indică prin litera ); proporţia populaţiei care nu are această caracteristică se notează cu literă q (q = 1 - p). Varianta distribuției alternative are și un analog empiric.

În funcție de tipul de distribuție și de metoda de selectare a unităților de populație, caracteristicile parametrilor de distribuție se calculează diferit. Principalele distribuții teoretice și empirice sunt date în tabel. 9.1.

Cota de probă k n este raportul dintre numărul de unități ale populației eșantionului și numărul de unități ale populației generale:

k n = n/N.

Cotă de probă w este raportul dintre unitățile care au trăsătura în studiu X la dimensiunea eșantionului n:

w = n n / n.

Exemplu.Într-un lot de mărfuri ce conține 1000 de unități, cu o probă de 5%. fracția de probă k nîn valoare absolută este de 50 de unități. (n = N*0,05); dacă în această probă se găsesc 2 produse defecte, atunci fracția de probă w va fi 0,04 (w = 2/50 = 0,04 sau 4%).

Deoarece populația eșantion este diferită de populația generală, există erori de eșantionare.

Tabelul 9.1 Principalii parametri ai populației generale și eșantionului

Erori de eșantionare

Cu orice (solide și selective) pot apărea erori de două tipuri: înregistrare și reprezentativitate. Greșeli înregistrare poate avea AleatoriuȘi sistematic caracter. Aleatoriu erorile sunt alcătuite din multe cauze diferite de necontrolat, sunt de natură neintenționată și, de obicei, se echilibrează între ele (de exemplu, modificări ale citirilor instrumentului din cauza fluctuațiilor de temperatură din cameră).

Sistematic erorile sunt părtinitoare, deoarece încalcă regulile de selectare a obiectelor din eșantion (de exemplu, abateri ale măsurătorilor la modificarea setărilor dispozitivului de măsurare).

Exemplu. Pentru a evalua statutul social al populației din oraș, se preconizează examinarea a 25% dintre familii. Dacă, totuși, selecția fiecărui al patrulea apartament se bazează pe numărul său, atunci există pericolul de a selecta toate apartamentele de un singur tip (de exemplu, apartamente cu o cameră), ceea ce va introduce o eroare sistematică și va distorsiona rezultatele; alegerea numărului apartamentului după lot este mai de preferat, deoarece eroarea va fi aleatorie.

Erori de reprezentativitate inerente doar observarii selective, ele nu pot fi evitate si apar ca urmare a faptului ca proba nu o reproduce integral pe cea generala. Valorile indicatorilor obținuți din eșantion diferă de indicatorii acelorași valori în populația generală (sau obținuți în timpul observației continue).

Eroare de eșantionare este diferența dintre valoarea parametrului în populația generală și valoarea eșantionului acestuia. Pentru valoarea medie a unui atribut cantitativ, aceasta este egală cu: , iar pentru cota (atribut alternativ) - .

Erorile de eșantionare sunt inerente numai în observațiile eșantionului. Cu cât aceste erori sunt mai mari, cu atât distribuția empirică diferă de cea teoretică. Parametrii distribuției empirice și sunt variabile aleatoare, prin urmare, erorile de eșantionare sunt, de asemenea, variabile aleatoare, pot lua valori diferite pentru diferite eșantioane și, prin urmare, este obișnuit să se calculeze eroare medie.

Eroare medie de eșantionare este o valoare care exprimă abaterea standard a mediei eșantionului de la așteptările matematice. Această valoare, supusă principiului selecției aleatorii, depinde în primul rând de mărimea eșantionului și de gradul de variație al trăsăturii: cu cât variația trăsăturii este mai mare și mai mică (deci, valoarea lui ), cu atât valoarea lui este mai mică. eroarea medie de eșantionare . Raportul dintre variațiile populației generale și eșantionului este exprimat prin formula:

acestea. pentru suficient de mare, putem presupune că . Eroarea medie de eșantionare arată posibilele abateri ale parametrului populației eșantionului față de parametrul populației generale. În tabel. 9.2 prezintă expresii pentru calcularea erorii medii de eșantionare pentru diferite metode de organizare a observației.

Tabelul 9.2 Eroarea medie (m) a mediei și proporția eșantionului pentru diferite tipuri de eșantion

Unde este media variațiilor eșantionului intragrup pentru o caracteristică continuă;

Media dispersiunilor intragrup ale cotei;

— numărul de serii selectate; — numărul total de serii;

,

unde este media seriei a-lea;

- media generală pe întregul eșantion pentru o caracteristică continuă;

,

unde este proporția trăsăturii din seria a III-a;

— ponderea totală a trăsăturii pe întregul eșantion.

Cu toate acestea, mărimea erorii medii poate fi apreciată doar cu o anumită probabilitate Р (Р ≤ 1). Lyapunov A.M. a demonstrat că distribuția mediilor eșantionului, și deci abaterile acestora de la media generală, cu un număr suficient de mare, respectă aproximativ legea distribuției normale, cu condiția ca populația generală să aibă o medie finită și varianță limitată.

Matematic, această afirmație pentru medie este exprimată astfel:

iar pentru fracție, expresia (1) va lua forma:

Unde - Există eroare marginală de eșantionare, care este un multiplu al erorii medii de eșantionare , iar factorul de multiplicitate este criteriul lui Student („factor de încredere”), propus de W.S. Gosset (pseudonim „Student”); valorile pentru diferite dimensiuni ale eșantionului sunt stocate într-un tabel special.

Valorile funcției Ф(t) pentru unele valori ale lui t sunt:

Prin urmare, expresia (3) poate fi citită astfel: cu probabilitate P = 0,683 (68,3%) se poate susține că diferența dintre eșantion și media generală nu va depăși o valoare a erorii medii m(t=1), cu probabilitate P = 0,954 (95,4%)— că nu depășește valoarea a două erori medii m (t = 2), cu probabilitate P = 0,997 (99,7%)- nu va depăși trei valori m (t = 3) . Astfel, determină probabilitatea ca această diferență să depășească de trei ori valoarea erorii medii nivelul de eroareși nu este mai mult decât 0,3% .

În tabel. Sunt date 9.3 formule de calcul al erorii marginale de eșantionare.

Tabelul 9.3 Eroarea marginală de eșantionare (D) pentru medie și proporție (p) pentru diferite tipuri de eșantionare

Extinderea rezultatelor eșantionului la populație

Scopul final al observării eșantionului este de a caracteriza populația generală. Pentru dimensiunile mici ale eșantionului, estimările empirice ale parametrilor ( și ) se pot abate semnificativ de la valorile lor adevărate ( și ). Prin urmare, devine necesar să se stabilească limitele în care se află adevăratele valori ( și ) pentru valorile eșantion ale parametrilor ( și ).

Interval de încredere a unui parametru θ al populației generale se numește un interval aleator de valori ale acestui parametru, care cu o probabilitate apropiată de 1 ( fiabilitate) conține valoarea adevărată a acestui parametru.

eroare marginală mostre Δ vă permite să determinați valorile limită ale caracteristicilor populației generale și ale acestora intervale de încredere, care sunt egale cu:

Concluzie interval de încredere obtinut prin scadere eroare marginală din eșantion înseamnă (cota), iar cea de sus prin adăugarea acesteia.

Interval de încredere pentru medie, folosește eroarea marginală de eșantionare și pentru un anumit nivel de încredere este determinat de formula:

Aceasta înseamnă că cu o probabilitate dată R, care se numește nivelul de încredere și este determinat în mod unic de valoare t, se poate argumenta că adevărata valoare a mediei se află în intervalul de la , iar valoarea reală a acțiunii este în intervalul de la

La calcularea intervalului de încredere pentru cele trei niveluri de încredere standard P=95%, P=99% și P=99,9% valoarea este selectată de . Aplicații în funcție de numărul de grade de libertate. Dacă dimensiunea eșantionului este suficient de mare, atunci valorile corespunzătoare acestor probabilități t sunt egale: 1,96, 2,58 Și 3,29 . Astfel, eroarea marginală de eșantionare ne permite să determinăm valorile marginale ale caracteristicilor populației generale și intervalele de încredere ale acestora:

Distribuția rezultatelor observației selective către populația generală în studiile socio-economice are propriile sale caracteristici, deoarece necesită caracterul complet al reprezentativității tuturor tipurilor și grupurilor sale. Baza pentru posibilitatea unei astfel de distribuții este calculul eroare relativă:

Unde Δ % - eroare relativă marginală de eșantionare; , .

Există două metode principale pentru extinderea unei observații prin eșantion la populație: conversie directă și metoda coeficienților.

Esență conversie directă este de a înmulți media eșantionului!!\overline(x) cu dimensiunea populației.

Exemplu. Să fie estimat numărul mediu de copii mici din oraș printr-o metodă de eșantionare și valoarea unei persoane. Dacă în oraș sunt 1000 de familii tinere, atunci numărul de locuri necesare în creșa municipală se obține prin înmulțirea acestei medii cu mărimea populației generale N = 1000, adică. va fi de 1200 de locuri.

Metoda coeficienților se recomanda folosirea in cazul in care se efectueaza observatia selectiva pentru a clarifica datele de observatie continua.

În acest sens, se utilizează formula:

unde toate variabilele sunt mărimea populației:

Mărimea eșantionului necesară

Tabelul 9.4 Mărimea eșantionului necesară (n) pentru diferite tipuri de organizații de eșantionare

Atunci când se planifica o anchetă de eșantionare cu o valoare predeterminată a erorii de eșantionare admisibile, este necesar să se estimeze corect valoarea necesară marime de mostra. Această sumă poate fi determinată pe baza erorii admisibile în timpul observației selective pe baza unei probabilități date care garantează un nivel de eroare acceptabil (ținând cont de modul în care este organizată observația). Formulele pentru determinarea dimensiunii necesare a eșantionului n pot fi obținute cu ușurință direct din formulele pentru eroarea marginală de eșantionare. Deci, din expresia pentru eroarea marginală:

dimensiunea eșantionului este direct determinată n:

Această formulă arată că odată cu descreșterea erorii marginale de eșantionare Δ crește semnificativ dimensiunea eșantionului necesară, care este proporțională cu varianța și pătratul testului t Student.

Pentru o metodă specifică de organizare a observației, dimensiunea necesară a eșantionului este calculată conform formulelor date în tabel. 9.4.

Exemple practice de calcul

Exemplul 1. Calculul valorii medii și al intervalului de încredere pentru o caracteristică cantitativă continuă.

Pentru a evalua viteza de decontare cu creditorii din bancă, a fost efectuat un eșantion aleatoriu de 10 documente de plată. Valorile lor s-au dovedit a fi egale (în zile): 10; 3; 15; 15; 22; 7; 8; 1; 19; 20.

Obligatoriu cu probabilitate P = 0,954 determina eroarea marginală Δ media eșantionului și limitele de încredere ale timpului mediu de calcul.

Soluţie. Valoarea medie este calculată prin formula din tabel. 9.1 pentru populația eșantion

Dispersia este calculată conform formulei din tabel. 9.1.

Eroarea pătratică medie a zilei.

Eroarea mediei se calculează cu formula:

acestea. valoarea medie este x ± m = 12,0 ± 2,3 zile.

Fiabilitatea mediei a fost

Eroarea limită este calculată prin formula din tabel. 9.3 pentru reselecție, deoarece dimensiunea populației este necunoscută, și pt P = 0,954 nivel de încredere.

Astfel, valoarea medie este `x ± D = `x ± 2m = 12,0 ± 4,6, i.e. valoarea sa reală se află în intervalul de la 7,4 la 16,6 zile.

Utilizarea tabelului Studentului. Aplicația ne permite să concluzionăm că pentru n = 10 - 1 = 9 grade de libertate valoarea obținută este de încredere cu un nivel de semnificație a £ 0,001, i.e. valoarea medie rezultată este semnificativ diferită de 0.

Exemplul 2. Estimarea probabilității (cota generală) r.

Cu o metodă de eșantionare mecanică de anchetă a statutului social a 1000 de familii, a fost relevat că proporția familiilor cu venituri mici a fost w = 0,3 (30%)(eșantionul a fost 2% , adică n/N = 0,02). Necesar cu nivel de încredere p = 0,997 definiți un indicator R familii cu venituri mici din întreaga regiune.

Soluţie. Conform valorilor funcţiei prezentate Ф(t) găsiți pentru un anumit nivel de încredere P = 0,997 sens t=3(vezi formula 3). Eroare de cotă marginală w determinați prin formula din tabel. 9.3 pentru eșantionarea nerepetată (prelevarea mecanică este întotdeauna nerepetată):

Limitarea erorii relative de eșantionare în % va fi:

Probabilitatea (ponderea generală) a familiilor cu venituri mici din regiune va fi p=w±Δw, iar limitele de încredere p sunt calculate pe baza inegalității duble:

w — Δw ≤ p ≤ w — Δw, adică adevărata valoare a lui p se află în:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

Astfel, cu o probabilitate de 0,997, se poate argumenta că proporția familiilor cu venituri mici în rândul tuturor familiilor din regiune variază de la 28,6% la 31,4%.

Exemplul 3 Calculul valorii medii și al intervalului de încredere pentru o caracteristică discretă specificată de o serie de intervale.

În tabel. 9.5. se stabileşte repartizarea aplicaţiilor pentru producerea comenzilor în funcţie de momentul implementării lor de către întreprindere.

Tabelul 9.5 Distribuția observațiilor în funcție de momentul apariției

Soluţie. Timpul mediu de finalizare a comenzii este calculat prin formula:

Timpul mediu va fi:

= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23,1 luni

Primim același răspuns dacă folosim datele de pe p i din penultima coloană a tabelului. 9.5 folosind formula:

Rețineți că mijlocul intervalului pentru ultima gradație se găsește prin completarea artificială a acestuia cu lățimea intervalului gradației anterioare egală cu 60 - 36 = 24 luni.

Dispersia se calculează prin formula

Unde x i- mijlocul seriei de intervale.

Prin urmare!!\sigma = \frac (20^2 + 14^2 + 1 + 25^2 + 49^2)(4) iar eroarea standard este .

Eroarea mediei este calculată prin formula pentru luni, adică media este!!\overline(x) ± m = 23,1 ± 13,4.

Eroarea limită este calculată prin formula din tabel. 9,3 pentru reselecție deoarece dimensiunea populației este necunoscută, pentru un nivel de încredere de 0,954:

Deci media este:

acestea. adevărata sa valoare se află în intervalul de la 0 la 50 de luni.

Exemplul 4 Pentru a determina viteza decontărilor cu creditorii ai N = 500 de întreprinderi ale corporației într-o bancă comercială, este necesar să se efectueze un studiu selectiv folosind metoda selecției aleatorii nerepetitive. Determinați dimensiunea eșantionului necesar n astfel încât, cu o probabilitate P = 0,954, eroarea mediei eșantionului să nu depășească 3 zile, dacă estimările testului au arătat că abaterea standard s a fost de 10 zile.

Soluţie. Pentru a determina numărul de studii necesare n, folosim formula pentru selecția nerepetitivă din tabel. 9.4:

În ea, valoarea lui t este determinată de la nivelul de încredere P = 0,954. Este egal cu 2. Valoarea pătrată medie s = 10, dimensiunea populației N = 500 și eroarea marginală a mediei Δ x = 3. Înlocuind aceste valori în formulă, obținem:

acestea. este suficient să se facă un eșantion de 41 de întreprinderi pentru a estima parametrul necesar - viteza decontărilor cu creditorii.

Numărul total de obiecte de observație (persoane, gospodării, întreprinderi, așezări etc.) cu un anumit set de caracteristici (sex, vârstă, venit, număr, cifra de afaceri etc.), limitat în spațiu și timp. Exemple de populație

  • Toți locuitorii Moscovei (10,6 milioane de oameni conform recensământului din 2002)
  • Bărbați moscoviți (4,9 milioane conform recensământului din 2002)
  • Persoane juridice ruse (2,2 milioane la începutul anului 2005)
  • Puncte de vânzare cu amănuntul de produse alimentare (20 mii la începutul anului 2008), etc.

Eșantion (populație eșantion)

O parte din obiectele din populația selectate pentru studiu pentru a trage o concluzie despre întreaga populație. Pentru ca concluzia obținută prin studierea eșantionului să fie extinsă la întreaga populație, eșantionul trebuie să aibă proprietatea de a fi reprezentativ.

Reprezentativitatea eșantionului

Proprietatea eșantionului de a reflecta corect populația generală. Același eșantion poate fi sau nu reprezentativ pentru populații diferite.
Exemplu:

  • Un eșantion format în întregime din moscoviți care dețin o mașină nu reprezintă întreaga populație a Moscovei.
  • Eșantionul de întreprinderi rusești cu până la 100 de angajați nu reprezintă toate întreprinderile din Rusia.
  • Eșantionul de moscoviți care fac achiziții în piață nu reprezintă comportamentul de cumpărare al tuturor moscoviților.

În același timp, aceste mostre (sub rezerva altor condiții) pot reprezenta perfect proprietarii de mașini moscoviți, întreprinderile rusești mici și mijlocii și, respectiv, cumpărătorii care fac achiziții de pe piețe.
Este important să înțelegem că reprezentativitatea eșantionului și eroarea de eșantionare sunt fenomene diferite. Reprezentativitatea, spre deosebire de eroare, nu depinde de dimensiunea eșantionului.
Exemplu:
Indiferent cât de mult am crește numărul moscoviților chestionați-proprietari de mașini, nu vom putea reprezenta toți moscoviții cu acest eșantion.

Eroare de eșantionare (interval de încredere)

Abaterea rezultatelor obținute cu ajutorul observării eșantionului de la datele adevărate ale populației generale.
Există două tipuri de eroare de eșantionare: statistică și sistematică. Eroarea statistică depinde de dimensiunea eșantionului. Cu cât dimensiunea eșantionului este mai mare, cu atât este mai mică.
Exemplu:
Pentru un eșantion aleator simplu de 400 de unități, eroarea statistică maximă (cu 95% de încredere) este de 5%, pentru un eșantion de 600 de unități - 4%, pentru un eșantion de 1100 de unități - 3%.
Eroarea sistematică depinde de diverși factori care au un impact constant asupra studiului și influențează rezultatele studiului într-o anumită direcție.
Exemplu:

  • Utilizarea oricărui eșantion probabil subestimează proporția persoanelor cu venituri mari care sunt active. Acest lucru se întâmplă din cauza faptului că astfel de oameni sunt mult mai greu de găsit în orice loc anume (de exemplu, acasă).
  • Problema respondenților care refuză să răspundă la întrebări (ponderea „refusenikilor” la Moscova, pentru diferite sondaje, variază de la 50% la 80%)

În unele cazuri, când se cunosc distribuțiile adevărate, părtinirea poate fi nivelată prin introducerea de cote sau reponderarea datelor, dar în majoritatea studiilor reale, chiar și estimarea acesteia poate fi destul de problematică.

Tipuri de mostre

Probele sunt împărțite în două tipuri:

  • probabilistică
  • improbabilitate

1. Probe probabilistice
1.1 Eșantionare aleatorie (selecție aleatorie simplă)
Un astfel de eșantion presupune omogenitatea populației generale, aceeași probabilitate de disponibilitate a tuturor elementelor, prezența unei liste complete a tuturor elementelor. La selectarea elementelor, de regulă, se utilizează un tabel cu numere aleatorii.
1.2 Prelevare mecanică (sistematică).
Un fel de eșantion aleatoriu, sortat după un anumit atribut (ordine alfabetică, număr de telefon, data nașterii etc.). Primul element este selectat aleatoriu, apoi fiecare „k’-al-lea element este selectat în trepte de „n”. Mărimea populației generale, în timp ce - N=n*k
1.3 Stratificat (zonat)
Se folosește în caz de eterogenitate a populației generale. Populația generală este împărțită în grupuri (straturi). În fiecare strat, selecția se realizează aleatoriu sau mecanic.
1.4 Eșantionare în serie (imbricate sau grupate).
La eșantionarea în serie, unitățile de selecție nu sunt obiectele în sine, ci grupuri (clustere sau cuiburi). Grupurile sunt selectate aleatoriu. Obiectele din cadrul grupurilor sunt cercetate peste tot.

2. Mostre incredibile
Selecția într-un astfel de eșantion se efectuează nu după principiile hazardului, ci după criterii subiective - accesibilitate, tipicitate, reprezentare egală etc.
2.1. Eșantionarea cotelor
Inițial, sunt alocate un anumit număr de grupuri de obiecte (de exemplu, bărbați cu vârsta cuprinsă între 20-30 de ani, 31-45 de ani și 46-60 de ani; persoane cu un venit de până la 30 de mii de ruble, cu un venit de 30 până la 60 de ani; mii de ruble și cu un venit de peste 60 de mii de ruble ) Pentru fiecare grup, este specificat numărul de obiecte care urmează să fie cercetate. Numărul de obiecte care ar trebui să se încadreze în fiecare dintre grupuri este stabilit, cel mai adesea, fie proporțional cu ponderea cunoscută anterior a grupului în populația generală, fie la fel pentru fiecare grup. În cadrul grupurilor, obiectele sunt selectate aleatoriu. Eșantionarea cotelor este folosită destul de des.
2.2. Metoda bulgărelui de zăpadă
Eșantionul este construit după cum urmează. Fiecare respondent, începând cu primul, este rugat să-și contacteze prietenii, colegii, cunoscuții care s-ar încadra în condițiile de selecție și ar putea lua parte la studiu. Astfel, cu excepția primului pas, eșantionul este format cu participarea obiectelor de studiu în sine. Metoda este adesea folosită atunci când este necesară găsirea și intervievarea unor grupuri de respondenți greu accesibile (de exemplu, respondenți cu venituri mari, respondenți care aparțin aceluiași grup profesional, respondenți care au unele hobby-uri/pasiuni similare etc. )
2.3 Eșantionarea spontană
Cei mai accesibili respondenți sunt chestionați. Exemple tipice de eșantioane spontane sunt în ziare/reviste date respondenților pentru autocompletare, majoritatea anchetelor pe internet. Mărimea și compoziția eșantioanelor spontane nu este cunoscută dinainte și este determinată de un singur parametru - activitatea respondenților.
2.4 Exemplu de cazuri tipice
Sunt selectate unități ale populației generale care au o valoare medie (tipică) a atributului. Acest lucru ridică problema alegerii unei caracteristici și determinării valorii sale tipice.

Curs de prelegeri despre teoria statisticii

Informații mai detaliate despre observațiile eșantionului pot fi obținute prin vizualizare.

Una dintre componentele principale ale unui studiu bine conceput este definirea eșantionului și ceea ce este un eșantion reprezentativ. Este ca exemplul tortului. La urma urmei, nu este necesar să mănânci întregul desert pentru a-i înțelege gustul? O mică parte este suficientă.

Deci, tortul este populatia (adică toți respondenții care se califică pentru sondaj). Poate fi exprimat teritorial, de exemplu, numai locuitorii regiunii Moscova. Gen - numai femei. Sau au restricții de vârstă - rușii au peste 65 de ani.

Este dificil să calculezi populația: trebuie să ai date din recensământul populației sau anchete de evaluare preliminară. Prin urmare, de obicei populația generală este „estimată”, iar din numărul rezultat se calculează cadru de prelevare sau prelevarea de probe.

Ce este un eșantion reprezentativ?

Probă este un număr bine definit de respondenți. Structura sa ar trebui să coincidă cât mai mult posibil cu structura populației generale în ceea ce privește principalele caracteristici ale selecției.

De exemplu, dacă respondenții potențiali sunt întreaga populație a Rusiei, unde 54% sunt femei și 46% sunt bărbați, atunci eșantionul ar trebui să conțină exact același procent. Dacă parametrii se potrivesc, atunci eșantionul poate fi numit reprezentativ. Aceasta înseamnă că inexactitățile și erorile din studiu sunt minimizate.

Mărimea eșantionului este determinată ținând cont de cerințele de acuratețe și economie. Aceste cerințe sunt invers proporționale între ele: cu cât dimensiunea eșantionului este mai mare, cu atât rezultatul este mai precis. Mai mult, cu cât acuratețea este mai mare, cu atât sunt necesare mai multe costuri pentru studiu. Și invers, cu cât eșantionul este mai mic, cu atât costă mai puțin, cu atât sunt reproduse mai puțin precis și mai aleatoriu proprietățile populației generale.

Prin urmare, pentru a calcula cantitatea de alegere, sociologii au inventat o formulă și au creat calculator special:

Probabilitatea de încredereȘi eroare de încredere

Ce înseamnă termenii " nivel de încredere" Și " eroare de încredere"? Nivelul de încredere este o măsură a acurateței măsurătorilor. O eroare de încredere este o posibilă eroare în rezultatele studiului. De exemplu, cu o populație generală de peste 500,00 de persoane (de exemplu, care locuiește în Novokuznetsk), eșantionul va fi de 384 de persoane cu un nivel de încredere de 95% și o eroare de 5% SAU (cu un interval de încredere de 95 ± 5%).

Ce rezultă din asta? La efectuarea a 100 de studii cu un astfel de eșantion (384 de persoane), în 95 la sută din cazuri, răspunsurile primite, conform legilor statisticii, se vor situa în ± 5% față de original. Și vom obține un eșantion reprezentativ cu o probabilitate minimă de eroare statistică.

După ce se calculează dimensiunea eșantionului, puteți vedea dacă există destui respondenți în versiunea demonstrativă a panoului de chestionare. Puteți afla mai multe despre cum să efectuați un sondaj de grup.



eroare: Conținutul este protejat!!