Vyberte možnost Stránka

Jak určit optimální velikost vzorku pro hromadný průzkum. Velikost vzorku průzkumu

Po určení výzkumné metody a vyvinutí nástroje se stanoví výzkumné parametry: typ, složení a vlastnosti vzorku a jeho objem. Pro určení typu vzorku musíte použít tabulky na přednáškách: určit objem a vlastnosti populace a poté vyberte vzorový model..

Tabulka velikosti vzorku umožňuje určit velikost vzorku na základě předem stanoveného indikátoru spolehlivosti P a předem stanovené přijatelné hodnoty chyby e. P ukazuje, jakou část populace může vzorek co nejvíce pokrýt (to ukazuje jeho spolehlivost) a chyba ukazuje, jaké minimální nesrovnalosti budou přípustné mezi vlastnostmi obecné populace a vlastnostmi vzorku.

Vzorová tabulka velikostí
e P 0,10 0,09 0,03 0,07 0,06 0,05 0,04 0,03 0,02 0,01
0,75
0,80
0,85
0,90
0,91
0,92
0,93
0,94
0,95
0,96
0,965
0,970
0,975
0,980
0,985
0,990
0,991
0,992
0,993
0,994
0,995
0,996
0,997
0,998
0,999


Řekněme, že chceme pokrýt populaci se spolehlivostí alespoň 80 % a v naší studii připustíme chybu alespoň 10 %. Zároveň nevíme nic o tom, jaké hodnoty může nabývat proměnná, kterou studujeme, to znamená, že nemáme žádné apriorní informace o obecné populaci: neznáme průměr ani možný rozptyl. - nic. Pak jednoduše hledáme odpovídající průsečík v tabulce (P = 0,80, e = 0,10): velikost vzorku bude 41 osob. Tabulka je sestavena z výpočtu maximální hodnoty rozptylu dichotomické proměnné. Je vidět, že s nárůstem přesnosti vzorku rychle roste jeho objem – pokud jsme v popisovaném případě viděli objem 41 osob, pak pro parametry v P = 95 % a e = 5 % (norma pro většina studií) objem bude již 384 osob. Proto by se tabulka měla používat v případech, kdy je obecná populace relativně malá a jsou přípustné významné chyby.

Pro zajištění malé velikosti vzorku pro relativně velkou populaci je nutné předem znát distribuční parametry zkoumané proměnné: průměr a rozptyl. V tomto případě můžete pro výpočet vzorků použít níže uvedený nomogram (nomogram byl sestaven pro spolehlivost P = 95 %, což je docela dost). K použití nomogramu potřebujete znát dvě veličiny: koeficient variability proti a přípustná chyba E. Variační koeficient je definován jako variační koeficient

to znamená, že k jejímu určení potřebujete znát aritmetický průměr a směrodatnou odchylku zkoumané proměnné.

Pro zjednodušení výpočtu koeficientu variability je nutné znát rozsah variace, tedy maximální a minimální hodnoty, kterých může zkoumaná proměnná dosáhnout. V tomto případě výpočet proti se dělá takto:

,Kde Xmax, Xmin jsou maximální a minimální hodnoty studované proměnné, A je konstantní reálné kladné číslo (obvykle vybrané mezi 5 a 6).


Příklad 1. Předpokládejme, že víme, že koeficient variability zkoumané proměnné je 6 %. Najděte velikost vzorku s povolenou chybou 5 %. K tomu je na levé stupnici nomogramu označeno proti%, hledáme bod 6. Na pravé stupnici nomogramu, naznačeno ε% , hledáme vybranou hodnotu chyby, která je 5 %. Tyto body označíme na úsecích a spojíme je podél pravítka přímkou. Podíváme se, kde tato přímka protíná centrální stupnici, naznačeno n 1. Tato křižovatka se odehrává v bodě 6. Velikost vzorku tedy bude 6 osob.

Příklad 2. Uvědomme si, že koeficient variability zkoumané proměnné je 16 %. Najděte velikost vzorku pro danou chybu 5 %. 16% více než 10% maximum vyznačeno na stupnici proti% a stupnice jsou logaritmické, takže dělíme 16 10 a na stupnici proti% nomogramy hledající bod 1.6. Na pravé stupnici nomogramu ε% hledáme vybranou hodnotu chyby, která je 5 %. Tyto body označíme na stupnici a spojíme je podél pravítka přímkou. Podívejte se, kde čára protíná centrální stupnici n 1. Křižovatka probíhá v bodě 0,4. Protože jsme snížili 16 % na 1,6 %, tedy 10krát, vynásobíme 0,4 100. Velikost vzorku bude 40 osob (srovnejte s výše uvedeným vzorkem 384 osob pro P = 95 % a e = 5 % bez zohlednění zohlednit konkrétní hodnotu rozptylu).

Příklad 3. Studuje se spotřeba cigaret u studentů a studují se pouze ti, kteří kouří cigarety (obecná populace - kuřáci). Přípustná chyba je 5 %. Dopředu je známo (údaje jsou například převzaty ze zdrojů sekundárních marketingových informací), že studenti vykouří cigarety v množství od jedné krabičky cigaret každé tři dny až po dvě krabičky denně a v průměru jednu krabičku cigaret na den stačí studentovi, který kouří. Pak budou odpovídající hodnoty Xmax=2, Xmin\u003d 0,33 a průměr bude 1. Koeficient variability proti bude

a na levé škále vyčleníme 2,8 %, na pravé 5 %, spojíme je a na centrální stupnici nomogramu dostaneme známku 1,2 – to znamená, že velikost vzorku by měla být 120 osob.

Příklad 4. Předpokládejme, že při použití předchozího příkladu není přístup k cílové reprezentativní skupině (kuřákům). To znamená, že do vzorku musí být zahrnuti kuřáci i nekuřáci. V tomto případě budou parametry pro výpočet Xmax=2, Xmin=0. Jaký bude průměr? Výpočet průměru podle výrazu (2+0)/2=1 není správný, jelikož předchozí průměr byl počítán pouze pro kuřáky a nyní se nebere poměr velikostí skupin kuřáků a nekuřáků. v úvahu. Pokud je například podíl nekuřáků 60 % a podíl kuřáků 40 %, pak by průměr byl 0,4.

Porovnejme možné velikosti vzorků a chyby studie:

Nejsou-li k dispozici údaje o poměru reprezentativních a nereprezentativních skupin v obecné populaci, pak se výpočet koeficientu variability provádí změnou hodnoty A. Zpravidla platí, že pokud je průměr vypočítán výrazem ( Xmax+Xmin)/2, tedy A snížena na 5 nebo méně.

Jak vidíte, jednoduché náhodné vzorkování vyžaduje k dosažení požadované přesnosti značné objemy. Celková velikost vzorku může být výrazně snížena dvěma způsoby:

1) provádění zónování nebo stratifikace, to znamená kvalitativní zvýraznění různé skupiny v obecné populaci a umístění vzorku přesně mezi zástupce těchto skupin;

2) provádění selekce hnízd, to znamená rozdělení obecné populace na velký počet identické části a rozdělení vzorku mezi tyto části.

Při provádění stratifikovaného vzorku můžete postupovat následovně (viz schéma níže).

Zpočátku se zjišťuje, kolik a priori informací je známo o běžné populaci. Pro správně provedený stratifikovaný vzorek minimální velikosti je nutné znát celkovou velikost populace N, počet studovaných vrstev ičíslo každé vrstvy N i a v rámci každé vrstvy odpovídající střední hodnotu zkoumané proměnné a její rozptyl. Pokud jsou známy všechny tyto parametry, je možné pomocí výše diskutovaného nomogramu vypočítat velikost stratifikovaného proporcionálního vzorku.

Chcete-li to provést, nejprve určete obecný rozptyl zkoumané proměnné jako součet rozptylů uvnitř skupiny a mezi skupinami, poté určete obecný průměr průměrných vrstev, poté určete koeficient variability a určete celkovou velikost vzorku z nomogramu, když nastavení dovolené chyby. σ

Obecná odchylka je

Kde σ 2 p - vnitroskupinový rozptyl, A σ 2 m- meziskupinový rozptyl.

Vnitroskupinový rozptyl je určen známé odchylky studovaná proměnná v každé vrstvě

Kde N i- číslo i-ta vrstva, σ 2 i- disperze i-ta vrstva.

Meziskupinová odchylka jsou určeny na základě známých průměrů pro každou vrstvu a obecného průměru vypočteného na jejich základě:

Pokud je znám počet vrstev, ale není známa jejich velikost (a/nebo velikost obecné populace), pak se nejprve vypočítá celková velikost vzorku uvedeným způsobem a poté se vydělí počtem vrstev tak, že každá vrstva obsahuje stejný podíl vzorku – toto bude stratifikovaný stejný vzorek.

Pokud jsou rozptyly v rámci vrstev neznámé, pak je nutné znát rozsah variací v rámci každé vrstvy, tedy hodnoty Xmax A Xmin. Poté lze z výrazu vypočítat disperze vrstev

Pokud není počet vrstev znám, pak se vnitroskupinový rozptyl vypočítá jako jednoduchý aritmetický průměr rozptylů vrstev.

Pokud jsou průměry v každé vrstvě neznámé, ale je znám rozsah variace, pak jsou průměry ve vrstvách definovány jako průměry mezi extrémními hodnotami zkoumané proměnné.

Pokud je přítomnost vrstev neznámá, ale parametry průměru, rozptylu a hustoty distribuce jednotek pozorování jsou známy z obecné populace, pak se provede okresní výběr pomocí vnořených nebo proporcionálních metod. Pokud jsou jednotky pozorování rozmístěny relativně rovnoměrně na území, kde se nachází obecná populace (variační koeficient v hustotě umístění není větší než 15–25 %), pak se používají hnízda, z nichž každé obsahuje stejný počet jednotek pozorování. Hnízda jsou přidělována tak, aby měla stejnou velikost (například plochu). Počet hnízd je úměrný poměru celkové velikosti vzorku n k celkovému počtu pozorovacích jednotek N. Z každého hnízda je vybrána pouze jedna jednotka pozorování, umístění vzorku do hnízd se provádí jednotnou mechanickou nebo náhodnou metodou.

Pokud je rozmístění pozorovacích jednotek ve studované oblasti nerovnoměrné, pak se rozdělí na regiony se stejným počtem pozorovacích jednotek v každé – jedná se o poměrné výběry region od regionů. K tomu se vypočítá celková velikost vzorku podle nomogramu, poté se tento vzorek rozdělí mezi regiony v poměru k počtu jednotek pozorování. V rámci okresů se v tomto případě umístění vzorku provádí buď hnízděním, nebo jiným způsobem, podobným známým postupům při umísťování vzorků.

Příklad 5. Použijme příklad 3, studující spotřebu cigaret. Pokud nejsou k dispozici údaje o možných parametrech zkoumané proměnné, pak s údaji P=95 %, e=5 %, bude velikost vzorku 384 osob. Vyčleňme dvě vrstvy – muže a ženy. Ať je a priori známo (například z pilotní studie), že denní spotřeba krabiček cigaret u mužů je Xmax=2, Xmin= 0,33, u žen Xmax=3, Xmin= 0,1. V tomto případě vypočítejte velikost vzorku

Protože nevíme nic o poměru velikostí vrstev, předpokládáme, že jejich počty jsou stejné a podíly jejich počtu v obecné populaci jsou každá 0,5. Pak bude vnitroskupinový rozptyl

a meziskupinová

s obecným průměrem

Pak bude obecný rozptyl

a koeficient variability bude

Podle nomogramu s povolenou chybou 5 % bude velikost vzorku přibližně 240 osob (o více než 140 méně než podle tabulky). V tomto případě by měl být tento vzorek rozdělen na 120 mužů a 120 žen.

Pokud je tato velikost vzorku příliš velká, je nutné zvýšit počet vrstev a zajistit, aby rozsah variací v každé vrstvě byl minimální a velikosti vrstev byly blízké, to znamená, že se snažíme minimalizovat celkový rozptyl.

V případě, že je známa velikost obecné populace jako celku, je možné upravit velikost vzorku pro neopakování se následovně:

1) pro slavné proti% A E vypočítané z velikosti vzorku nomogramu n 1;

2) daná dovolená chyba je upravena podle velikosti populace

3) podle nomogramu pro opravenou chybu e správně A proti% je nalezena nová velikost vzorku n 2.

Příklad 6 Předpokládejme, že studie je prováděna pro cílový segment 1600 jednotek pozorování s proti%= 25 % a E= 5 %. Podle nomogramu pak bude velikost vzorku 100 jednotek pozorování. Oprava chyby velikosti vzorku

Podle nomogramu bude upravená velikost vzorku (at proti%= 25 % a E=5,2 %) 90 pozorovacích jednotek.

KAPITOLA 1.

V této části práce student zpracuje nasbíraná data a vyvodí závěr ohledně úkolu: jak problém vyřešit.

Pro zpracování může student využít programy MS Excel, SPSS, Statistika pro Windows, MatLab, MatCad a další programy pro zpracování velkých datových polí. Hlavní úkoly, které je třeba vyřešit při použití těchto nástrojů:

ověření údajů:

stanovení zákonů o distribuci;

vytváření vztahů mezi daty;

klasifikace a segmentace dat;

předpovídání vývoje událostí.

Sekvence zpracování dat studie

  1. výpočet v rámci analýzy dvourozměrných rozdělení pro každou datovou tabulku, variační koeficient, korelační poměr a směrodatné odchylky4
  2. výpočet korelačních a kovariančních matic;
  3. výběr datového pole podle předem stanovených podmínek;
  4. výpočet rozvodů (s přihlédnutím k daným podmínkám);
  5. překódování (oprava chyb v datech);
  6. zavedení nových ukazatelů (výpočet indexů).

Níže uvedená tabulka popisuje možné metody analýzy dat. Samozřejmě byste je neměli používat všechny najednou. Student si vybere právě ty 1-2 metody, které jsou pro odhalení problému nejvhodnější.

Kvantitativní metody pro analýzu dat marketingového výzkumu
1. Metody komprese deskriptivní statistiky 2.Metody analýzy bodovacích karet
1.1 Seskupování 1.2 Odhad distribučních parametrů 1.3 Kovarianční a korelační matice
2.1 Orientace na integrální kvalitativní charakteristiku 2.2 Kvantitativní orientace
2.2.1 Analýza rozptylu 2.2.2 Korelačně-regresní analýza 2.2.3 Kauzální analýza
2.1.1 Bez apriorních informací o studovaném znaku 2.1.2 S apriorními informacemi o třídách prvků 2.1.3 S apriorní informací o zvýšení (snížení) funkce)
2.1.1.1 Metody vzájemného hodnocení 2.1.1.2 Analýza datové matice.
2.1.3.1 Posílení měřítka o výsledný atribut 2.1.3.2 Posouzení významnosti ukazatele (řadové korelace)
2.1.1.2.1 Faktorová analýza 2.1.1.2.2 Latentní strukturální analýza 2.1.1.2.3 Shluková analýza 2.1.1.2.4 Metody hodnocení významnosti ukazatele
2.1.2.1 Metody posílení nominální stupnice o výsledný atribut 2.1.2.2 Posouzení významnosti systémových ukazatelů
2.1.2.2.1 Metody teorie rozpoznávání vzorů 2.1.2.2.2 Metody teorie informace 2.1.2.2.3 Metody teorie grafů

K určení hlavních charakteristik lze v závislosti na použitých otázkách použít následující metody analýzy měření na škálách v otázkách:

Statistické metody zjišťování vztahů

Měřítko výsledného (konečného) prvku Faktorová stupnice (prediktor) Statistická metoda zpracování
Kvantitativní (I, O, A, R) Kvantitativní (I, O, A, R) Regrese Korelace
Kvantitativní (I, O, A, R) čas (T) Dynamika časových řad
Kvantitativní (I, O, A, R) Nekvantitativní (C, P) Analýza rozptylu
Kvantitativní (I, O, A, R) Analýza kovarianční typologické regrese
Nekvantitativní (K) Kvantitativní (I, O, A, R) Diskriminační analýza Shluková analýza Taxonomie Štípací směsi
Nekvantitativní (P) Nekvantitativní (C, P) Pořadové korelace Analýza kontingenčních tabulek
Kvantitativní a nekvantitativní Kvantitativní a nekvantitativní Logické rozhodovací funkce
Typy škál v otázkách: I - intervalová, O - relativní, A - absolutní, P - rozdílová, P - ordinální, K - klasifikace (nominální)

Například, korelační analýza pro segmentaci spotřebitelů se provádí takto:

  1. střední hodnoty jsou zvýrazněny, směrodatné odchylky, variační koeficient, chyba průměru a interval spolehlivosti;
  2. je vypočítána kovarianční a korelační matice (například v MS Excel);
  3. počítá se „blízkost“ objektů v prostoru charakteristik (pro segmentaci);
  4. jsou vypočítány cesty maximální korelace za účelem seskupení proměnných;
  5. dráhy maximální vzdálenosti jsou vypočítány pomocí matice vzdálenosti za účelem klasifikace objektů;
  6. jsou určeny nejbližší skupiny, kterými budou segmenty spotřebitelů;
  7. kontroluje se míra blízkosti skupin (například korelační poměr).

V závěru této kapitoly student popíše výsledky analýzy dat tak, aby byla jasná jeho řešení zadaných úkolů pro práci, konečné závěry a jejich formulace.

Závěr

V této části student formuluje kompletní řešení problému položeného na začátku své práce.

Bibliografie

Seznam použitých zdrojů (seznam odkazů) by měl být proveden na konci textu práce v souladu s GOST 7.1-84, například:

Zinnurov U. G. Základy marketingového výzkumu: Tutorial/ U. G. Zinnurov; Ufimsk. Stát letectví tech. un-t. Ufa, 1996.- 110 s.

Zdroje v seznamu jsou umístěny v abecední pořadí. Je třeba uvést odkazy na všechny uvedené zdroje v práci. Poznámky pod čarou na stránce nejsou povoleny.

Pokud jsou zdrojem internetové stránky, je nutné uvést úplnou adresu webu (kopírování jeho adresního řádku), na kterém byly získány konkrétní informace. V tomto případě je uvedeno například datum posledního přístupu na tyto stránky.

Když položíte otázku: "Kolik respondentů potřebuji pro průzkum?", skutečně se ptáte: "Jak velký musí být můj vzorek, abych přesně odhadl svou populaci?" Vzhledem ke složitosti těchto pojmů jsme tento proces rozdělili do 5 kroků, což vám usnadní výpočet ideální velikosti vzorku a zajistí přesnost výsledků vašeho průzkumu.

5 kroků, abyste zajistili, že váš vzorek přesně odhadne populaci:

Krok 1

Jaká je vaše obecná populace?

Pojmem „obecná populace“ rozumíme celou skupinu lidí, na jejichž názor se budete ptát (vzorek bude tvořen příslušníky této populace, kteří se průzkumu skutečně zúčastní).

Chcete-li například porozumět tomu, jak najít trh se zubní pastou ve Francii, vaši populaci budou obyvatelé Francie. A pokud se snažíte určit, kolik dní dovolené by chtěli mít lidé, kteří pracují pro společnost vyrábějící zubní pastu, pak vaši populaci tvoří zaměstnanci této společnosti.

Ať už se jedná o zemi nebo společnost, založení populace je důležitým prvním krokem. Jakmile se rozhodnete pro populaci, nastavte (přibližně) její velikost. Například Francie má asi 65 milionů lidí, ale společnost vyrábějící zubní pastu má pravděpodobně mnohem méně zaměstnanců.

Dostali jste správné číslo? Dobře, tak pojďme dál...

Krok 2

Jaká je požadovaná přesnost?

Tento krok je jakýmsi posouzením toho, jak velké riziko jste ochotni podstoupit ohledně možnosti nepřesných odpovědí v průzkumu kvůli tomu, že nezkoumáte celou populaci. Proto byste měli odpovědět na dvě otázky:

  1. Jak moc si musíte být jisti, že odpovědi, které dostáváte, odrážejí názory běžné populace?
    Toto je vaše míra chyby. Řekněme, že 90 % členů vzorku se líbí žvýkačka s chutí hroznů. Rozpětí chyby 5 % přidává 5 % na každou stranu tohoto čísla, což znamená, že ve skutečnosti 85–95 % vzorku má rádo žvýkačku s hroznovou příchutí. 5 % je nejběžněji používaná chybovost, ale můžete ji nastavit mezi 1 % a 10 % v závislosti na průzkumu. Nedoporučuje se zvyšovat toto číslo nad 10 %.
  2. Jak moc si musíte být jisti, že vzorek přesně reprezentuje populaci?

    Toto je vaše úroveň důvěry. Úroveň spolehlivosti je pravděpodobnost, že vzorek je významný pro získané výsledky. Výpočet se obvykle provádí následovně. Pokud byste náhodně vybrali 30 dalších vzorků z této populace, jak často by se váš výsledek pro jeden vzorek významně lišil od výsledků pro dalších 30 vzorků? Úroveň spolehlivosti 95 % znamená, že v 95 % případů se výsledky shodují. 95 % je nejčastěji používaná hodnota, ale můžete ji nastavit na 90 % nebo 99 % v závislosti na anketě. Snížení hodnoty úrovně spolehlivosti pod 90 % se nedoporučuje.

Krok 3

Jakou velikost vzorku potřebuji?

V níže uvedené tabulce vyberte přibližnou velikost cílové populace a míru chyby pro určení požadovaného počtu dokončených rozhovorů.

Nyní, když máte hodnoty kroku 1 a kroku 2, použijte níže uvedenou praktickou tabulku k určení velikosti požadovaného vzorku...

Populace Hranice chyby Úroveň důvěry
10% 5% 1% 90% 95% 99%
100 50 80 99 74 80 88
500 81 218 476 176 218 286
1000 88 278 906 215 278 400
10 000 96 370 4900 264 370 623
100 000 96 383 8763 270 383 660
1 000 000+ 97 384 9513 271 384 664

Poznámka. Údaje jsou poskytovány pouze jako vodítko. U populací nad 1 milion lze čísla zaokrouhlit na nejbližší stovky.

Krok 4

Jak budou lidé reagovat?

Bohužel ne každý, komu pošlete průzkum, obdrží odpověď.

Procento lidí, kteří vyplní dotazník, který obdrží, se nazývá „míra odpovědí“. Určení procenta respondentů ve vašem průzkumu vám pomůže určit celkový počet instance průzkumu, které je nutné odeslat, aby bylo možné získat požadovaný počet odpovědí.

Míra odpovědí přímo závisí na řadě faktorů, jako je vztah s cílovou skupinou, délka a složitost průzkumu, nabízené pobídky a téma průzkumu. U online průzkumů, kde nebyl předem navázán žádný vztah s příjemci, je míra odpovědí 20–30 % považována za velmi vysokou. Konzervativnější a pravděpodobnější hodnota je 10–14 %, pokud jste dříve v této populaci neprováděli průzkum.

Krok 5

Kolika lidem byste tedy měli dotazník poslat?

Toto je snadný krok!

Jednoduše vydělte číslo, které jste získali v kroku 3, číslem, které jste získali v kroku 4. Toto je vaše magické číslo.

Pokud například chcete, aby průzkum dokončilo 100 žen, které používají šampon, a myslíte si, že ho vyplní 10 % žen, kterým průzkum pošlete, musíte průzkum odeslat 1000 ženám (100/10 %)!

Populace- soubor jednotek, které mají masový charakter, typičnost, kvalitativní jednotnost a přítomnost variace.

Statistický soubor se skládá z věcně existujících objektů (Zaměstnanci, podniky, země, regiony), je objektem.

Populační jednotka- každá konkrétní jednotka statistického souboru.

Jedna a tatáž statistická populace může být v jednom znaku homogenní a v jiném heterogenní.

Kvalitativní uniformita- podobnost všech jednotek populace pro jakýkoli rys a odlišnost pro všechny ostatní.

Ve statistické populaci mají rozdíly mezi jednou a druhou jednotkou populace častěji kvantitativní charakter. Kvantitativní změny v hodnotách atributu různých jednotek populace se nazývají variace.

Variace funkcí- kvantitativní změna znaku (pro kvantitativní znak) při přechodu z jedné jednotky populace do druhé.

podepsat je nemovitost charakteristický nebo jiné vlastnosti jednotek, objektů a jevů, které lze pozorovat nebo měřit. Známky se dělí na kvantitativní a kvalitativní. Různorodost a variabilita hodnoty znaku v jednotlivých jednotkách populace se nazývá variace.

Atributivní (kvalitativní) znaky nejsou kvantifikovatelné (složení populace podle pohlaví). Kvantitativní charakteristiky mají číselné vyjádření (složení obyvatelstva podle věku).

Index- jedná se o zobecňující kvantitativní a kvalitativní charakteristiku jakékoli vlastnosti jednotek nebo agregátů pro daný účel v konkrétních podmínkách času a místa.

Scorecard je soubor indikátorů, které komplexně odrážejí zkoumaný jev.

Zvažte například plat:
  • Znamení - mzdy
  • Statistická populace - všichni zaměstnanci
  • Jednotkou populace je každý dělník
  • Kvalitativní homogenita - časově rozlišená mzda
  • Variace funkce - řada čísel

Obecná populace a vzorek z ní

Základem je soubor dat získaných jako výsledek měření jednoho nebo více znaků. Skutečně pozorovaný soubor objektů, statisticky reprezentovaný řadou pozorování náhodná proměnná, je vzorkování a hypoteticky existující (myšlené) - obecná populace. Obecná populace může být konečná (počet pozorování N = konst) nebo nekonečno ( N = ∞) a vzorek z obecné populace je vždy výsledkem omezeného počtu pozorování. Počet pozorování tvořících vzorek se nazývá velikost vzorku. Pokud je velikost vzorku dostatečně velká n→∞) vzorek se bere v úvahu velký, jinak se tomu říká vzorek omezený objem. Vzorek je zvažován malý, pokud při měření jednorozměrné náhodné veličiny velikost vzorku nepřesáhne 30 ( n<= 30 ), a při současném měření několika ( k) rysy ve vztahu vícerozměrného prostoru n Na k nepřesahuje 10 (n/k< 10) . Vzorové formuláře variační série pokud jsou jejími členy statistiky objednávek, tedy výběrové hodnoty náhodné veličiny X jsou seřazeny vzestupně (seřazené), jsou volány hodnoty atributu možnosti.

Příklad. Téměř stejný náhodně vybraný soubor objektů - komerční banky jednoho správního obvodu Moskvy, lze považovat za vzorek z obecné populace všech komerčních bank v tomto okrese a za vzorek z obecné populace všech komerčních bank v Moskvě. , stejně jako vzorek komerčních bank v zemi atd.

Základní metody vzorkování

Spolehlivost statistických závěrů a smysluplná interpretace výsledků závisí na reprezentativnost vzorky, tzn. úplnost a přiměřenost prezentace vlastností běžné populace, ve vztahu k níž lze tento vzorek považovat za reprezentativní. Studium statistických vlastností populace lze organizovat dvěma způsoby: pomocí kontinuální A nespojitý. Průběžné pozorování zahrnuje vyšetření všech Jednotky studoval agregáty, A nekontinuální (selektivní) pozorování- jen jeho části.

Existuje pět hlavních způsobů, jak organizovat odběr vzorků:

1. jednoduchý náhodný výběr, ve kterém jsou objekty náhodně vybírány z obecné populace objektů (například pomocí tabulky nebo generátoru náhodných čísel) a každý z možných vzorků má stejnou pravděpodobnost. Takové vzorky se nazývají vlastně náhodné;

2. jednoduchý výběr běžným postupem se provádí pomocí mechanické součásti (například data, dny v týdnu, čísla bytů, písmena abecedy atd.) a takto získané vzorky se nazývají mechanické;

3. stratifikované selekce spočívá v tom, že obecná populace objemu je rozdělena na podmnožiny nebo vrstvy (vrstvy) objemu tak, že . Vrstvy jsou z hlediska statistických charakteristik homogenní objekty (obyvatelstvo je například rozděleno do vrstev podle věkové skupiny nebo sociální třídy; podniky podle odvětví). V tomto případě jsou volány vzorky stratifikované(v opačném případě, stratifikovaný, typický, zónový);

4. metody seriál selekce se používají k vytvoření seriál nebo vnořené vzorky. Jsou vhodné, pokud je potřeba zkoumat „blok“ nebo řadu předmětů najednou (například zásilku zboží, výrobky určité série nebo obyvatelstvo v územně-správním členění země). Výběr sérií může být proveden náhodným nebo mechanickým způsobem. Současně se provádí průběžný průzkum určité šarže zboží, případně celého územního celku (bytový dům nebo čtvrť);

5. kombinovaný(stupňovitý) výběr může kombinovat několik metod výběru najednou (například stratifikovaný a náhodný nebo náhodný a mechanický); takový vzorek se nazývá kombinovaný.

Typy výběru

Podle mysl existuje individuální, skupinový a kombinovaný výběr. Na individuální výběr ve výběrovém souboru jsou vybrány jednotlivé jednotky běžné populace, s skupinový výběr jsou kvalitativně homogenní skupiny (řady) jednotek, a kombinovaný výběr zahrnuje kombinaci prvního a druhého typu.

Podle metoda výběr rozlišit opakované a neopakující se vzorek.

Neopakovatelný tzv. selekce, kdy se jednotka, která spadla do vzorku, nevrací do původní populace a neúčastní se dalšího výběru; zatímco počet jednotek běžné populace N během výběrového řízení snížena. Na opakoval výběr chycen ve vzorku je jednotka po registraci vrácena obecné populaci a zachovává si tak stejnou příležitost, spolu s ostatními jednotkami, být využita v dalším výběrovém řízení; zatímco počet jednotek běžné populace N zůstává nezměněna (metoda se v socioekonomických studiích používá jen zřídka). Nicméně s velkým N (N → ∞) vzorce pro neopakované výběr se blíží těm pro opakoval výběr a druhé se používají téměř častěji ( N = konst).

Hlavní charakteristiky parametrů obecné a výběrové populace

Základem statistických závěrů studie je rozdělení náhodné veličiny a zároveň pozorované hodnoty (x 1, x 2, ..., x n) se nazývají realizace náhodné veličiny X(n je velikost vzorku). Distribuce náhodné veličiny v obecné populaci je teoretická, ideální svou povahou a její vzorová analogie ano empirický rozdělení. Některá teoretická rozdělení jsou uvedena analyticky, tzn. jejich možnosti určit hodnotu distribuční funkce v každém bodě v prostoru možných hodnot náhodné veličiny. U vzorku je proto obtížné a někdy nemožné určit distribuční funkci možnosti jsou odhadnuty z empirických dat a poté jsou nahrazeny analytickým výrazem popisujícím teoretické rozdělení. V tomto případě je předpoklad (resp hypotéza) o typu rozdělení může být jak statisticky správné, tak i chybné. Ale v každém případě empirická distribuce rekonstruovaná ze vzorku pouze zhruba charakterizuje to pravé. Nejdůležitější distribuční parametry jsou očekávaná hodnota a disperze.

Distribuce jsou ze své podstaty kontinuální A oddělený. Nejznámější spojité rozdělení je normální. Selektivní analogy parametrů a pro ně jsou: střední hodnota a empirický rozptyl. Mezi diskrétními v socioekonomických studiích se nejčastěji používá alternativní (dichotomický) rozdělení. Parametr očekávání tohoto rozdělení vyjadřuje relativní hodnotu (resp podíl) jednotky populace, které mají sledovanou charakteristiku (je označena písmenem ); podíl populace, který tuto vlastnost nemá, je označen písmenem q (q = 1 – p). Rozptyl alternativního rozdělení má také empirickou analogii.

V závislosti na typu rozdělení a na způsobu výběru populačních jednotek se charakteristiky distribučních parametrů počítají odlišně. Hlavní pro teoretické a empirické rozdělení jsou uvedeny v tabulce. 9.1.

Vzorový podíl k n je poměr počtu jednotek výběrové populace k počtu jednotek obecné populace:

kn = n/N.

Vzorový podíl w je poměr jednotek, které mají studovaný znak X na velikost vzorku n:

w = n n / n.

Příklad. V dávce zboží obsahující 1000 jednotek s 5% vzorkem frakce vzorku k n v absolutní hodnotě je 50 jednotek. (n = N*0,05); pokud jsou v tomto vzorku nalezeny 2 vadné výrobky, pak frakce vzorku w bude 0,04 (w = 2/50 = 0,04 nebo 4 %).

Vzhledem k tomu, že výběrová populace se liší od obecné populace, existují vzorkovací chyby.

Tabulka 9.1 Hlavní parametry obecné a výběrové populace

Chyby při vzorkování

U jakýchkoli (solidních a selektivních) mohou nastat chyby dvou typů: registrace a reprezentativnost. Chyby Registrace může mít náhodný A systematický charakter. Náhodný chyby jsou tvořeny mnoha různými nekontrolovatelnými příčinami, jsou svou povahou neúmyslné a obvykle se vzájemně vyrovnávají (například změny údajů přístrojů v důsledku kolísání teploty v místnosti).

Systematický chyby jsou neobjektivní, neboť porušují pravidla pro výběr objektů ve vzorku (např. odchylky v měření při změně nastavení měřicího zařízení).

Příklad. Pro posouzení sociálního postavení obyvatel ve městě se plánuje vyšetření 25 % rodin. Pokud se však vybírá každý čtvrtý byt podle jeho čísla, pak hrozí nebezpečí výběru všech bytů pouze jednoho typu (např. jednopokojové), což povede k systematické chybě a zkreslení výsledků; výběr čísla bytu podle lotu je vhodnější, protože chyba bude náhodná.

Chyby v reprezentativnosti jsou vlastní pouze selektivnímu pozorování, nelze se jim vyhnout a vznikají v důsledku skutečnosti, že vzorek plně nereprodukuje obecný. Hodnoty ukazatelů získané ze vzorku se liší od ukazatelů stejných hodnot v běžné populaci (nebo získaných při průběžném pozorování).

Chyba vzorkování je rozdíl mezi hodnotou parametru v obecné populaci a jeho výběrovou hodnotou. Pro průměrnou hodnotu kvantitativního atributu se rovná: , a pro podíl (alternativní atribut) - .

Chyby ve výběru jsou vlastní pouze pozorování vzorků. Čím větší jsou tyto chyby, tím více se empirické rozdělení liší od teoretického. Parametry empirického rozdělení a jsou náhodné veličiny, proto jsou výběrové chyby také náhodné veličiny, mohou nabývat různých hodnot pro různé vzorky, a proto je obvyklé počítat průměrná chyba.

Průměrná výběrová chyba je hodnota vyjadřující směrodatnou odchylku výběrového průměru od matematického očekávání. Tato hodnota, podléhající principu náhodného výběru, závisí především na velikosti vzorku a na stupni variace znaku: čím větší a menší je variace znaku (tedy hodnota ), tím menší je hodnota znaku. průměrná výběrová chyba. Poměr mezi rozptyly obecné a výběrové populace je vyjádřen vzorcem:

těch. pro dostatečně velké, můžeme předpokládat, že . Průměrná výběrová chyba ukazuje možné odchylky parametru výběrové populace od parametru obecné populace. V tabulce. 9.2 ukazuje výrazy pro výpočet průměrné výběrové chyby pro různé metody organizace pozorování.

Tabulka 9.2 Střední chyba (m) průměru vzorku a podílu pro různé typy vzorků

Kde je průměr rozptylů vnitroskupinového vzorku pro spojitý znak;

Průměr vnitroskupinových rozptylů podílu;

— počet vybraných sérií, — celkový počet sérií;

,

kde je průměr tý řady;

- obecný průměr za celý vzorek pro spojitý prvek;

,

kde je podíl znaku v tý řadě;

— celkový podíl znaku v celém vzorku.

Velikost průměrné chyby lze však posoudit pouze s určitou pravděpodobností Р (Р ≤ 1). Ljapunov A.M. prokázali, že rozdělení výběrových průměrů a tím i jejich odchylky od obecného průměru při dostatečně velkém počtu přibližně dodržují zákon normálního rozdělení za předpokladu, že obecná populace má konečný průměr a omezený rozptyl.

Matematicky je toto tvrzení pro průměr vyjádřeno jako:

a pro zlomek bude mít výraz (1) tvar:

Kde - Tady je mezní výběrová chyba, což je násobek průměrné výběrové chyby , a multiplicitní faktor je Studentovo kritérium ("faktor spolehlivosti"), navržené W.S. Gosset (pseudonym "Student"); hodnoty pro různé velikosti vzorků jsou uloženy ve speciální tabulce.

Hodnoty funkce Ф(t) pro některé hodnoty t jsou:

Proto výraz (3) lze číst takto: s pravděpodobností P = 0,683 (68,3 %) lze tvrdit, že rozdíl mezi výběrovým souborem a obecným průměrem nepřekročí jednu hodnotu střední chyby m(t=1), s pravděpodobností P = 0,954 (95,4 %)— že nepřekračuje hodnotu dvou středních chyb m (t = 2), s pravděpodobností P = 0,997 (99,7 %)- nepřekročí tři hodnoty m (t = 3). Určuje tedy pravděpodobnost, že tento rozdíl překročí trojnásobek hodnoty střední chyby chybová úroveň a není více než 0,3% .

V tabulce. 9.3 jsou uvedeny vzorce pro výpočet mezní výběrové chyby.

Tabulka 9.3 Mezní výběrová chyba (D) pro průměr a podíl (p) pro různé typy vzorkování

Rozšíření výsledků vzorku na populaci

Konečným cílem pozorování vzorku je charakterizovat obecnou populaci. U malých velikostí vzorků se mohou empirické odhady parametrů ( a ) výrazně lišit od jejich skutečných hodnot ( a ). Proto je nutné stanovit hranice, ve kterých leží skutečné hodnoty ( a ) pro vzorové hodnoty parametrů ( a ).

Interval spolehlivosti některého parametru θ obecné populace se nazývá náhodný rozsah hodnot tohoto parametru, který s pravděpodobností blízkou 1 ( spolehlivost) obsahuje skutečnou hodnotu tohoto parametru.

mezní chyba Vzorky Δ umožňuje určit mezní hodnoty charakteristik běžné populace a jejich intervaly spolehlivosti, které se rovnají:

Sečteno a podtrženo interval spolehlivosti získané odečtením mezní chyba z průměru vzorku (podíl) a horního přidáním.

Interval spolehlivosti pro průměr používá mezní výběrovou chybu a pro danou úroveň spolehlivosti je určena vzorcem:

To znamená, že s danou pravděpodobností R, která se nazývá hladina spolehlivosti a je jednoznačně určena hodnotou t, lze tvrdit, že skutečná hodnota průměru leží v rozmezí od , a skutečná hodnota akcie je v rozmezí od

Při výpočtu intervalu spolehlivosti pro tři standardní úrovně spolehlivosti P=95 %, P=99 % a P=99,9 % hodnota je vybrána pomocí . Aplikace v závislosti na počtu stupňů volnosti. Pokud je velikost vzorku dostatečně velká, pak hodnoty odpovídající těmto pravděpodobnostem t jsou rovny: 1,96, 2,58 A 3,29 . Mezní výběrová chyba nám tedy umožňuje určit mezní hodnoty charakteristik obecné populace a jejich intervaly spolehlivosti:

Distribuce výsledků selektivního pozorování k obecné populaci v socioekonomických studiích má své vlastní charakteristiky, protože vyžaduje úplnost reprezentativnosti všech jeho typů a skupin. Základem pro možnost takového rozdělení je kalkulace relativní chyba:

Kde Δ % - relativní mezní výběrová chyba; , .

Existují dvě hlavní metody pro rozšíření pozorování vzorku na populaci: přímý převod a metoda koeficientů.

Podstata přímou konverzi je vynásobit průměr vzorku!!\overline(x) velikostí populace .

Příklad. Nechte průměrný počet batolat ve městě odhadnout metodou odběru vzorků na osobu. Je-li ve městě 1000 mladých rodin, pak počet požadovaných míst v městské školce získáme vynásobením tohoto průměru velikostí běžné populace N = 1000, tzn. bude 1200 míst.

Metoda koeficientů je vhodné použít v případě, kdy se provádí selektivní pozorování, aby se vyjasnily údaje kontinuálního pozorování.

Přitom se používá vzorec:

kde všechny proměnné jsou velikost populace:

Požadovaná velikost vzorku

Tabulka 9.4 Požadovaná velikost vzorku (n) pro různé typy organizace odběru vzorků

Při plánování výběrového průzkumu s předem stanovenou hodnotou dovolené výběrové chyby je nutné správně odhadnout požadovanou velikost vzorku. Toto množství lze určit na základě dovolené chyby během selektivního pozorování na základě dané pravděpodobnosti, která zaručuje přijatelnou úroveň chyb (s přihlédnutím ke způsobu organizace pozorování). Vzorce pro stanovení požadované velikosti vzorku n lze snadno získat přímo ze vzorců pro mezní výběrovou chybu. Takže z výrazu pro okrajovou chybu:

velikost vzorku je určena přímo n:

Tento vzorec ukazuje, že s klesající mezní chybou výběru Δ výrazně zvyšuje požadovanou velikost vzorku, která je úměrná rozptylu a druhé mocnině Studentova t-testu.

Pro konkrétní metodu organizace pozorování se požadovaná velikost vzorku vypočítá podle vzorců uvedených v tabulce. 9.4.

Praktické příklady výpočtů

Příklad 1. Výpočet střední hodnoty a intervalu spolehlivosti pro spojitou kvantitativní charakteristiku.

Pro posouzení rychlosti vypořádání s věřiteli v bance byl proveden náhodný vzorek 10 platebních dokladů. Jejich hodnoty se ukázaly být stejné (ve dnech): 10; 3; 15; 15; 22; 7; 8; 1; 19; 20.

Vyžadováno s pravděpodobností P = 0,954 určit mezní chybu Δ průměr vzorku a meze spolehlivosti průměrné doby výpočtu.

Řešení. Průměrná hodnota se vypočítá podle vzorce z tabulky. 9.1 pro výběrovou populaci

Disperze se vypočítá podle vzorce z tabulky. 9.1.

Střední kvadratická chyba dne.

Chyba průměru se vypočítá podle vzorce:

těch. střední hodnota je x ± m = 12,0 ± 2,3 dne.

Spolehlivost průměru byla

Mezní chyba se vypočítá podle vzorce z tabulky. 9.3 pro reselekci, protože velikost populace není známa, a pro P = 0,954úroveň důvěry.

Střední hodnota je tedy `x ± D = `x ± 2m = 12,0 ± 4,6, tzn. jeho skutečná hodnota leží v rozmezí od 7,4 do 16,6 dne.

Použití studentské tabulky. Aplikace nám umožňuje dojít k závěru, že pro n = 10 - 1 = 9 stupňů volnosti je získaná hodnota spolehlivá s hladinou významnosti a £ 0,001, tzn. výsledná střední hodnota se výrazně liší od 0.

Příklad 2. Odhad pravděpodobnosti (obecný podíl) r.

Mechanickou metodou výběrového šetření sociálního postavení 1000 rodin bylo zjištěno, že podíl rodin s nízkými příjmy byl w = 0,3 (30 %)(vzorek byl 2% , tj. n/N = 0,02). Vyžadováno s úrovní spolehlivosti p = 0,997 definovat indikátor R nízkopříjmové rodiny v celém regionu.

Řešení. Podle prezentovaných funkčních hodnot Ф(t) najít pro danou úroveň spolehlivosti P = 0,997 význam t=3(viz vzorec 3). Chyba mezního podílu w určit podle vzorce z tabulky. 9.3 pro neopakující se vzorkování (mechanické vzorkování je vždy neopakující se):

Omezující relativní výběrovou chybu v % bude:

Pravděpodobnost (obecný podíl) nízkopříjmových rodin v kraji bude p=w±Δw a meze spolehlivosti p jsou vypočteny na základě dvojité nerovnosti:

w — Δw ≤ p ≤ w — Δw, tj. skutečná hodnota p leží uvnitř:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

S pravděpodobností 0,997 lze tedy tvrdit, že podíl nízkopříjmových rodin mezi všemi rodinami v kraji se pohybuje od 28,6 % do 31,4 %.

Příklad 3 Výpočet střední hodnoty a intervalu spolehlivosti pro diskrétní prvek určený intervalovou řadou.

V tabulce. 9.5. je stanovena distribuce aplikací pro výrobu zakázek podle načasování jejich realizace podnikem.

Tabulka 9.5 Rozdělení pozorování podle doby výskytu

Řešení. Průměrná doba dokončení objednávky se vypočítá podle vzorce:

Průměrná doba bude:

= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23,1 měsíce

Stejnou odpověď dostaneme, pokud použijeme údaje o p i z předposledního sloupce tabulky. 9.5 pomocí vzorce:

Všimněte si, že střed intervalu pro poslední gradaci se zjistí umělým doplněním o šířku intervalu předchozí gradace rovnající se 60 - 36 = 24 měsícům.

Rozptyl se vypočítá podle vzorce

Kde x i- střed intervalové řady.

Proto!!\sigma = \frac (20^2 + 14^2 + 1 + 25^2 + 49^2)(4) a standardní chyba je .

Chyba průměru se vypočítá podle vzorce pro měsíce, tzn. průměr je!!\overline(x) ± m = 23,1 ± 13,4.

Mezní chyba se vypočítá podle vzorce z tabulky. 9.3 pro opakovaný výběr, protože velikost populace není známa, pro úroveň spolehlivosti 0,954:

Takže průměr je:

těch. jeho skutečná hodnota leží v rozmezí od 0 do 50 měsíců.

Příklad 4 Pro zjištění rychlosti vypořádání s věřiteli N = 500 podniků korporace v komerční bance je nutné provést výběrovou studii metodou náhodného neopakovatelného výběru. Určete požadovanou velikost vzorku n tak, aby s pravděpodobností P = 0,954 nepřesáhla chyba výběrového průměru 3 dny, pokud zkušební odhady ukázaly, že směrodatná odchylka s byla 10 dnů.

Řešení. Pro stanovení počtu potřebných studií n použijeme vzorec pro neopakující se výběr z tabulky. 9.4:

V něm je hodnota t určena z pro hladinu spolehlivosti P = 0,954. Je rovna 2. Střední kvadratická hodnota s = 10, velikost populace N = 500 a mezní chyba průměru Δ x = 3. Dosazením těchto hodnot do vzorce dostaneme:

těch. pro odhad požadovaného parametru - rychlosti vyrovnání s věřiteli stačí udělat vzorek 41 podniků.

Celkový počet objektů pozorování (lidí, domácností, podniků, sídel atd.) s určitým souborem charakteristik (pohlaví, věk, příjem, počet, obrat atd.), omezených v prostoru a čase. Populační příklady

  • Všichni obyvatelé Moskvy (10,6 milionu lidí podle sčítání lidu z roku 2002)
  • Moskvané muži (4,9 milionu podle sčítání lidu z roku 2002)
  • Ruské právnické osoby (2,2 milionu na začátku roku 2005)
  • Maloobchodní prodejny potravinářských výrobků (20 tis. na začátku roku 2008) atd.

Vzorek (vzorová populace)

Část objektů z populace byla vybrána ke studiu za účelem vyvodit závěr o celé populaci. Aby se závěr získaný studiem vzorku rozšířil na celou populaci, musí mít vzorek tu vlastnost, že je reprezentativní.

Vzorová reprezentativnost

Vlastnost vzorku správně odrážet obecnou populaci. Stejný vzorek může, ale nemusí být reprezentativní pro různé populace.
Příklad:

  • Vzorek sestávající výhradně z Moskvanů, kteří vlastní auto, nepředstavuje celou populaci Moskvy.
  • Vzorek ruských podniků do 100 zaměstnanců nepředstavuje všechny podniky v Rusku.
  • Vzorek Moskvanů nakupujících na trhu nepředstavuje nákupní chování všech Moskvanů.

Současně mohou tyto vzorky (za jiných podmínek) dokonale reprezentovat moskevské majitele automobilů, malé a střední ruské podniky a kupující nakupující na trzích, resp.
Je důležité pochopit, že reprezentativnost vzorku a výběrová chyba jsou různé jevy. Reprezentativnost, na rozdíl od chyby, nezávisí na velikosti vzorku.
Příklad:
Bez ohledu na to, jak moc zvýšíme počet dotázaných Moskvanů-majitelů aut, nebudeme schopni tímto vzorkem zastupovat všechny Moskvany.

Chyba vzorkování (interval spolehlivosti)

Odchylka výsledků získaných pomocí výběrového pozorování od skutečných dat běžné populace.
Existují dva typy výběrových chyb: statistické a systematické. Statistická chyba závisí na velikosti vzorku. Čím větší je velikost vzorku, tím je menší.
Příklad:
Pro jednoduchý náhodný výběr 400 jednotek je maximální statistická chyba (s 95% spolehlivostí) 5%, pro vzorek 600 jednotek - 4%, pro vzorek 1100 jednotek - 3% .
Systematická chyba závisí na různých faktorech, které mají neustálý dopad na studii a zkreslují výsledky studie určitým směrem.
Příklad:

  • Použití jakéhokoli pravděpodobnostního vzorku podhodnocuje podíl lidí s vysokými příjmy, kteří jsou aktivní. To se děje kvůli skutečnosti, že takové lidi je mnohem obtížnější najít na konkrétním místě (například doma).
  • Problém respondentů, kteří odmítají odpovídat na otázky (podíl „odmítačů“ v Moskvě se v různých průzkumech pohybuje od 50 % do 80 %)

V některých případech, kdy jsou známa skutečná rozdělení, lze zkreslení vyrovnat zavedením kvót nebo převážením dat, ale ve většině skutečných studií může být i odhadování značně problematické.

Typy vzorků

Vzorky jsou rozděleny do dvou typů:

  • pravděpodobnostní
  • nepravděpodobnost

1. Pravděpodobnostní vzorky
1.1 Náhodný výběr (jednoduchý náhodný výběr)
Takový vzorek předpokládá homogenitu obecné populace, stejnou pravděpodobnost dostupnosti všech prvků, přítomnost úplného seznamu všech prvků. Při výběru prvků se zpravidla používá tabulka náhodných čísel.
1.2 Mechanický (systematický) odběr vzorků
Jakýsi náhodný vzorek, seřazený podle nějakého atributu (abecední pořadí, telefonní číslo, datum narození atd.). První prvek je vybrán náhodně, poté je vybrán každý 'k'-tý prvek v přírůstcích 'n'. Velikost obecné populace, zatímco - N=n*k
1.3 Stratifikovaný (zónový)
Používá se v případě heterogenity běžné populace. Obecná populace se dělí na skupiny (vrstvy). V každé vrstvě se výběr provádí náhodně nebo mechanicky.
1.4 Sériové (vnořené nebo seskupené) vzorkování
Při sériovém vzorkování nejsou jednotkami výběru samotné objekty, ale skupiny (shluky nebo hnízda). Skupiny jsou vybírány náhodně. Objekty ve skupinách jsou sledovány všude.

2. Neuvěřitelné vzorky
Výběr v takovém vzorku se neprovádí podle principů náhody, ale podle subjektivních kritérií - dostupnost, typičnost, rovné zastoupení atd.
2.1. Vzorkování kvót
Zpočátku je přidělen určitý počet skupin objektů (například muži ve věku 20-30 let, 31-45 let a 46-60 let; osoby s příjmem do 30 tisíc rublů, s příjmem 30 až 60 let tisíc rublů a s příjmem vyšším než 60 tisíc rublů ) Pro každou skupinu je uveden počet zkoumaných objektů. Počet objektů, které by měly spadat do každé ze skupin, se nastavuje nejčastěji buď v poměru k dříve známému podílu skupiny na celkové populaci, nebo stejně pro každou skupinu. V rámci skupin jsou objekty vybírány náhodně. Kvótní vzorkování se používá poměrně často.
2.2. Metoda sněhové koule
Vzorek je konstruován následovně. Každý respondent, počínaje prvním, je požádán, aby kontaktoval své přátele, kolegy, známé, kteří by vyhovovali podmínkám výběru a mohli by se studie zúčastnit. Vzorek je tedy s výjimkou prvního kroku tvořen za účasti samotných objektů studia. Metoda se často používá, když je potřeba najít a vyzpovídat těžko dostupné skupiny respondentů (například respondenty s vysokým příjmem, respondenty patřící do stejné profesní skupiny, respondenty, kteří mají nějaké podobné koníčky/vášně atd.). )
2.3 Spontánní odběr vzorků
Dotazováni jsou nejdostupnější respondenti. Typické příklady spontánních vzorků jsou v novinách/časopisech, které respondenti dostali k samostatnému vyplnění, většina internetových průzkumů. Velikost a složení spontánních vzorků není předem známa a je určena pouze jedním parametrem – aktivitou respondentů.
2.4 Ukázka typických případů
Jsou vybrány jednotky obecné populace, které mají průměrnou (typickou) hodnotu atributu. To vyvolává problém s výběrem prvku a určením jeho typické hodnoty.

Kurz přednášek z teorie statistiky

Podrobnější informace o pozorováních vzorků lze získat prohlížením.

Jednou z hlavních součástí dobře navržené studie je definice vzorku a toho, co je reprezentativní vzorek. Je to jako v příkladu dortu. Není přece nutné sníst celý dezert, abyste pochopili jeho chuť? Stačí malá část.

Takže dort je populace (tedy všichni respondenti, kteří se do průzkumu kvalifikují). Může být vyjádřen územně, například pouze obyvatelé moskevské oblasti. Pohlaví – pouze ženy. Nebo mít věková omezení – Rusové jsou starší 65 let.

Spočítat počet obyvatel je obtížné: potřebujete údaje ze sčítání lidu nebo předběžných hodnotících průzkumů. Obvykle se tedy obecná populace „odhaduje“ a z výsledného čísla se počítá vzorkovací rám nebo vzorkování.

Co je reprezentativní vzorek?

Vzorek je přesně definovaný počet respondentů. Jeho struktura by se měla co nejvíce shodovat se strukturou běžné populace z hlediska hlavních charakteristik výběru.

Pokud jsou například potenciálními respondenty celá populace Ruska, kde 54 % tvoří ženy a 46 % muži, pak by vzorek měl obsahovat přesně stejné procento. Pokud se parametry shodují, lze vzorek označit za reprezentativní. To znamená, že nepřesnosti a chyby ve studii jsou minimalizovány.

Velikost vzorku je stanovena s ohledem na požadavky na přesnost a hospodárnost. Tyto požadavky jsou navzájem nepřímo úměrné: čím větší je velikost vzorku, tím přesnější je výsledek. Kromě toho, čím vyšší je přesnost, tím vyšší jsou náklady na studii. A naopak, čím menší vzorek, tím méně stojí, tím méně přesně a náhodně jsou reprodukovány vlastnosti obecné populace.

Proto pro výpočet množství výběru sociologové vynalezli vzorec a vytvořili speciální kalkulačka:

Pravděpodobnost spolehlivosti A chyba důvěry

Co znamenají podmínky" úroveň důvěry" A " chyba důvěry"? Úroveň spolehlivosti je mírou přesnosti měření. Chyba spolehlivosti je možná chyba ve výsledcích studie. Například s obecnou populací více než 500 000 lidí (například žijící v Novokuzněcku) bude vzorek tvořit 384 lidí s hladinou spolehlivosti 95 % a chybou 5 % NEBO (s intervalem spolehlivosti 95 ± 5 %).

Co z toho vyplývá? Při provádění 100 studií s takovýmto vzorkem (384 lidí) budou v 95 procentech případů obdržené odpovědi podle zákonů statistiky v rozmezí ± 5 % původní. A dostaneme reprezentativní vzorek s minimální pravděpodobností statistické chyby.

Po provedení výpočtu velikosti vzorku můžete v demo verzi panelu dotazníku zjistit, zda je dostatek respondentů. Můžete se dozvědět více o tom, jak provést panelový průzkum.



chyba: Obsah je chráněn!!