Vyberte možnost Stránka

Interval spolehlivosti pro rozptyl, když je znám průměr. Interval spolehlivosti pro rozptyl normálního rozdělení

Zde je průměr považován za známé pevné číslo a rozptyl funguje jako neznámý parametr. Položme

Protože --, má standardní normální rozdělení. Funkce má tedy rozložení stupňů volnosti, které v žádném případě nezávisí na neznámém parametru. Označení pomocí kvantilů tohoto rozdělení a stanovení některých, např , dostáváme se k nerovnosti

který je spokojen s pravděpodobností . Kde získáme interval spolehlivosti pro:

Interval spolehlivosti pro rozptyl s neznámým průměrem

Všimněte si, že funkce je definována tak, že pro daný vzorek její hodnoty závisí pouze na parametru. O rozdělení náhodné veličiny , pak podle Fisherovy věty (viz 8.3) jde o -rozdělení stupňů volnosti a nezávisí tedy na neznámých parametrech. Oprava tak, že a uvažováním jako v (47) dojdeme k následujícímu intervalu spolehlivosti pro:

který lze pomocí zápisu (30) přepsat následovně

Interval spolehlivosti pro průměr s neznámým rozptylem

Stejně jako v předchozím odstavci jsou oba parametry považovány za neznámé, přičemž interferujícím parametrem je interferující parametr. Podle Fisherovy věty

A

jsou nezávislé a mají distribuce a distribuce stupně volnosti. Proto ten poměr

má Studentské rozdělení se stupni volnosti. Vyberme funkci rovná se pravé straně (48):

kde je výběrový rozptyl definovaný vzorcem (30). Funkce není explicitně závislá na interferujícím parametru. Označením stupně volnosti pomocí kvantilu Studentova rozdělení získáme nerovnost

splněno s pravděpodobností. Odtud dostaneme interval spolehlivosti pro:

Protože Studentovo rozdělení je symetrické, pak podle tvrzení 3.3

Proto lze interval spolehlivosti zapsat jako

Výběrový průměr je tedy uprostřed tohoto intervalu.

Příklad 8.2

Podívejme se na příklad 6.4. Předpokládat ze kterého je každý vzorek odebrán normální distribuce z neznámý parametry - a podle toho. (O tom, na základě čeho lze takový předpoklad učinit, si povíme později v 9.5.)

Naším cílem je najít intervaly spolehlivosti pro teoretický obsah uhlíku a pevnost v tahu oceli GS50. Připomeňme, že velikost každého ze vzorků. Pojďme to napravit pravděpodobnost spolehlivosti, blízko k jednotě, řekněme. Přibližně to určíme pomocí tabulky rozdělení studentů na stránce. Vyvoláme hodnoty uvedené v příkladu 6.5 na stránce a vypočítáme

a pomocí vzorce (49) získáme interval spolehlivosti pro procento obsah uhlíku

a - interval spolehlivosti pro hodnotu pevnost v tahu

Laboratorní práce č. 12. Základy teorie hodnocení

Statistik se zabývá údaji podléhajícími náhodné variabilitě. Jejich chování je charakterizováno určitým zákonem rozdělení pravděpodobnosti. Takový zákon zpravidla obsahuje neznámé veličiny, které jsou považovány za parametry zákona. Vzhledem k náhodné variabilitě pozorovaných dat je nemožné na jejich základě indikovat zcela přesnou hodnotu parametrů. Musíme se spokojit pouze s přibližnými hodnotami. Matematický statistik tedy pracuje s následujícími veličinami: - náhodná veličina, kterou nikdy nepozoruje, ale kterou považuje za „duši“ studovaných dat, za příčinu, která je dala vzniknout. Tato hodnota je určena několika parametry; - studovaná data, která jsou získána realizací náhodné veličiny. Například náhodná veličina je přesný čas. Jeho implementace jsou odečty hodin, které má statistik k dispozici. Úkolem statistika je použít hodnoty n hodin t 1 ,...,t n k co nejpřesnějšímu nastavení času. Kromě toho je povinen charakterizovat správnost zjištěné hodnoty. Požadovanou hodnotu vyhodnotí ve tvaru t = t 0 + ξ(a,σ), kde t 0 je skutečný čas v době výzkumu, ξ(a,σ) - náhodná veličina, charakterizující odchylku od skutečné hodnoty, t 0, a, σ jsou parametry, hodnota ξ je charakterizována distribučním zákonem, pravděpodobnostmi, že nabývá různých hodnot. Odhad ve statistice je pravidlem pro výpočet přibližné hodnoty parametru na základě pozorovaných dat. Odhad je přibližná hodnota parametru zjištěná z pozorovaných dat. Při vytváření odhadů pro praktické použití jsou na odhady kladeny tři hlavní požadavky:

    přesnost, tedy blízkost skutečné hodnotě parametru, v příkladu ξ(a,σ) by měla být malá;

    nestrannost, tj. požadavek, aby se matematické očekávání odhadu rovnalo skutečné hodnotě parametru v příkladu by se ξ(a,σ) mělo v průměru rovnat nule;

    konzistence, tedy požadavek, aby s rostoucím počtem pozorování odhad konvergoval v pravděpodobnosti ke skutečné hodnotě parametru. V příkladu s velkým počtem hodin n by hodnota ξ(a,σ) měla směřovat k nule s pravděpodobností k jednotce.

Neexistují nejlepší odhady ve všech ohledech. Například aritmetický průměr, široce používaný odhad průměrné hodnoty náhodné proměnné, má tu vlastnost, že je optimální pro normálně rozložená data. Pokud však mezi údaji existují odlehlé hodnoty, to znamená výrazně výrazné hodnoty, vede to k chybám. Takové emise v ekonomice jsou generovány hrubými chybami v měření nebo překlepy, ve kterých může zmizet čárka mezi rubly a kopejkami a mzdy stonásobně rostou. Podívejme se na náhodný proces spojený s historií zakreslování na mapu Velké Británie rafinovaných hranic jejího majetku, rozptýleného po všech částech světa. Je známo, že jakýkoli bod na Zemi je charakterizován dvěma souřadnicemi - zeměpisnou šířkou a délkou. Každý školák dnes slyšel o satelitních přístrojích, které určují jakýkoli bod na Zemi s přesností až na metr. V té době by však ani takové zařízení námořníkům nepomohlo, protože by na obloze nezjistilo jediný „referenční“ satelit. Zeměpisná šířka byla určována přímo z výšky svítidel nad obzorem pomocí „sextantového“ zařízení, podobného modernímu teodolitu (dalekohled plus úhloměr). Zeměpisná délka je úhel rotace zeměkoule, ve kterém jsou kombinovány místní poledník a greenwichský poledník zvolený jako konvenční nula. Země se otočí o 360° téměř za den, tedy za hodinu se otočí o 15°, za 4 minuty o 1°. K určení zeměpisné délky potřebujete znát přesně místní a greenwichský čas. Pokud navigátor řekne kapitánovi: „Místní poledne, pane,“ a kapitán zná čas v tu chvíli v Greenwichi, pak rozdíl v čase dělený 4 minutami určuje zeměpisnou délku oblasti ve stupních. Dnes by bylo všechno jednoduché - zavolat do Greenwiche a zjistit jejich čas. Ale tehdy rádio ještě nebylo vynalezeno. Pokud by loď měla quartzové hodiny, které by se pohybovaly o zlomek minuty za rok, také by nebyl problém, ale nejlepší chronometry, které v té době existovaly, neposkytovaly přesnost potřebnou pro měření zeměpisné délky. Během několika měsíců plavby se vzdálili od přesného času o desítky minut. A když se v roce 1831 loď Beagle vydala na cestu kolem světa s cílem sestavit mapy, kapitán lodi Fitz Roy, osvícený a učený muž, s sebou vzal 24(!) námořních chronometrů. Každý chronometr ukazoval svůj vlastní „Greenwichský čas“. V této studii je náhodná veličina okamžik, kdy navigátor určil přesný místní čas z nějakého nebeského tělesa. „Duše“ měřené náhodné veličiny je v tu chvíli skutečný čas v Greenwichi. Tuto veličinu označujeme ξ. Hodnota této veličiny není nikdy známa. Pozorované hodnoty náhodné veličiny jsou odečty (různých) chronometrů. Každý z nich udělal pár chyb, ale celkově se řídili společnou „duší“ a vnucovali jí svou vlastní. náhodná chyba. Odhadem náhodné veličiny je Greenwichský čas, který kapitán předpokládal z pozorovaných dat. Nechť náhodné veličiny x i, i = 1,...,n, jsou realizacemi jedné náhodné veličiny ξ, to znamená, že mají stejné rozdělení (jednu „duši“) a pro jakékoli i je průměrná hodnota odečtů rovna na stejné číslo: E( x i) = E(ξ). Smysl tohoto prohlášení je tento: všechny hodiny nemohou být pozadu nebo ve spěchu kvůli konstrukčním problémům. V průměru je stejně pravděpodobné, že budou ve spěchu nebo pozadu. Také ať jsou nezávislí. Jinými slovy, ve svých skupinách nemají nic společného. Námořník zaznamenávající údaje z hodinek je tedy mohl zaznamenat v jedné sekvenci. Pak by byly poslední naměřené hodnoty zaznamenány o minutu později než první. Nebo mohli několik hodin viset na teplém místě a spěchat spolu z horka. Předpoklad, že žádný takový jev neexistuje, je v souladu s podmínkou nezávislosti napříč zkouškami. Nejjednodušším problémem odhadu je určení pravděpodobnosti nějaké události, například, že skutečná (ne nutně správná) mince dopadne lícem nahoru. Téměř nikdy není možné určit pravděpodobnost události přímo. Neexistuje žádná univerzální metoda, která by umožnila libovolné události indikovat její pravděpodobnost. Pravděpodobnost události A je možné odhadnout, pokud je přípustné provádět nezávislé opakované testy, během nichž k této události dochází s konstantní pravděpodobností. Nechť pravděpodobnost p = P(A) události A zůstane nezměněna v každém z n pokusů a výsledek každého pokusu je nezávislý na ostatních. Označme m náhodný počet těchto pokusů z celkový počet n ve které události A se říká, že m je počet „úspěchů“ v n Bernoulliho pokusech. Podle statistické definice pravděpodobnosti je pro velké n relativní četnost m/n jevu A přibližně rovna pravděpodobnosti výskytu jevu A, tedy m/n ~ p, kde p = P(A). Dokažme, že to vyplývá z Kolmogorovovy axiomatiky. V matematické analýze se používá striktní pojetí limity posloupnosti: při dostatečně velkém počtu členů posloupnosti lze její hodnotu libovolně přiblížit limitní hodnotě. Tato definice neodpovídá skutečný život, kde k naprosto neuvěřitelným událostem dochází jen zřídka. Například z prvotní chaotické polévky se vyklube bakterie, která je schopná se sama rozmnožovat. Nebo ryba vytvoří něco, co nejprve miliony let nepotřebuje (ale vyvíjí se), a pak se stane křídlem. Nebo je zaplaveno celé město (nebo země). V teorii pravděpodobnosti je pojem limita interpretován ve smyslu odlišném od toho, který je s ním spojen v matematické analýze. Definice teorie pravděpodobnosti je blíže životu. Nezakazuje skutečnost, že v určitém bodě sekvence bude číslo, které se výrazně liší od ostatních. Posloupnost náhodných veličin u n konverguje v pravděpodobnosti k p, jestliže pro libovolné číslo ε > 0 je pravděpodobnost, že modul rozdílu |u n - p| protože n → ∞ menší než ε, inklinuje k jednotě:

V teorii pravděpodobnosti není jistá žádná událost, ale událost: |u n - р| ≤ ε je pro dostatečně velké n prakticky spolehlivé. Dokažme Čebyševovu nerovnost. Nechť ξ je náhodná veličina, která má matematické očekávání E(ξ) = a a rozptyl D(ξ) = σ², ε je kladné číslo. Pak pravděpodobnost události, že centrovaná (E(ξ) - a) a normalizovaná náhodná veličina překročí ε, je menší než ε -2:

Opravdu, σ² = E(ξ - a)². Při výpočtu průměru na pravé straně vybereme dva rozsahy hodnot ξ. Pro ty ξ, pro které |ξ - а|< εσ, сумма (или интеграл) соответствующих произведений неотрицателен. Для тех ξ, у которых |ξ - а| >εσ, součet (nebo integrál):

Zajímavý speciální případ: σ = 0. Je jasné, že |ξ - a| = 0, tj. ξ = a. Dokažme Čebyševovu větu. Nechť x 1,..., x n jsou nezávislé shodně rozdělené náhodné veličiny, které mají matematické očekávání a rozptyl. To znamená, že každé x i je realizací náhodné veličiny ξ a E(ξ) = E(x i) = a, D(ξ) = D(x i) = σ². Pak pro jakékoli ε > 0:

Důkaz. Rozptyl aritmetického průměru:

Uvažujme náhodnou veličinu η n, která je aritmetickým průměrem n pozorování. Jeho průměr a rozptyl . Pozorovatelné realizace η n jsou . V souladu s Čebyševovou nerovností pro náhodnou veličinu η n se pravděpodobnost její odchylky od průměrné hodnoty o hodnotu větší než blíží nule:

Pravděpodobnost opačného jevu má tendenci k 1 pro velké n: P(|η n - a|) → 1. To znamená, že posloupnost náhodných proměnných n konverguje v pravděpodobnosti k a. Vraťme se k měření času na Beagle. Odečet každého chronometru x i, i = 1,...,n je měření nezávislé na ostatních přístrojích. Rozumí se, že chronometr je navržen tak, že v jeho činnosti nedochází k systematické chybě. To znamená, že některé příklady chronometrů mohou „jít dopředu“, jiné „zaostávat“, ale tyto chyby jsou náhodné, spojené s výrobou daného vzorku. Matematicky to znamená, že průměrný čas je skutečný čas. Kvalita konstrukce a technologie výroby chronometrů se vyznačuje tím, jak jednotná je přesnost celého výrobku. Matematicky je to vyjádřeno rozptylem čtení jednotlivých přístrojů, tzn. rozptyl náhodných veličin x i . Rozptyl průměru je n = 24krát menší než rozptyl jednotlivého chronometru. Proto je „průměrný čas“ určený z 24 chronometrů v průměru blíže skutečnému času téměř 5krát než čas kteréhokoli jednotlivého chronometru.

Můžete použít tento formulář vyhledejte úkol, který potřebujete. Zadejte slovo, frázi z úkolu nebo její číslo, pokud je znáte.


Hledejte pouze v této sekci


Intervaly spolehlivosti: seznam řešení problémů

Intervaly spolehlivosti: teorie a problémy

Pochopení intervalů spolehlivosti

Pojďme si stručně představit pojem interval spolehlivosti, který
1) odhaduje některý parametr numerického vzorku přímo z dat samotného vzorku,
2) pokrývá hodnotu tohoto parametru s pravděpodobností γ.

Interval spolehlivosti pro parametr X(s pravděpodobností γ) se nazývá interval tvaru , takový, že a hodnoty se nějakým způsobem vypočítají ze vzorku.

Obvykle se v aplikovaných úlohách bere pravděpodobnost spolehlivosti rovna γ ​​= 0,9; 0,95; 0,99.

Uvažujme vzorek velikosti n vyrobený z populace, distribuované pravděpodobně podle zákona o normálním rozdělení. Pojďme si ukázat, jaké vzorce se používají k nalezení intervaly spolehlivosti pro distribuční parametry - matematické očekávání a disperze (směrodatná odchylka).

Interval spolehlivosti pro matematické očekávání

Případ 1 Rozptyl rozdělení je známý a rovný . Potom interval spolehlivosti pro parametr A má tvar:
t určeno z Laplaceovy tabulky rozdělení podle vztahu

Případ 2 Rozptyl rozdělení není znám; Potom interval spolehlivosti pro parametr A má tvar:
, kde je výběrový průměr vypočtený z výběrového, parametru t určeno z tabulky rozdělení studentů

Příklad. Na základě 7 měření určité veličiny jsme zjistili průměrné výsledky měření rovna 30 a výběrový rozptyl rovna 36. Najděte hranice, ve kterých se nachází skutečná hodnota naměřené hodnoty se spolehlivostí 0,99.

Řešení. najdeme . Potom lze pomocí vzorce zjistit limity spolehlivosti pro interval obsahující skutečnou hodnotu naměřené hodnoty:
, kde je výběrový průměr, je výběrový rozptyl. Dosadíme všechny hodnoty a dostaneme:

Interval spolehlivosti pro rozptyl

Domníváme se, že obecně řečeno, matematické očekávání je neznámé a je znám pouze bodový nezaujatý odhad rozptylu. Potom má interval spolehlivosti tvar:
, Kde - distribuční kvantily stanovené z tabulek.

Příklad. Na základě dat 7 testů byla zjištěna hodnoticí hodnota pro směrodatnou odchylku s=12. Najděte s pravděpodobností 0,9 šířku intervalu spolehlivosti konstruovaného pro odhad rozptylu.

Řešení. Interval spolehlivosti pro neznámou populační rozptyl lze najít pomocí vzorce:

Nahradíme a dostaneme:


Potom je šířka intervalu spolehlivosti 465,589-71,708=393,881.

Interval spolehlivosti pro pravděpodobnost (proporce)

Případ 1 Nechť je v problému známa velikost vzorku a frakce vzorku (relativní frekvence). Potom má interval spolehlivosti pro obecný podíl (skutečná pravděpodobnost) tvar:
, kde je parametr t se určí z Laplaceovy distribuční tabulky podle vztahu.

Případ 2 Pokud je v úloze navíc známa celková velikost populace, ze které byl vzorek odebrán, lze interval spolehlivosti pro obecný podíl (skutečnou pravděpodobnost) zjistit pomocí upraveného vzorce:
.

Příklad. Je známo, že Najít hranice, ve kterých bude obecný podíl pravděpodobně obsažen.

Řešení. Použijeme vzorec:

Najdeme parametr z podmínky , dostaneme Substitute do vzorce:


Další příklady úloh v matematické statistice najdete na stránce

Chcete-li zjistit limity intervalu spolehlivosti pro průměr populace, musíte provést následující kroky:

1) na základě získaného objemového vzorku n vypočítat aritmetický průměr a směrodatnou chybu aritmetického průměru podle vzorce:

;

2) nastavit pravděpodobnost spolehlivosti 1 – α , na základě účelu studie;

3) podle tabulky t-Rozdělení studentů (Příloha 4) najít hraniční hodnotu t α v závislosti na hladině významnosti α a počet stupňů volnosti k = n – 1;

4) najděte hranice intervalu spolehlivosti pomocí vzorce:

.

Poznámka: V praxi vědecký výzkum, kdy zákon rozdělení populace malého vzorku (n < 30) неизвестен или отличен от нормального, пользуются вышеприведенной формулой для přibližnýodhady intervalu spolehlivosti.

Interval spolehlivosti při n≥ 30 se zjistí pomocí následujícího vzorce:

,

Kde u – procentní body normalizované normální distribuce, které jsou uvedeny v tabulce 5.1.

8. Pracovní příkaz ve fázi V

1. Zkontrolujte normalitu rozdělení malých (n< 30) выборку, составленную из разностей парных значений результатов измерений исходного показателя скоростных качеств у «спортсменов» (эти результаты обозначены индексом В) и показателя, достигнутого после двухмесячных тренировок (эти результаты обозначены индексом Г).

2. Vyberte kritérium a vyhodnoťte efektivitu použité tréninkové metody pro urychlený rozvoj rychlostních kvalit u „sportovců“.

Zpráva o práci ve V fázi hry (ukázka)

Podrobit: Posouzení účinnosti techniky tréninku.

cíle:

    Seznamte se s vlastnostmi normálního zákona rozdělení výsledků testů.

    Získejte dovednosti v testování distribuce vzorků na normalitu.

    Získat dovednosti pro hodnocení účinnosti tréninkových metod.

    Naučte se vypočítat a konstruovat intervaly spolehlivosti pro obecné aritmetické průměry malých vzorků.

otázky:

    Podstata metody hodnocení účinnosti tréninkové techniky.

    Zákon normálního rozdělení. Esence, význam.

    Základní vlastnosti křivky normálního rozdělení.

    Pravidlo tři sigma a jeho praktická aplikace.

    Posouzení normality rozdělení malého vzorku.

    Jaká kritéria a v jakých případech se používají k porovnání průměrů párově závislých vzorků?

    Co charakterizuje interval spolehlivosti?

Metodika jeho stanovení.

Poznámka: Možnost 1: parametrické kritériumJako příklad si vezměme výsledky měření ukazatele rychlostních kvalit u sportovců před začátkem tréninku uvedené v tabulce 5.2 (jsou označeny indexem B, byly získány jako výsledek měření nafáze obchodní hry

) a po dvou měsících tréninku (jsou označeny indexem G). Od vzorků C a D přejdeme k vzorku složenému z rozdílů mezi párovými hodnotami d = i d N i d G V

a určit druhé mocniny těchto rozdílů. Údaje zaneseme do výpočetní tabulky 5.2. Od vzorků C a D přejdeme k vzorku složenému z rozdílů mezi párovými hodnotami d 2

i d G Tabulka 5.2 – Výpočet druhých mocnin spárovaných rozdílů hodnot

i d N Tabulka 5.2 – Výpočet druhých mocnin spárovaných rozdílů hodnot

Od vzorků C a D přejdeme k vzorku složenému z rozdílů mezi párovými hodnotami d = i d Ni d G Tabulka 5.2 – Výpočet druhých mocnin spárovaných rozdílů hodnot

Od vzorků C a D přejdeme k vzorku složenému z rozdílů mezi párovými hodnotami d 2 , porazit

, porazit 2

Pomocí tabulky 5.2 najdeme aritmetický průměr párových rozdílů:

porazit Od vzorků C a D přejdeme k vzorku složenému z rozdílů mezi párovými hodnotami d Dále vypočítáme součet čtverců odchylek podle vzorce:

z Od vzorků C a D přejdeme k vzorku složenému z rozdílů mezi párovými hodnotami d :

Pojďme určit rozptyl pro vzorek

porazit 2

Předkládáme hypotézy: Od vzorků C a D přejdeme k vzorku složenému z rozdílů mezi párovými hodnotami d má normální rozdělení;

– konkurenční – H 1: že rozložení populace párových rozdílů Od vzorků C a D přejdeme k vzorku složenému z rozdílů mezi párovými hodnotami d odlišný od normálního.

Kontrolujeme na hladině významnosti = 0,05.

K tomu sestavíme výpočetní tabulku 5.3.

Tabulka 5.3 – Údaje pro výpočet Shapirova a Wilkova kritéria W pozorovatelný pro vzorek složený z rozdílů mezi párovými hodnotami Od vzorků C a D přejdeme k vzorku složenému z rozdílů mezi párovými hodnotami d

Od vzorků C a D přejdeme k vzorku složenému z rozdílů mezi párovými hodnotami d Tabulka 5.2 – Výpočet druhých mocnin spárovaných rozdílů hodnot

Od vzorků C a D přejdeme k vzorku složenému z rozdílů mezi párovými hodnotami n - k + 1 -d k = k

A nk

k ×a nk

17 – (–2) = 19

Postup pro vyplnění tabulky 5.3:

    Do prvního sloupce zapisujeme čísla v pořadí.

    Ve druhém - rozdíly mezi spárovanými hodnotami Od vzorků C a D přejdeme k vzorku složenému z rozdílů mezi párovými hodnotami d v neklesajícím pořadí.

    Do třetice - čísla v pořadí k párové rozdíly. Protože v našem případě n= 10 tedy k se liší od 1 do n/2 = 5.

4. Ve čtvrté - rozdíly k, který najdeme takto:

- od samého velký význam Od vzorků C a D přejdeme k vzorku složenému z rozdílů mezi párovými hodnotami 10 odečíst nejmenší Od vzorků C a D přejdeme k vzorku složenému z rozdílů mezi párovými hodnotami 1 k = 1,

- od Od vzorků C a D přejdeme k vzorku složenému z rozdílů mezi párovými hodnotami 9 odčítat Od vzorků C a D přejdeme k vzorku složenému z rozdílů mezi párovými hodnotami 2 a výslednou hodnotu zapište do řádku pro k= 2 atd.

    Za páté - zapíšeme hodnoty koeficientů A nk převzato z tabulky používané ve statistice pro výpočet Shapirova a Wilkova testu ( W) kontrola normality rozdělení (příloha 2) pro n= 10.

    V šestém - dílo k × A nk a najděte součet těchto produktů:

.

Hodnota sledovaného kritéria W pozorovatelný najdeme podle vzorce:

.

Zkontrolujeme správnost výpočtů Shapirova a Wilkova kritéria ( W pozorovatelný) jejím výpočtem na počítači pomocí programu „Statistika“.

Výpočet Shapirova a Wilkova kritéria ( W pozorovatelný) na počítači nám umožnilo zjistit, že:

.

Dále pomocí tabulky kritických hodnot kritéria Shapiro a Wilk (příloha 3) hledáme W Kréta Pro n= 10. Najdeme to W Kréta= 0,842. Porovnejme hodnoty W Kréta A W pozorovatelný .

Pojďme to udělat závěr: protože W pozorovatelný (0,874) > W Kréta(0,842), musí být přijata nulová hypotéza normálního rozdělení populace Od vzorků C a D přejdeme k vzorku složenému z rozdílů mezi párovými hodnotami d. Pro posouzení účinnosti aplikované metodiky pro vývoj rychlostních kvalit by se proto měl použít parametrický t-Studentský t-test.

Ve statistice existují dva typy odhadů: bodové a intervalové. Bodový odhad je statistika jednoho vzorku, která se používá k odhadu parametru populace. Například průměr vzorku je bodový odhad matematického očekávání populace a výběrového rozptylu S 2- bodový odhad rozptylu populace σ 2. ukázalo se, že výběrový průměr je nestranným odhadem matematického očekávání populace. Průměr vzorku se nazývá nestranný, protože průměr všech průměrů vzorku (se stejnou velikostí vzorku) n) se rovná matematickému očekávání běžné populace.

Aby se vzorový rozptyl S 2 se stal nestranným odhadem rozptylu populace σ 2, měl by být jmenovatel výběrového rozptylu nastaven na hodnotu n – 1 , ne n. Jinými slovy, populační rozptyl je průměrem všech možných výběrových rozptylů.

Při odhadování populačních parametrů je třeba mít na paměti, že výběrové statistiky jako např , závisí na konkrétních vzorcích. Zohlednit tuto skutečnost, získat intervalový odhad matematické očekávání obecné populace, analyzovat rozdělení výběrových průměrů (podrobněji viz). Konstruovaný interval je charakterizován určitou hladinou spolehlivosti, která představuje pravděpodobnost, že skutečný parametr populace je odhadnut správně. Podobné intervaly spolehlivosti lze použít k odhadu podílu charakteristiky r a hlavní distribuovaná masa populace.

Stáhněte si poznámku ve formátu nebo formátu, příklady ve formátu

Sestrojení intervalu spolehlivosti pro matematické očekávání základního souboru se známou směrodatnou odchylkou

Sestrojení intervalu spolehlivosti pro podíl charakteristiky v populaci

Tato část rozšiřuje koncept intervalu spolehlivosti na kategorická data. To nám umožňuje odhadnout podíl charakteristiky v populaci r pomocí vzorového sdílení rS= X/n. Jak je uvedeno, pokud množství nr A n(1 – p) překročit číslo 5, binomické rozdělení lze přiblížit jako obvykle. Proto odhadnout podíl charakteristiky v populaci r je možné sestrojit interval, jehož úroveň spolehlivosti je rovna (1 – α) x 100 %.


Kde pS- podíl vzorku charakteristiky rovný X/n, tj. počet úspěchů vydělený velikostí vzorku, r- podíl charakteristiky v běžné populaci, Z- kritická hodnota normalizovaného normálního rozdělení, n- velikost vzorku.

Příklad 3 Předpokládejme, že vzor sestávající ze 100 faktur vyplněných během minulý měsíc. Řekněme, že 10 z těchto faktur bylo sestaveno s chybami. Tedy, r= 10/100 = 0,1. 95% hladina spolehlivosti odpovídá kritické hodnotě Z = 1,96.

Pravděpodobnost, že mezi 4,12 % a 15,88 % faktur obsahuje chyby, je tedy 95 %.

Pro danou velikost vzorku se interval spolehlivosti obsahující podíl charakteristiky v základním souboru jeví širší než u spojité náhodné proměnné. Je to proto, že měření spojité náhodné veličiny obsahují více informací než měření kategorických dat. Jinými slovy, kategorická data, která nabývají pouze dvou hodnot, obsahují nedostatečné informace pro odhad parametrů jejich distribuce.

Gvýpočet odhadů extrahovaných z konečné populace

Odhad matematického očekávání. Korekční faktor pro konečnou populaci ( fpc) byl použit ke snížení standardní chyba občas. Při výpočtu intervalů spolehlivosti pro odhady parametrů populace se v situacích, kdy se vzorky odebírají, aniž by byly vráceny, použije korekční faktor. Tedy interval spolehlivosti pro matematické očekávání s hladinou spolehlivosti rovnou (1 – α) x 100 %, se vypočítá podle vzorce:

Příklad 4. Abychom ilustrovali použití korekčního faktoru pro konečný soubor, vraťme se k problému výpočtu intervalu spolehlivosti pro průměrnou částku faktur, diskutovanému výše v příkladu 3. Předpokládejme, že společnost vystavuje 5 000 faktur měsíčně a = 110,27 dolarů, S= 28,95 $ i = 5000, n = 100, α = 0,05, t99 = 1,9842. Pomocí vzorce (6) získáme:

Odhad podílu prvku. Při výběru bez návratnosti interval spolehlivosti pro podíl atributu s úrovní spolehlivosti rovnou (1 – α) x 100 %, se vypočítá podle vzorce:

Intervaly důvěry a etické otázky

Při vzorkování populace a vyvozování statistických závěrů často vyvstávají etické problémy. Hlavní je, jak se shodují intervaly spolehlivosti a bodové odhady výběrových statistik. Vydání bodové odhady Bez upřesnění vhodných intervalů spolehlivosti (obvykle na úrovni spolehlivosti 95 %) a velikosti vzorku, ze kterého jsou odvozeny, může dojít k nedorozuměním. To může v uživateli vzbudit dojem, že bodový odhad je přesně to, co potřebuje k předpovědi vlastností celé populace. Je tedy nutné pochopit, že v každém výzkumu by se nemělo zaměřovat na bodové odhady, ale na intervalové odhady. Kromě, zvláštní pozornost by měla být dána správná volba velikosti vzorků.

Nejčastěji jsou objektem statistické manipulace výsledky sociologických průzkumů obyvatelstva o určitých politických otázkách. Výsledky průzkumu jsou přitom zveřejňovány na titulních stránkách novin a někde uprostřed je uveřejněna výběrová chyba a metodika statistické analýzy. K prokázání validity získaných bodových odhadů je nutné uvést velikost vzorku, na základě které byly získány, hranice intervalu spolehlivosti a jeho hladinu významnosti.

Další poznámka

Jsou použity materiály z knihy Levin et al. – M.: Williams, 2004. – str. 448–462

Centrální limitní teorém uvádí, že při dostatečně velké velikosti vzorku lze rozložení průměrů ve vzorku aproximovat normálním rozložením. Tato vlastnost nezávisí na typu rozložení populace.

Nechť je náhodná veličina rozdělena podle normálního zákona, pro který je rozptyl D neznámý. Je vyroben vzorek velikosti n. Z něj se určí korigovaný výběrový rozptyl s 2 . Náhodná proměnná

rozdělené podle zákona 2 s n -1 stupni volnosti. Při dané spolehlivosti lze nalézt libovolný počet hranic intervalů 1 2 a 2 2, a to tak, že

Najděte 1 2 a 2 2 z následujících podmínek:

P(2 1 2) = (1 -)/ 2(**)

P(2 2 2) = (1 -)/ 2(***)

Je zřejmé, že pokud jsou splněny poslední dvě podmínky, platí rovnost (*).

V tabulkách pro náhodnou veličinu 2 je obvykle uvedeno řešení rovnice

Z takové tabulky pomocí dané hodnoty q a počtu stupňů volnosti n - 1 můžete určit hodnotu q 2. Hodnota 2 2 ve vzorci (***) je tedy okamžitě nalezena.

Pro určení 1 2 transformujeme (**):

P(2 1 2) = 1 - (1 -) / 2 = (1 +) / 2

Výsledná rovnost nám umožňuje určit hodnotu 1 2 z tabulky.

Nyní, když byly nalezeny hodnoty 1 2 a 2 2, představme si rovnost (*) ve tvaru

Přepišme poslední rovnost v takovém tvaru, aby byly určeny hranice intervalu spolehlivosti pro neznámou hodnotu D:

Odtud je snadné získat vzorec pro nalezení intervalu spolehlivosti pro směrodatnou odchylku:

Úkol. Budeme předpokládat, že hluk v kokpitech vrtulníků stejného typu s motory pracujícími v určitém režimu je náhodná veličina rozložená podle normálního zákona. Náhodně bylo vybráno 20 vrtulníků a u každého z nich byla měřena hladina hluku (v decibelech). Bylo zjištěno, že korigovaný výběrový rozptyl měření je 22,5. Najděte interval spolehlivosti pokrývající neznámé směrodatná odchylka hladiny hluku v kokpitech vrtulníků tohoto typu se spolehlivostí 98 %.

Řešení. Na základě počtu stupňů volnosti rovných 19 a pravděpodobnosti (1 - 0,98)/2 = 0,01 zjistíme z distribuční tabulky 2 hodnotu 2 2 = 36,2. Podobně s pravděpodobností (1 + 0,98)/2 = 0,99 dostaneme 1 2 = 7,63. Pomocí vzorce (****) získáme požadovaný interval spolehlivosti: (3,44; 7,49).





chyba: Obsah chráněn!!