Odaberite Stranica

Matematika i informatika. Vodič za učenje tokom kursa

Ugradimo u MS EXCEL trust interval za procjenu srednje vrijednosti distribucije u slučaju poznate vrijednosti varijanse.

Naravno izbor nivo poverenja u potpunosti ovisi o zadatku koji se radi. Dakle, stepen poverenja putnika u pouzdanost aviona, naravno, treba da bude veći od stepena poverenja kupca u pouzdanost sijalice.

Formulacija zadatka

Pretpostavimo da od stanovništva uzimajući uzorak veličina n. Pretpostavlja se da standardna devijacija ova distribucija je poznata. Neophodan na osnovu ovoga uzorci proceniti nepoznato srednja distribucija(μ, ) i konstruisati odgovarajuće bilateralni interval povjerenja.

Point Estimation

Kao što je poznato iz statistika(nazovimo to X cf) je nepristrasna procjena srednje vrijednosti ovo stanovništva i ima distribuciju N(μ;σ 2 /n).

Bilješka: Šta ako treba da gradite interval povjerenja u slučaju distribucije, koja nije normalno? U ovom slučaju dolazi u pomoć, što govori da je s dovoljno velikom veličinom uzorci n iz distribucije ne- normalno, uzorkovanje distribucije statistike H av bice otprilike dopisivati ​​se normalna distribucija sa parametrima N(μ;σ 2 /n).

dakle, tačka procene srednji vrijednosti distribucije imamo je srednja vrijednost uzorka, tj. X cf. Hajdemo sada da se zaposlimo interval povjerenja.

Izgradnja intervala povjerenja

Obično, poznavajući distribuciju i njene parametre, možemo izračunati vjerovatnoću da će slučajna varijabla uzeti vrijednost iz datog intervala. Sada uradimo suprotno: pronađite interval u koji slučajna varijabla pada sa datom vjerovatnoćom. Na primjer, iz svojstava normalna distribucija poznato je da je sa vjerovatnoćom od 95% slučajna varijabla raspoređena po normalan zakon, pasti će unutar intervala približno +/- 2 od srednja vrijednost(vidi članak o). Ovaj interval će nam poslužiti kao prototip za interval povjerenja.

Sada da vidimo da li znamo distribuciju , izračunati ovaj interval? Da bismo odgovorili na pitanje, moramo navesti oblik distribucije i njegove parametre.

Znamo kakav je oblik distribucije normalna distribucija(zapamtite da govorimo o distribucija uzorkovanja statistika X cf).

Parametar μ nam je nepoznat (samo ga treba procijeniti pomoću interval povjerenja), ali imamo njegovu procjenu X cf, izračunato na osnovu uzorak, koji se mogu koristiti.

Drugi parametar je srednja standardna devijacija uzorka biće poznato, jednako je σ/√n.

Jer ne znamo μ, onda ćemo izgraditi interval +/- 2 standardne devijacije ne od srednja vrijednost, ali prema njegovoj poznatoj procjeni X cf. One. prilikom izračunavanja interval povjerenja to NEĆEMO pretpostaviti X cf pasti u interval +/- 2 standardne devijacije od μ sa vjerovatnoćom od 95%, a pretpostavićemo da je interval +/- 2 standardne devijacije od X cf sa vjerovatnoćom od 95% će pokriti μ - prosjek opšte populacije, iz koje uzorak. Ove dvije izjave su ekvivalentne, ali nam druga izjava omogućava konstruiranje interval povjerenja.

Osim toga, preciziramo interval: slučajna varijabla raspoređena po normalan zakon, sa vjerovatnoćom od 95% spada u interval +/- 1.960 standardne devijacije, ne +/- 2 standardne devijacije. Ovo se može izračunati pomoću formule \u003d NORM.ST.OBR ((1 + 0,95) / 2), cm. uzorak datoteke Razmak listova.

Sada možemo formulisati verovatnoćan iskaz koji će nam poslužiti za formiranje interval povjerenja:
„Verovatnoća da srednja populacija nalazi se od prosek uzorka unutar 1.960" standardne devijacije srednje vrijednosti uzorka", je jednako 95%.

Vrijednost vjerovatnoće spomenuta u izjavi ima poseban naziv , koji je povezan sa nivo značajnosti α (alfa) jednostavnim izrazom nivo poverenja =1 . U našem slučaju nivo značajnosti α =1-0,95=0,05 .

Sada, na osnovu ove vjerovatnoće, pišemo izraz za izračunavanje interval povjerenja:

gdje je Zα/2 standard normalna distribucija(takva vrijednost slučajne varijable z, šta P(z>=Zα/2 )=α/2).

Bilješka: Gornji α/2-kvantil definiše širinu interval povjerenja in standardne devijacije srednja vrijednost uzorka. Gornji α/2-kvantil standard normalna distribucija je uvijek veći od 0, što je vrlo zgodno.

U našem slučaju, pri α=0,05, gornji α/2-kvantil jednako 1.960. Za druge nivoe značajnosti α (10%; 1%) gornji α/2-kvantil Zα/2 može se izračunati pomoću formule \u003d NORM.ST.OBR (1-α / 2) ili, ako je poznato nivo poverenja, =NORM.ST.OBR((1+nivo pouzdanosti)/2).

Obično prilikom izgradnje intervali povjerenja za procjenu srednje vrijednosti koristiti samo gornji α/2-kvantil i nemojte koristiti niži α/2-kvantil. Ovo je moguće jer standard normalna distribucija simetrično oko x-ose ( gustina njegove distribucije simetrično oko prosjek, tj. 0). Stoga nema potrebe za kalkulacijom niži α/2-kvantil(jednostavno se zove α /2-kvantil), jer jednako je gornji α/2-kvantil sa znakom minus.

Podsjetimo da je, bez obzira na oblik distribucije x, odgovarajuća slučajna varijabla X cf distribuirano otprilike u redu N(μ;σ 2 /n) (vidi članak o). Stoga, u opšti slučaj, gornji izraz za interval povjerenja je samo približan. Ako je x distribuiran preko normalan zakon N(μ;σ 2 /n), zatim izraz za interval povjerenja je tačno.

Izračunavanje intervala pouzdanosti u MS EXCEL-u

Hajde da rešimo problem.
Vrijeme odziva elektronske komponente na ulazni signal je važna karakteristika uređaja. Inženjer želi da nacrta interval pouzdanosti za prosječno vrijeme odgovora na nivou pouzdanosti od 95%. Iz prethodnog iskustva, inženjer zna da je standardna devijacija vremena odziva 8 ms. Poznato je da je inženjer izvršio 25 mjerenja kako bi procijenio vrijeme odziva, prosječna vrijednost je bila 78 ms.

Odluka: Inženjer želi znati vrijeme odziva elektronskog uređaja, ali razumije da vrijeme odziva nije fiksno, već slučajna varijabla koja ima svoju distribuciju. Dakle, najbolje čemu se može nadati je da odredi parametre i oblik ove distribucije.

Nažalost, iz uslova problema ne znamo oblik distribucije vremena odziva (ne mora biti normalno). , ova distribucija je također nepoznata. Samo je on poznat standardna devijacijaσ=8. Stoga, dok ne možemo izračunati vjerovatnoće i konstruirati interval povjerenja.

Međutim, iako ne znamo distribuciju vrijeme odvojen odgovor, znamo da prema CPT, distribucija uzorkovanja prosječno vrijeme odgovora je približno normalno(pretpostavićemo da su uslovi CPT se izvode, jer veličina uzorci dovoljno velika (n=25)) .

Nadalje, prosjek ova distribucija je jednaka srednja vrijednost distribucije odziva jedinica, tj. μ. I standardna devijacija ove distribucije (σ/√n) može se izračunati pomoću formule =8/ROOT(25) .

Takođe je poznato da je inženjer primio tačka procene parametar μ jednak 78 ms (X cf). Dakle, sada možemo izračunati vjerovatnoće, jer znamo oblik distribucije ( normalno) i njegove parametre (H sr i σ/√n).

Inženjer želi da zna očekivanu vrijednostμ distribucije vremena odziva. Kao što je gore navedeno, ovaj μ je jednak očekivanje distribucije uzorka prosječnog vremena odgovora. Ako koristimo normalna distribucija N(X cf; σ/√n), tada će željeni μ biti u opsegu +/-2*σ/√n sa vjerovatnoćom od približno 95%.

Nivo značaja jednako 1-0,95=0,05.

Konačno, pronađite lijevu i desnu granicu interval povjerenja.
Lijeva granica: \u003d 78-NORM.ST.INR (1-0,05 / 2) * 8 / ROOT (25) = 74,864
Desna granica: \u003d 78 + NORM. ST. OBR (1-0,05 / 2) * 8 / KORIJEN (25) = 81,136

Lijeva granica: =NORM.INV(0,05/2, 78, 8/SQRT(25))
Desna granica: =NORM.INV(1-0,05/2, 78, 8/SQRT(25))

Odgovori: interval povjerenja at 95% nivo pouzdanosti i σ=8msec jednaki 78+/-3.136ms

AT primjer fajla na listu Sigma poznat kreirao obrazac za proračun i konstrukciju bilateralni interval povjerenja za proizvoljno uzorci sa datim σ i nivo značajnosti.

CONFIDENCE.NORM() funkcija

Ako vrijednosti uzorci su u dometu B20:B79 , a nivo značajnosti jednako 0,05; zatim MS EXCEL formula:
=PROSJEČNO(B20:B79)-POVJERENJE(0,05,σ, BROJ(B20:B79))
će vratiti lijevu ivicu interval povjerenja.

Ista granica se može izračunati pomoću formule:
=PROSJEK(B20:B79)-NORM.ST.INV(1-0,05/2)*σ/SQRT(BROJ(B20:B79))

Bilješka: Funkcija TRUST.NORM() pojavila se u MS EXCEL-u 2010. Ranije verzije MS EXCEL-a koristile su funkciju TRUST().

Interval povjerenja– granične vrijednosti statistika, koji sa datim nivo samopouzdanjaγ će biti u ovom intervalu kada se uzorkuje veći volumen. Označava se kao P(θ - ε . U praksi, vjerovatnoća pouzdanosti γ se bira između vrijednosti γ = 0,9 , γ = 0,95 , γ = 0,99 dovoljno bliskih jedinici.

Servisni zadatak. Ova usluga definiše:

  • interval povjerenja za opću srednju vrijednost, interval povjerenja za varijansu;
  • interval povjerenja za standardnu ​​devijaciju, interval povjerenja za opći razlomak;
Rezultirajuće rješenje se pohranjuje u Word datoteku (pogledajte primjer). Ispod je video uputstvo kako popuniti početne podatke.

Primjer #1. Na kolektivnoj farmi, od ukupnog stada od 1.000 ovaca, 100 ovaca je podvrgnuto selektivnoj kontroli. Kao rezultat, utvrđeno je prosječno smicanje vune od 4,2 kg po ovci. Odredite prosjek sa vjerovatnoćom od 0,99 kvadratna greška uzorkovanje pri određivanju prosječnog smicanja vune po ovci i granice u kojima je sadržana vrijednost smicanja ako je varijansa 2,5. Uzorak se ne ponavlja.
Primjer #2. Iz serije uvezenih proizvoda na pošti Moskovske sjeverne carine uzeto je 20 uzoraka proizvoda „A“ po redoslijedu slučajnog ponovnog uzorkovanja. Kao rezultat provjere, utvrđen je prosječni sadržaj vlage proizvoda "A" u uzorku, koji se pokazao kao 6% sa standardnom devijacijom od 1%.
Odrediti sa vjerovatnoćom od 0,683 granice prosječnog sadržaja vlage proizvoda u cijeloj seriji uvezenih proizvoda.
Primjer #3. Istraživanje na 36 učenika pokazalo je da je prosječan broj udžbenika koji čitaju akademske godine, pokazalo se da je jednako 6. Uz pretpostavku da broj udžbenika koji student pročita po semestru ima normalan zakon raspodjele sa standardnom devijacijom jednakom 6, naći: A) sa pouzdanošću od 0,99, intervalnu procjenu za matematičko očekivanje ova slučajna varijabla; B) s kojom se vjerovatnoćom može tvrditi da prosječan broj udžbenika koje student pročita po semestru, izračunat za ovaj uzorak, odstupa od matematičkog očekivanja u apsolutnoj vrijednosti za najviše 2.

Klasifikacija intervala povjerenja

Prema vrsti parametra koji se procjenjuje:

Po vrsti uzorka:

  1. Interval pouzdanosti za beskonačno uzorkovanje;
  2. Interval pouzdanosti za konačni uzorak;
Uzorkovanje se naziva ponovno uzorkovanje, ako se odabrani objekt vrati u opću populaciju prije odabira sljedećeg. Uzorak se naziva neponavljajućim. ako se odabrani objekt ne vrati u opću populaciju. U praksi se obično radi sa uzorcima koji se ne ponavljaju.

Izračunavanje srednje greške uzorkovanja za slučajni odabir

Nesklad između vrijednosti indikatora dobijenih iz uzorka i odgovarajućih parametara opće populacije naziva se greška reprezentativnosti.
Oznake glavnih parametara opće populacije i populacije uzorka.
Formule uzorka srednje greške
ponovni izborselekcija koja se ne ponavlja
za sredinuza dionicuza sredinuza dionicu
Omjer između granice greške uzorkovanja (Δ) zajamčena s određenom vjerovatnoćom P(t), a prosječna greška uzorkovanja ima oblik: ili Δ = t μ, gdje je t– koeficijent pouzdanosti, određen u zavisnosti od nivoa verovatnoće P(t) prema tabeli integralne Laplasove funkcije.

Formule za izračunavanje veličine uzorka uz odgovarajuću metodu slučajnog odabira

U statistici postoje dvije vrste procjena: tačka i interval. Point Estimation je statistika jednog uzorka koja se koristi za procjenu parametra populacije. Na primjer, srednja vrijednost uzorka je tačkasta procjena srednje vrijednosti populacije i varijanse uzorka S2- bodovna procjena varijanse populacije σ2. pokazalo se da je srednja vrijednost uzorka nepristrasna procjena očekivanja populacije. Srednja vrijednost uzorka naziva se nepristrasna jer je srednja vrijednost svih srednjih vrijednosti uzorka (sa istom veličinom uzorka n) jednak je matematičkom očekivanju opće populacije.

U cilju varijanse uzorka S2 postao nepristrasan procjenitelj varijanse stanovništva σ2, nazivnik varijanse uzorka treba postaviti jednakim n – 1 , ali ne n. Drugim riječima, varijansa populacije je prosjek svih mogućih varijansi uzorka.

Prilikom procjene parametara populacije, treba imati na umu da statistika uzorka kao npr , ovise o konkretnim uzorcima. Uzeti ovu činjenicu u obzir, dobiti intervalna procjena matematička očekivanja opće populacije analiziraju distribuciju srednjih vrijednosti uzorka (za više detalja vidjeti). Konstruisani interval karakteriše određeni nivo pouzdanosti, a to je verovatnoća da je pravi parametar opšte populacije tačno procenjen. Slični intervali pouzdanosti mogu se koristiti za procjenu udjela neke karakteristike R i glavna rasprostranjena masa opšte populacije.

Preuzmite bilješku u formatu ili, primjere u formatu

Izgradnja intervala povjerenja za matematičko očekivanje opće populacije s poznatom standardnom devijacijom

Izgradnja intervala povjerenja za udio osobine u općoj populaciji

U ovom odeljku, koncept intervala poverenja je proširen na kategoričke podatke. Ovo vam omogućava da procijenite udio ove osobine u općoj populaciji R sa udjelom uzorka RS= X/n. Kao što je spomenuto, ako vrijednosti nR i n(1 - p) premašiti broj 5, binomna distribucija može se aproksimirati kao normalno. Stoga, procijeniti udio neke osobine u opštoj populaciji R moguće je konstruisati interval čiji je nivo pouzdanosti jednak (1 - α)x100%.


gdje strS- udio uzorka obilježja, jednak X/n, tj. broj uspjeha podijeljen s veličinom uzorka, R- udio osobine u opštoj populaciji, Z je kritična vrijednost standardizirane normalne distribucije, n- veličina uzorka.

Primjer 3 Pretpostavimo da je uzorak izvučen iz informacionog sistema, koji se sastoji od 100 faktura popunjenih unutar prošli mjesec. Recimo da je 10 od ovih faktura netačno. Na ovaj način, R= 10/100 = 0,1. Nivo pouzdanosti od 95% odgovara kritičnoj vrijednosti Z = 1,96.

Dakle, postoji 95% šanse da između 4,12% i 15,88% faktura sadrži greške.

Za datu veličinu uzorka, čini se da je interval pouzdanosti koji sadrži udio osobine u općoj populaciji širi nego za kontinuiranu slučajnu varijablu. To je zato što mjerenja kontinuirane slučajne varijable sadrže više informacija nego mjerenja kategoričkih podataka. Drugim riječima, kategorički podaci koji uzimaju samo dvije vrijednosti ne sadrže dovoljno informacija za procjenu parametara njihove distribucije.

ATizračunavanje procjena izvučenih iz konačne populacije

Procjena matematičkog očekivanja. Korekcioni faktor za konačnu populaciju ( fpc) je korišten za smanjenje standardne greške za faktor . Prilikom izračunavanja intervala pouzdanosti za procjene parametara populacije, faktor korekcije se primjenjuje u situacijama kada se uzorci uzimaju bez zamjene. Dakle, interval pouzdanosti za matematičko očekivanje, koji ima nivo pouzdanosti jednak (1 - α)x100%, izračunava se po formuli:

Primjer 4 Da bismo ilustrovali primenu faktora korekcije za konačnu populaciju, vratimo se problemu izračunavanja intervala poverenja za prosečni iznos faktura o kome se govori u primeru 3. Pretpostavimo da preduzeće izdaje 5.000 faktura mesečno, i =110,27 USD, S= 28,95 dolara N = 5000, n = 100, α = 0,05, t99 = 1,9842. Prema formuli (6) dobijamo:

Procjena udjela karakteristike. Prilikom odabira bez povrata, interval pouzdanosti za udio obilježja koji ima nivo pouzdanosti jednak (1 - α)x100%, izračunava se po formuli:

Intervali pouzdanosti i etička pitanja

Prilikom uzorkovanja populacije i formulisanja statističkih zaključaka, često se javljaju etički problemi. Glavni je način na koji se slažu intervali povjerenja i procjene tačaka statistike uzorka. Procjene tačaka objavljivanja bez specificiranja odgovarajućih intervala pouzdanosti (obično na 95% nivoa pouzdanosti) i veličine uzorka iz kojeg su izvedene mogu dovesti u zabludu. Ovo može dati korisniku utisak da je bodovna procjena upravo ono što mu je potrebno da predvidi svojstva cjelokupne populacije. Stoga je potrebno shvatiti da u svakom istraživanju u prvi plan treba staviti ne tačke, već intervalne procjene. osim toga, Posebna pažnja treba dati pravi izbor veličine uzoraka.

Predmet statističkih manipulacija najčešće su rezultati socioloških istraživanja stanovništva o različitim političkim temama. Istovremeno, rezultati ankete se stavljaju na naslovne strane novina, a greška uzorka i metodologija statističke analize štampaju se negde na sredini. Da bi se dokazala validnost dobijenih tačaka, potrebno je navesti veličinu uzorka na osnovu koje su dobijene, granice intervala poverenja i nivo njegove značajnosti.

Sledeća napomena

Korišteni su materijali iz knjige Levin i dr. Statistika za menadžere. - M.: Williams, 2004. - str. 448–462

Centralna granična teorema navodi da, s obzirom na dovoljno veliku veličinu uzorka, distribucija uzorka srednjih vrijednosti može se aproksimirati normalnom distribucijom. Ovo svojstvo ne zavisi od vrste distribucije stanovništva.

I drugi, sve su to procjene njihovih teoretskih parnjaka, do kojih bi se moglo doći da ne postoji uzorak, već opća populacija. Ali nažalost, opća populacija je vrlo skupa i često nedostupna.

Koncept intervalne procjene

Svaka procjena uzorka ima neki raspršivanje, jer je slučajna varijabla ovisno o vrijednostima u određenom uzorku. Stoga, za pouzdanije statističke zaključke, treba znati ne samo tačka procene, ali i interval, koji sa velikom vjerovatnoćom γ (gama) pokriva procijenjeni indikator θ (teta).

Formalno, to su dvije takve vrijednosti (statistika) T1(X) i T2(X), šta T1< T 2 , za koji na datom nivou vjerovatnoće γ ispunjen je uslov:

Ukratko, vjerovatno je γ ili više prava vrijednost je između tačaka T1(X) i T2(X), koje se nazivaju donja i gornja granica interval povjerenja.

Jedan od uslova za konstruisanje intervala poverenja je njegova maksimalna uskost, tj. trebalo bi da bude što kraće. Želja je sasvim prirodna, jer. istraživač pokušava preciznije lokalizirati nalaz željenog parametra.

Iz toga slijedi da interval povjerenja treba da pokrije maksimalne vjerovatnoće distribucije. a sam rezultat bude na sredini.

Odnosno, vjerovatnoća odstupanja (pravog indikatora od procjene) naviše je jednaka vjerovatnoći odstupanja naniže. Takođe treba napomenuti da za iskrivljene distribucije, interval sa desne strane nije jednak intervalu lijevo.

Slika iznad jasno pokazuje da što je veći nivo pouzdanosti, širi je interval – direktna veza.

Ovo je bio mali uvod u teoriju intervalne procjene nepoznatih parametara. Pređimo na pronalaženje granica povjerenja za matematička očekivanja.

Interval pouzdanosti za matematička očekivanja

Ako su originalni podaci raspoređeni na , tada će prosjek biti normalna vrijednost. Ovo proizilazi iz pravila da linearna kombinacija normalnih vrijednosti također ima normalnu distribuciju. Stoga, da bismo izračunali vjerovatnoće, mogli bismo koristiti matematički aparat zakona normalne distribucije.

Međutim, to će zahtijevati poznavanje dva parametra - očekivane vrijednosti i varijanse, koji obično nisu poznati. Možete, naravno, koristiti procjene umjesto parametara (aritmetička sredina i ), ali tada distribucija srednje vrijednosti neće biti sasvim normalna, već će biti malo spljoštena. Građanin Vilijam Goset iz Irske vešto je primetio ovu činjenicu kada je objavio svoje otkriće u izdanju Biometrije iz marta 1908. U svrhu tajnosti, Gosset je potpisao sa Studentom. Tako se pojavila Studentova t-distribucija.

Međutim, normalna distribucija podataka, koju koristi K. Gauss u analizi grešaka u astronomskim opservacijama, izuzetno je rijetka u zemaljskom životu i prilično je teško to ustanoviti (za visoku tačnost potrebno je oko 2 hiljade opservacija). Stoga je najbolje napustiti pretpostavku normalnosti i koristiti metode koje ne zavise od distribucije originalnih podataka.

Postavlja se pitanje: kakva je distribucija aritmetičke sredine ako se ona izračunava iz podataka nepoznate distribucije? Odgovor daje dobro poznata u teoriji vjerovatnoće Centralna granična teorema(CPT). U matematici postoji nekoliko njegovih varijanti (za duge godine formulacije su dorađene), ali se sve one, grubo rečeno, svode na tvrdnju da je zbir veliki broj nezavisni slučajne varijable poštuje normalni zakon distribucije.

Prilikom izračunavanja aritmetičke sredine koristi se zbir slučajnih varijabli. Iz ovoga proizlazi da aritmetička sredina ima normalnu distribuciju, u kojoj je očekivana vrijednost očekivana vrijednost početnih podataka, a varijansa je .

Pametni ljudi znaju dokazati CLT, ali mi ćemo to provjeriti uz pomoć eksperimenta provedenog u Excelu. Hajde da simuliramo uzorak od 50 ravnomjerno raspoređenih slučajnih varijabli (koristeći Excel funkcije NASLUČAJNO). Zatim ćemo napraviti 1000 takvih uzoraka i izračunati aritmetičku sredinu za svaki. Pogledajmo njihovu distribuciju.

Može se vidjeti da je raspodjela prosjeka bliska normalnom zakonu. Ako se volumen uzoraka i njihov broj povećaju, onda će sličnost biti još bolja.

Sada kada smo se sami uvjerili u valjanost CLT-a, možemo, koristeći , izračunati intervale povjerenja za aritmetičku sredinu, koji pokrivaju pravu srednju vrijednost ili matematičko očekivanje sa datom vjerovatnoćom.

Za utvrđivanje gornje i donje granice potrebno je poznavati parametre normalne distribucije. U pravilu se ne koriste, stoga se koriste procjene: aritmetička sredina i varijansa uzorka. Opet, ova metoda daje dobru aproksimaciju samo za velike uzorke. Kada su uzorci mali, često se preporučuje korištenje Studentove distribucije. Ne vjerujte! Studentova raspodjela za srednju vrijednost se javlja samo kada izvorni podaci imaju normalnu distribuciju, odnosno gotovo nikada. Stoga je bolje odmah postaviti minimalnu traku za količinu potrebnih podataka i koristiti asimptotski ispravne metode. Kažu da je dovoljno 30 opservacija. Uzmite 50 - ne možete pogriješiti.

T 1.2 su donja i gornja granica intervala povjerenja

– aritmetička sredina uzorka

s0– standardna devijacija uzorka (nepristrasna)

n - veličina uzorka

γ – nivo pouzdanosti (obično jednak 0,9, 0,95 ili 0,99)

c γ =Φ -1 ((1+γ)/2) je recipročna vrijednost standardne normalne funkcije distribucije. Jednostavno rečeno, ovo je broj standardnih grešaka od aritmetičke sredine do donje ili gornje granice (naznačene tri vjerovatnoće odgovaraju vrijednostima od 1,64, 1,96 i 2,58).

Suština formule je da se uzme aritmetička sredina i onda se od nje izdvoji određeni iznos ( sa γ) standardne greške ( s 0 /√n). Sve se zna, uzmi i broji.

Prije masovne upotrebe PC-a, za dobivanje vrijednosti ​​normalne funkcije distribucije i njene inverzne, koristili su . I dalje se koriste, ali je efikasnije obratiti se gotovim Excel formulama. Svi elementi iz gornje formule ( , i ) mogu se lako izračunati u Excelu. Ali postoji i gotova formula za izračunavanje intervala povjerenja - NORMA POVJERENJE. Njegova sintaksa je sljedeća.

NORMA POUZDANJA (alfa, standard_dev, veličina)

alfa– nivo značajnosti ili nivo pouzdanosti, koji je u gornjoj notaciji jednak 1-γ, tj. vjerovatnoća da je matematičkaočekivanje će biti izvan intervala pouzdanosti. Sa nivoom pouzdanosti od 0,95, alfa je 0,05 i tako dalje.

standard_off je standardna devijacija podataka uzorka. Ne morate izračunati standardnu ​​grešku, Excel će podijeliti s korijenom od n.

veličina– veličina uzorka (n).

Rezultat funkcije CONFIDENCE.NORM je drugi član iz formule za izračunavanje intervala povjerenja, tj. poluinterval. Shodno tome, donja i gornja tačka su prosjek ± dobijena vrijednost.

Tako je moguće izgraditi univerzalni algoritam za izračunavanje intervala povjerenja za aritmetičku sredinu, koji ne ovisi o distribuciji početnih podataka. Cijena univerzalnosti je njena asimptotičnost, tj. potreba za korištenjem relativno velikih uzoraka. Međutim, u veku moderne tehnologije prikupljanje prave količine podataka obično nije teško.

Testiranje statističkih hipoteza korištenjem intervala povjerenja

(modul 111)

Jedan od glavnih problema koji se rješavaju u statistici je. Ukratko, njegova suština je ovo. Pretpostavlja se, na primjer, da je očekivanje opšte populacije jednako nekoj vrijednosti. Zatim se konstruiše distribucija srednjih vrednosti uzorka, koja se može posmatrati sa datim očekivanjem. Zatim ćemo pogledati gdje se u ovoj uslovnoj raspodjeli nalazi pravi prosjek. Ako prelazi dozvoljene granice, onda je pojava takvog prosjeka vrlo malo vjerojatna, a s jednim ponavljanjem eksperimenta gotovo je nemoguće, što je u suprotnosti s iznesenom hipotezom, koja se uspješno odbacuje. Ako prosjek ne prelazi kritični nivo, hipoteza se ne odbacuje (ali nije ni dokazana!).

Dakle, uz pomoć intervala pouzdanosti, u našem slučaju za očekivanje, možete testirati i neke hipoteze. To je vrlo lako uraditi. Pretpostavimo da je aritmetička sredina za neki uzorak 100. Provjerava se hipoteza da je očekivanje, recimo, 90. To jest, ako pitanje postavimo primitivno, ono zvuči ovako: može li biti to, sa pravom vrijednošću srednja vrednost jednaka 90, posmatrani prosek je bio 100?

Za odgovor na ovo pitanje bit će potrebne dodatne informacije o standardnoj devijaciji i veličini uzorka. Recimo da je standardna devijacija 30, a broj zapažanja 64 (da bismo lako izdvojili korijen). Tada je standardna greška srednje vrijednosti 30/8 ili 3,75. Za izračunavanje intervala pouzdanosti od 95% bit će potrebno odložiti obje strane prosjeka za dva standardne greške(tačnije za 1,96). Interval pouzdanosti će biti približno 100 ± 7,5, odnosno od 92,5 do 107,5.

Dalje obrazloženje je sljedeće. Ako testirana vrijednost spada u interval pouzdanosti, onda to nije u suprotnosti s hipotezom, jer uklapa se u granice slučajnih fluktuacija (sa vjerovatnoćom od 95%). Ako je testirana tačka izvan intervala pouzdanosti, onda je vjerovatnoća takvog događaja vrlo mala, u svakom slučaju ispod prihvatljivog nivoa. Stoga se hipoteza odbacuje kao kontradiktorna uočenim podacima. U našem slučaju, hipoteza očekivanja je izvan intervala pouzdanosti (testirana vrijednost od 90 nije uključena u interval od 100±7,5), pa je treba odbaciti. Odgovarajući na prethodno primitivno pitanje, treba reći: ne, ne može, u svakom slučaju, to se dešava izuzetno rijetko. Često to ukazuje na specifičnu vjerovatnoću pogrešnog odbacivanja hipoteze (p-nivo), a ne na dati nivo prema kojem je građen interval povjerenja, ali o tome drugi put.

Kao što vidite, nije teško izgraditi interval povjerenja za srednju vrijednost (ili matematičko očekivanje). Glavna stvar je uhvatiti suštinu, a onda će stvari krenuti. U praksi, većina koristi interval pouzdanosti od 95%, što je oko dvije standardne greške široke na obje strane srednje vrijednosti.

To je sve za sada. Sve najbolje!

INTERVAL POVERENJA ZA OČEKIVANJE

1. Neka se to zna sl. veličina x podliježe normalnom zakonu s nepoznatom sredinom μ i poznatim σ 2: X~N(μ,σ 2), σ 2 je dato, μ nije poznato. S obzirom na β. Na osnovu uzorka x 1, x 2, … , x n, potrebno je konstruisati I β (θ) (sada θ=μ) zadovoljavajući (13)

Srednja vrijednost uzorka (takođe kažu i srednja vrijednost uzorka) poštuje normalni zakon sa istim centrom μ, ali manjom varijansom X~N (μ , D ), gdje je varijansa D =σ 2 =σ 2 /n.

Potreban nam je broj K β definisan za ξ~N(0,1) uslovom

Riječima: između tačaka -K β i K β x-ose nalazi se površina ispod krivulje gustine standardnog normalnog zakona, jednaka β

Na primjer, K 0,90 \u003d 1,645 kvantil nivoa 0,95 vrijednosti ξ

K 0,95 = 1,96. ; K 0,997 \u003d 3.

Konkretno, odvajajući 1,96 standardnih devijacija udesno i isto toliko lijevo od centra bilo kojeg normalnog zakona, uhvatićemo površinu ispod krivulje gustine jednaku 0,95, zbog čega je K 0 95 kvantil nivo 0,95 + 1/2 * 0,005 = 0,975 za ovaj zakon.

Željeni interval povjerenja za opći prosjek μ je I A (μ) = (x-σ, x + σ),

gdje je δ = (15)

Hajde da se opravdamo:

Prema onome što je rečeno, vrednost pada u interval J=μ±σ sa verovatnoćom β (slika 9). U ovom slučaju, vrijednost odstupa od centra μ manje od δ, i slučajnog intervala ± δ (sa slučajnim centrom i istom širinom kao J) će pokriti tačku μ. To je Ê J<=> μ Є ja β , i stoga R(μÊÍ β ) = R(Ê J )=β.

Dakle, interval konstante uzorka I β sadrži srednju vrijednost μ sa vjerovatnoćom β.

Jasno, što više n, to manje σ a interval je uži, i što je veća garancija β, to je širi interval povjerenja.

Primjer 21.

Za uzorak sa n=16 za normalnu vrijednost sa poznatom varijansom σ 2 =64 pronađeno je x=200. Konstruisati interval poverenja za opštu sredinu (drugim rečima, za matematičko očekivanje) μ, uz pretpostavku β=0,95.

Odluka. I β (μ)= ± δ, gdje je δ = K β σ/ -> K β σ/ =1,96*8/ = 4

I 0,95 (μ)=200 4=(196;204).

Zaključujući da, uz garanciju od β=0,95, prava srednja vrednost pripada intervalu (196,204), shvatamo da je greška moguća.

Od 100 intervala povjerenja I 0,95 (μ), u prosjeku 5 ne sadrže μ.

Primjer 22.

U uslovima prethodnog primjera 21, šta treba uzeti n da bi se interval povjerenja prepolovio? Da biste imali 2δ=4, morate uzeti

U praksi se često koriste jednostrani intervali povjerenja. Dakle, ako su visoke vrijednosti μ korisne ili nisu strašne, ali niske nisu ugodne, kao u slučaju snage ili pouzdanosti, onda je razumno izgraditi jednostrani interval. Da biste to učinili, trebate podići njegovu gornju granicu što je više moguće. Ako izgradimo, kao u primjeru 21, dvostrani interval povjerenja za dati β, a zatim ga proširimo što je više moguće zbog jedne od granica, onda ćemo dobiti jednostrani interval s većom garancijom β" = β + (1-β) / 2 = (1+ β)/2, na primjer, ako je β = 0,90, onda je β = 0,90 + 0,10/2 = 0,95.

Na primjer, pretpostavit ćemo da govorimo o jačini proizvoda i podići gornju granicu intervala na . Tada za μ u primeru 21 dobijamo jednostrani interval poverenja (196,°°) sa donjom granicom od 196 i verovatnoćom poverenja β"=0,95+0,05/2=0,975.

Praktični nedostatak formule (15) je što se ona izvodi pod pretpostavkom da je disperzija = σ 2 (dakle = σ 2 /n) poznata; a to se retko dešava u stvarnom životu. Izuzetak je slučaj kada je veličina uzorka velika, recimo, n se mjeri stotinama ili hiljadama, i tada za σ 2 možemo praktično uzeti njegovu procjenu s 2 ili .

Primjer 23.

Pretpostavimo da u nekim veliki grad kao rezultat uzorkovanja uslova života stanovnika dobijena je sljedeća tabela podataka (primjer sa posla).

Tabela 8

Izvorni podaci na primjer

To je prirodno pretpostaviti vrijednost X - ukupna (korisna) površina (u m 2) po osobi je u skladu sa normalnim zakonom. Srednja vrijednost μ i varijansa σ 2 nisu poznati. Za μ, potrebno je konstruirati interval pouzdanosti od 95%. Da bismo pronašli uzorku srednje vrijednosti i varijansu iz grupisanih podataka, sastavit ćemo sljedeću tablicu proračuna (Tabela 9).

Tabela 9

X i 5 Proračuni na grupisanim podacima

N grupa h Ukupna površina po 1 osobi, m 2 Broj stanovnika u grupi r j Interval x j r j x j rjxj 2
Do 5.0 2.5 20.0 50.0
5.0-10.0 7.5 712.5 5343.75
10.0-15.0 12.5 2550.0 31875.0
15.0-20.0 17.5 4725.0 82687.5
20.0-25.0 22.5 4725.0 106312.5
25.0-30.0 27.5 3575.0 98312.5
preko 30.0 32.5 * 2697.5 87668.75
- 19005.0 412250.0

U ovoj pomoćnoj tabeli, prema formuli (2), izračunavaju se prvi i drugi početni statistički momenti a 1 i a 2

Iako je varijansa σ 2 ovdje nepoznata, zbog velike veličine uzorka, formula (15) se može primijeniti u praksi, postavljajući u njoj σ= =7,16.

Tada je δ=k 0,95 σ/ =1,96*7,16/ =0,46.

Interval pouzdanosti za opštu srednju vrednost pri β=0,95 je I 0,95 (μ) = ± δ = 19 ± 0,46 = (18,54; 19,46).

Dakle, prosječna vrijednost površine po osobi u ovom gradu sa garancijom od 0,95 leži u intervalu (18,54; 19,46).



2. Interval pouzdanosti za matematičko očekivanje μ u slučaju ne poznata varijansaσ 2 normalna vrijednost. Ovaj interval za datu garanciju β se konstruiše prema formuli , gdje je ν = n-1 ,

(16)

Koeficijent t β,ν ima isto značenje za t - distribuciju sa ν stepeni slobode, kao i za β za distribuciju N(0,1), i to:

.

Drugim riječima, sl. Vrijednost tν pada u interval (-t β,ν ; +t β,ν) sa vjerovatnoćom β. Vrijednosti t β,ν date su u tabeli 10 za β=0,95 i β=0,99.

Tabela 10

Vrijednosti t β,ν

Vraćajući se na primjer 23, vidimo da je interval povjerenja u njemu izgrađen prema formuli (16) sa koeficijentom t β,υ =k 0..95 =1.96, budući da je n=1000.



greška: Sadržaj je zaštićen!!