Válassza az Oldal lehetőséget

Matematika és számítástechnika. Tanulmányi útmutató a teljes kurzushoz

Építsünk MS-ben EXCEL bizalom intervallum az eloszlás középértékének becslésére ismert variancia esetén.

Természetesen a választás a bizalom szintje teljesen a megoldandó probléma függvénye. Így a légi utasnak a repülőgép megbízhatóságába vetett bizalma kétségtelenül nagyobb kell legyen, mint a vevőnek egy elektromos izzó megbízhatóságába vetett bizalma.

Probléma megfogalmazása

Tegyük fel, hogy abból lakosság miután elvitték minta n-es méret. Feltételezhető, hogy szórás ez az eloszlás ismert. Ez alapján szükséges mintákértékelje az ismeretlent eloszlási átlag(μ, ) és állítsuk össze a megfelelőt kétoldalas konfidencia intervallum.

Pontbecslés

Amint az ismeretes statisztika(Jelöljük X átl) van az átlag elfogulatlan becslése ez lakosságés N(μ;σ 2 /n) eloszlású.

Jegyzet: Mi a teendő, ha építkezni kell konfidencia intervallum eloszlás esetén azt nem normál? Ebben az esetben jön a mentő, amely kimondja, hogy egy kellően nagy méretű minták n elosztásból nem lévén normál, statisztika mintaeloszlása ​​X átl akarat hozzávetőlegesen megfelelnek normál eloszlás N(μ;σ 2 /n) paraméterekkel.

Így, pontbecslés átlagos eloszlási értékek van - ez minta átlag, azaz X átl. Most pedig kezdjük konfidencia intervallum.

Konfidenciaintervallum felépítése

Általában az eloszlás és paramétereinek ismeretében ki tudjuk számítani annak a valószínűségét, hogy a valószínűségi változó értéket vesz fel az általunk megadott intervallumból. Most tegyük az ellenkezőjét: keressük meg azt az intervallumot, amelybe a valószínűségi változó adott valószínűséggel esik. Például a tulajdonságokból normál eloszlás ismert, hogy 95%-os valószínűséggel egy valószínűségi változó eloszlik normális törvény, körülbelül +/- 2 tartományba esik átlagos érték(lásd a cikket erről). Ez az intervallum prototípusként fog szolgálni számunkra konfidencia intervallum.

Most lássuk, ismerjük-e az elosztást , kiszámolni ezt az intervallumot? A kérdés megválaszolásához meg kell jelölnünk az eloszlás alakját és paramétereit.

Ismerjük az elosztás formáját – ez van normál eloszlás(ne feledje, hogy beszélünk mintavételi eloszlás statisztika X átl).

A μ paraméter ismeretlen számunkra (csak meg kell becsülni a segítségével konfidencia intervallum), de van rá becslésünk X átlag, alapján számítjuk ki minták, ami használható.

Második paraméter - mintaátlag szórása ismertnek fogjuk tekinteni, egyenlő σ/√n-nel.

Mert nem ismerjük a μ-t, akkor megépítjük a +/- 2 intervallumot szórások nem attól átlagos érték, és ismert becslése alapján X átl. Azok. számításkor konfidencia intervallum ezt NEM feltételezzük X átl+/- 2 tartományba esik szórásokμ-től 95%-os valószínűséggel, és feltételezzük, hogy az intervallum +/- 2 szórások-tól X átl 95%-os valószínűséggel lefedi μ-t – a lakosság átlaga, ahonnan azt veszik minta. Ez a két állítás ekvivalens, de a második állítás lehetővé teszi a konstrukciót konfidencia intervallum.

Ezen kívül tisztázzuk az intervallumot: egy elosztott valószínűségi változó normális törvény, 95%-os valószínűséggel a +/- 1,960 intervallumba esik szórások, nem +/- 2 szórások. Ezt a képlet segítségével lehet kiszámítani =NORM.ST.REV((1+0,95)/2), cm. példa fájl Lap intervallum.

Most megfogalmazhatunk egy valószínűségi állítást, amely a formálást szolgálja majd konfidencia intervallum:
"Annak a valószínűsége népesség átlaga től található minta átlaga 1960"-on belül a minta átlagának szórása", egyenlő 95%-kal".

Az állításban említett valószínűségi értéknek speciális neve van , amelyhez kapcsolódik szignifikancia szint α (alfa) egyszerű kifejezéssel a bizalom szintje =1 . A mi esetünkben szignifikancia szint α =1-0,95=0,05 .

Most ennek a valószínűségi állításnak a alapján írunk egy kifejezést a számításhoz konfidencia intervallum:

ahol Z α/2 standard normál eloszlás(a valószínűségi változónak ez az értéke z, Mi P(z>=Z α/2 )=α/2).

Jegyzet: Felső α/2-kvantilis a szélességet határozza meg konfidencia intervallum V szórások minta átlag. Felső α/2-kvantilis standard normál eloszlás mindig nagyobb, mint 0, ami nagyon kényelmes.

Esetünkben α=0,05 esetén felső α/2-kvantilis egyenlő 1,960. Egyéb szignifikanciaszinteknél α (10%; 1%) felső α/2-kvantilis Z α/2 kiszámítható a =NORM.ST.REV(1-α/2) képlettel, vagy ha ismert a bizalom szintje, =NORM.ST.OBR((1+megbízhatósági szint)/2).

Általában építéskor konfidencia intervallumok az átlag becsléséhez csak használja felső α/2-kvantilisés ne használd alacsonyabb α/2-kvantilis. Ez azért lehetséges, mert standard normál eloszlás szimmetrikusan az x tengelyre ( eloszlási sűrűsége szimmetrikus kb átlagos, azaz 0). Ezért nem kell számolni alsó α/2-kvantilis(egyszerűen α-nak hívják /2-kvantilis), mert egyenlő felső α/2-kvantilis mínusz jellel.

Emlékezzünk vissza, hogy az x érték eloszlásának alakja ellenére a megfelelő valószínűségi változó X átl megosztott hozzávetőlegesen Finom N(μ;σ 2 /n) (lásd a témáról szóló cikket). Ezért be általános eset, a fenti kifejezés a konfidencia intervallum csak közelítés. Ha az x értéket elosztjuk normális törvény N(μ;σ 2 /n), akkor a for kifejezés konfidencia intervallum pontos.

Konfidenciaintervallum számítása MS EXCEL-ben

Oldjuk meg a problémát.
Az elektronikus komponens válaszideje a bemeneti jelre az eszköz fontos jellemzője. Egy mérnök meg akarja alkotni az átlagos válaszidő konfidenciaintervallumát 95%-os megbízhatósági szinten. Korábbi tapasztalatból a mérnök tudja, hogy a válaszidő szórása 8 ms. Ismeretes, hogy a válaszidő értékeléséhez a mérnök 25 mérést végzett, az átlagérték 78 ms volt.

Megoldás: Egy mérnök tudni akarja egy elektronikus eszköz válaszidejét, de megérti, hogy a válaszidő nem fix érték, hanem egy valószínűségi változó, amelynek saját eloszlása ​​van. Tehát a legjobb, amit remélhet, hogy meghatározza ennek az eloszlásnak a paramétereit és alakját.

Sajnos a problémakörülményekből nem ismerjük a válaszidő eloszlás alakját (nem kell, hogy így legyen normál). , ez az eloszlás sem ismert. Csak őt ismerik szórásσ=8. Ezért, miközben nem tudjuk kiszámítani a valószínűségeket és konstruálni konfidencia intervallum.

Azonban annak ellenére, hogy nem ismerjük az eloszlást idő külön válasz szerint tudjuk CPT, mintavételi eloszlás átlagos válaszidő megközelítőleg normál(feltételezzük, hogy a feltételek CPT végeznek, mert méret minták elég nagy (n=25) .

Ráadásul, átlagos ez az eloszlás egyenlő átlagos érték egyetlen válasz eloszlása, azaz. μ. A szórás ennek az eloszlásnak (σ/√n) a =8/ROOT(25) képlettel számítható ki.

Az is ismert, hogy a mérnök kapott pontbecslésμ paraméter értéke 78 ms (X avg). Ezért most már kiszámíthatjuk a valószínűségeket, mert ismerjük az elosztás formáját ( normál) és paraméterei (X avg és σ/√n).

A mérnök tudni akarja matematikai elvárásμ válaszidő eloszlások. Amint fentebb említettük, ez a μ egyenlő az átlagos válaszidő mintaeloszlásának matematikai elvárása. Ha használjuk normál eloszlás N(X avg; σ/√n), akkor a kívánt μ a +/-2*σ/√n tartományban lesz, körülbelül 95%-os valószínűséggel.

Jelentősségi szint egyenlő 1-0,95=0,05.

Végül keressük meg a bal és jobb oldali szegélyt konfidencia intervallum.
Bal szegély: =78-NORM.ST.REV(1-0,05/2)*8/ROOT(25) = 74,864
Jobb szegély: =78+NORM.ST.INV(1-0,05/2)*8/ROOT(25)=81,136

Bal szegély: =NORM.REV(0,05/2; 78; 8/ROOT(25))
Jobb szegély: =NORM.REV(1-0,05/2; 78; 8/ROOT(25))

Válasz: konfidencia intervallum at 95%-os megbízhatósági szint és σ=8msec egyenlő 78+/-3,136 ms.

IN példafájlt a Sigma lapon ismert, elkészítették a számítási és kivitelezési űrlapot kétoldalas konfidencia intervallumönkényesnek minták adott σ-vel és jelentőség szintje.

CONFIDENCE.NORM() függvény

Ha az értékek minták tartományban vannak B20:B79 , A szignifikancia szint egyenlő 0,05; majd az MS EXCEL képlet:
=ÁTLAG(B20:B79)-BIZTONSÁGI.NORM(0,05;σ; COUNT(B20:B79))
visszaadja a bal oldali szegélyt konfidencia intervallum.

Ugyanez a határérték kiszámítható a következő képlettel:
=ÁTLAG(B20:B79)-NORM.ST.REV(1-0.05/2)*σ/GYÖK(SZÁM(B20:B79))

Jegyzet: A CONFIDENCE.NORM() függvény megjelent az MS EXCEL 2010-ben. Az MS EXCEL korábbi verzióiban a TRUST() függvényt használták.

Bizalmi intervallum– határértékek statisztikai érték, amely adott megbízhatósági valószínűségγ ebben az intervallumban lesz nagyobb térfogat mintavételénél. Jelölése: P(θ - ε. A gyakorlatban a γ konfidenciavalószínűséget az egységhez nagyon közeli értékek közül választjuk: γ = 0,9, γ = 0,95, γ = 0,99.

A szolgáltatás célja. A szolgáltatás használatával meghatározhatja:

  • konfidencia intervallum az általános átlagra, konfidencia intervallum a variancia esetében;
  • konfidencia intervallum a szóráshoz, konfidenciaintervallum az általános részvényhez;
Az eredményül kapott megoldás egy Word fájlba kerül (lásd a példát). Az alábbiakban egy videós útmutató található a kezdeti adatok kitöltéséhez.

1. számú példa. Egy kolhozban az 1000 darabos juhállományból 100 juhon esett át szelektív kontrollnyírás. Ennek eredményeként juhonként átlagosan 4,2 kg gyapjúvágást állapítottak meg. Határozza meg 0,99 valószínűséggel az átlagot! négyzetes hiba mintákat a juhonkénti átlagos gyapjúnyírás meghatározásakor, valamint azokat a határokat, amelyeken belül a nyírási érték tartható, ha a szórás 2,5. A minta nem ismétlődő.
2. példa. A Moszkvai Északi Vámhivatal postáján behozott termékekből 20 db „A” termékből véletlenszerű ismételt mintavétellel mintát vettek. A vizsgálat eredményeként megállapítható volt az „A” termék átlagos nedvességtartalma a mintában, amely 1%-os szórással 6%-nak bizonyult.
Határozza meg 0,683 valószínűséggel a termék átlagos nedvességtartalmának határait az importált termékek teljes tételében!
3. példa. Egy 36 tanuló bevonásával készült felmérés kimutatta, hogy az általuk évente átlagosan elolvasott tankönyvek száma tanévben, 6-tal egyenlőnek bizonyult. Feltételezve, hogy a hallgató által félévenként elolvasott tankönyvek számának normál eloszlási törvénye 6-os szórással, keresse meg: A) 0,99-es megbízhatósággal, az intervallumbecslés matematikai elvárás ez a valószínűségi változó; B) mekkora valószínűséggel mondható el, hogy ebből a mintából számított átlagos tankönyvszám, amelyet egy hallgató félévenként elolvas, abszolút értékben legfeljebb 2-vel tér el a matematikai elvárástól.

A konfidencia intervallumok osztályozása

A vizsgált paraméter típusa szerint:

Mintatípus szerint:

  1. Konfidencia intervallum végtelen mintához;
  2. A végső minta megbízhatósági intervalluma;
A mintát újramintavételezésnek nevezzük, ha a kiválasztott objektum a következő kiválasztása előtt visszakerül a sokaságba. A mintát nem ismétlődőnek nevezzük, ha a kiválasztott objektum nem kerül vissza a sokaságba. A gyakorlatban általában nem ismétlődő mintákkal foglalkozunk.

Az átlagos mintavételi hiba kiszámítása véletlenszerű mintavételnél

A mintából nyert mutatók értékei és az általános sokaság megfelelő paraméterei közötti eltérést nevezzük reprezentativitási hiba.
Az általános és mintapopulációk főbb paramétereinek megnevezése.
Átlagos mintavételi hibaképletek
újraválasztásnem ismétlődő kiválasztás
átlagosnakmegosztásraátlagosnakmegosztásra
A mintavételi hibahatár (Δ) közötti kapcsolat bizonyos valószínűséggel garantált Р(t),és az átlagos mintavételi hiba alakja: vagy Δ = t·μ, ahol t– konfidencia együttható, a P(t) valószínűségi szint függvényében meghatározva a Laplace-integrálfüggvény táblázata szerint.

Képletek a minta méretének tisztán véletlenszerű mintavételi módszerrel történő kiszámításához

A statisztikákban kétféle becslés létezik: pont és intervallum. Pontbecslés egy egymintás statisztika, amelyet egy populációs paraméter becslésére használnak. Például a minta átlaga a sokaság matematikai elvárásának és a minta varianciájának pontbecslése S 2- a populáció variancia pontbecslése σ 2. kimutatták, hogy a minta átlaga a sokaság matematikai elvárásának elfogulatlan becslése. A mintaátlagot torzítatlannak nevezzük, mert az összes mintaátlag átlaga (azonos mintaméret mellett) n) megegyezik a teljes sokaság matematikai elvárásával.

A minta szórásának érdekében S 2 a populáció varianciájának elfogulatlan becslése lett σ 2, akkor a minta szórásának nevezője egyenlőnek kell lennie n – 1 , nem n. Más szóval, a sokaság szórása az összes lehetséges mintavariancia átlaga.

A populációs paraméterek becslésénél szem előtt kell tartani, hogy a mintastatisztika, mint pl , adott mintáktól függ. Ezt a tényt figyelembe venni, megszerezni intervallum becslés az általános sokaság matematikai elvárása, elemezze a mintaátlagok eloszlását (bővebben lásd). A megszerkesztett intervallumot egy bizonyos konfidenciaszint jellemzi, amely annak valószínűségét jelenti, hogy a valódi populációs paramétert helyesen becsülik meg. Hasonló konfidencia intervallumok használhatók egy jellemző arányának becslésére rés a lakosság fő elosztott tömege.

Töltse le a jegyzetet vagy formátumban, a példákat formátumban

Konfidenciaintervallum felépítése ismert szórással rendelkező sokaság matematikai elvárására

Konfidenciaintervallum felépítése egy jellemző populációban való részesedésére

Ez a szakasz kiterjeszti a konfidenciaintervallum fogalmát a kategorikus adatokra. Ez lehetővé teszi, hogy megbecsüljük a jellemző arányát a populációban r mintamegosztás használatával rS= X/n. Amint jeleztük, ha a mennyiségeket nrÉs n(1 – p) haladja meg az 5-ös számot, binomiális eloszlás a szokásos módon közelíthető meg. Ezért megbecsülni egy jellemző részesedését a sokaságban r meg lehet alkotni egy intervallumot, amelynek konfidenciaszintje egyenlő (1 – α)х100%.


Ahol pS- a jellemző mintaaránya egyenlő X/n, azaz a sikerek száma osztva a minta méretével, r- a jellemző részesedése a lakosság körében, Z- a standardizált normál eloszlás kritikus értéke, n- minta mérete.

3. példa Tételezzük fel, hogy egy 100 számlából álló minta került kitöltésre múlt hónapban. Tegyük fel, hogy ebből a számlából 10 hibásan lett összeállítva. Így, r= 10/100 = 0,1. A 95%-os megbízhatósági szint a Z = 1,96 kritikus értéknek felel meg.

Így annak a valószínűsége, hogy a számlák 4,12-15,88%-a tartalmaz hibát, 95%.

Egy adott mintaméretnél a jellemző populációban való arányát tartalmazó konfidenciaintervallum szélesebbnek tűnik, mint egy folytonos valószínűségi változó esetén. Ennek az az oka, hogy a folytonos valószínűségi változó mérései több információt tartalmaznak, mint a kategorikus adatok mérései. Más szóval, a kategorikus adatok, amelyek csak két értéket vesznek fel, nem tartalmaznak elegendő információt eloszlásuk paramétereinek becsléséhez.

INvéges sokaságból kinyert becslések kiszámítása

A matematikai elvárás becslése. Korrekciós tényező a végső sokasághoz ( fpc) segítségével csökkentették a standard hibát egy tényezővel. A populációparaméter-becslések konfidenciaintervallumának kiszámításakor korrekciós tényezőt alkalmaznak olyan helyzetekben, amikor a mintákat visszaküldés nélkül veszik. Így a matematikai elvárás konfidencia intervalluma, amelynek megbízhatósági szintje egyenlő (1 – α)х100%, a következő képlettel számítjuk ki:

4. példa A korrekciós tényező véges sokaságra való használatának szemléltetésére térjünk vissza a fenti, 3. példában tárgyalt, átlagos számlamennyiség konfidenciaintervallumának kiszámításához. Tegyük fel, hogy egy vállalat havonta 5000 számlát állít ki, és = 110,27 dollár, S= 28,95 USD, N = 5000, n = 100, α = 0,05, t 99 = 1,9842. A (6) képlet segítségével megkapjuk:

Egy jellemző részesedésének becslése. Visszaadás nélküli választás esetén az attribútum azon arányának konfidenciaintervalluma, amelynek konfidenciaszintje egyenlő (1 – α)х100%, a következő képlettel számítjuk ki:

Bizalmi intervallumokés etikai kérdések

A sokaság mintavételekor és a statisztikai következtetések levonásakor gyakran felmerülnek etikai kérdések. A legfontosabb az, hogy a mintastatisztikák konfidenciaintervallumai és pontbecslései hogyan egyeznek. A pontbecslések közzététele a kapcsolódó konfidenciaintervallumok (általában 95%-os konfidenciaszinten) és a mintaméret, amelyből származnak, megadása nélkül, zavart okozhat. Ez azt a benyomást keltheti a felhasználóban, hogy a pontbecslés pontosan az, amire szüksége van a teljes sokaság tulajdonságainak előrejelzéséhez. Ezért meg kell érteni, hogy minden kutatás során nem a pontbecslésekre, hanem az intervallumbecslésekre kell összpontosítani. Kívül, különös figyelmet meg kell adni a helyes választás mintaméretek.

A statisztikai manipuláció tárgyai leggyakrabban bizonyos politikai kérdésekben a lakosság szociológiai felméréseinek eredményei. Ugyanakkor a felmérés eredményeit az újságok címlapjain teszik közzé, a mintavételi hiba és a statisztikai elemzés módszertana pedig valahol középen. A kapott pontbecslések érvényességének bizonyításához fel kell tüntetni, hogy mekkora minta alapján kaptuk, a konfidenciaintervallum határait és szignifikancia szintjét.

Következő megjegyzés

A Levin et al. Statisztika menedzsereknek című könyv anyagait használjuk. – M.: Williams, 2004. – p. 448–462

Központi határérték tétel kimondja, hogy kellően nagy mintaméret mellett az átlagok mintaeloszlása ​​normális eloszlással közelíthető. Ez a tulajdonság nem függ a populáció megoszlási típusától.

A többiek pedig mind elméleti analógjaik becslései, amelyeket meg lehetne szerezni, ha nem egy minta, hanem egy általános sokaság állna rendelkezésre. De sajnos az általános lakosság nagyon drága és gyakran elérhetetlen.

Az intervallumbecslés fogalma

Minden mintabecslésnek van némi szórása, mert egy valószínűségi változó, amely egy adott mintában lévő értékektől függ. Ezért a megbízhatóbb statisztikai következtetések érdekében nemcsak tudnia kell pontbecslés, hanem egy olyan intervallum is, amely nagyon valószínű γ (gamma) takarja a kiértékelt mutatót θ (théta).

Formálisan ez két ilyen érték (statisztika) T 1 (X)És T 2 (X), Mi T 1< T 2 , amelyre adott valószínűségi szinten γ a feltétel teljesül:

Röviden: valószínű γ vagy több az igazi mutató a pontok között van T 1 (X)És T 2 (X), amelyeket alsó és felső határnak nevezünk konfidencia intervallum.

A konfidenciaintervallumok felépítésének egyik feltétele annak maximális szűksége, pl. a lehető legrövidebbnek kell lennie. A vágy egészen természetes, mert... a kutató igyekszik pontosabban lokalizálni a kívánt paraméter helyét.

Ebből következik, hogy a konfidenciaintervallumnak le kell fednie az eloszlás maximális valószínűségét. és magának az értékelésnek kell a középpontban lennie.

Vagyis a valós mutatónak a becsléstől való eltérésének valószínűsége felfelé egyenlő a lefelé való eltérés valószínűségével. Azt is meg kell jegyezni, hogy aszimmetrikus eloszlások esetén a jobb oldali intervallum nem egyenlő az intervallumtal balra.

A fenti ábra egyértelműen mutatja, hogy minél nagyobb a megbízhatósági valószínűség, annál szélesebb az intervallum - közvetlen kapcsolat.

Ez egy rövid bevezetés volt az ismeretlen paraméterek intervallumbecslésének elméletébe. Térjünk át a matematikai elvárás megbízhatósági határainak megtalálására.

Konfidenciaintervallum a matematikai elvárásokhoz

Ha az eredeti adatok el vannak osztva, akkor az átlag normál érték lesz. Ez abból a szabályból következik, hogy a normálértékek lineáris kombinációjának normális eloszlása ​​is van. Ezért a valószínűségek kiszámításához használhatjuk a normális eloszlási törvény matematikai apparátusát.

Ehhez azonban két paraméter ismeretére lesz szükség – a várakozásra és a szórásra, amelyek általában ismeretlenek. Természetesen használhatunk becsléseket a paraméterek helyett (számtani átlag és ), de akkor az átlag eloszlása ​​nem lesz teljesen normális, kissé lefelé laposodik. Ezt a tényt okosan feljegyezte William Gosset ír állampolgár, felfedezését a Biometrica folyóirat 1908. márciusi számában publikálva. Gosset titoktartási okokból hallgatónak nevezte magát. Így jelent meg a Student t-eloszlás.

A K. Gauss által a csillagászati ​​megfigyelések hibáinak elemzéséhez használt adatok normál eloszlása ​​azonban rendkívül ritka a földi életben, és meglehetősen nehéz megállapítani (a nagy pontossághoz körülbelül 2 ezer megfigyelés szükséges). Ezért a legjobb, ha elvetjük a normalitás feltételezését, és olyan módszereket alkalmazunk, amelyek nem függnek az eredeti adatok eloszlásától.

Felmerül a kérdés: mi a számtani közép eloszlása, ha ismeretlen eloszlás adataiból számítjuk? A választ a valószínűségszámításban jól ismertek adják Központi határérték tétel(CPT). A matematikában ennek számos változata létezik (az egész sok év a megfogalmazás pontosításra került), de ezek mindegyike durván szólva arra a megállapításra csap le, hogy az összeg nagy mennyiségben független valószínűségi változók betartja a normál eloszlási törvényt.

A számtani átlag kiszámításakor a valószínűségi változók összegét használjuk. Innen kiderül, hogy a számtani középnek normális eloszlása ​​van, amelyben a várakozás az eredeti adat elvárása, a variancia pedig .

Az okos emberek tudják, hogyan kell bizonyítani a CLT-t, de mi ezt egy Excelben végzett kísérlet segítségével ellenőrizzük. Szimuláljunk egy 50 egyenletes eloszlású valószínűségi változóból álló mintát (a Excel függvények ESET KÖZÖTT). Ezután készítünk 1000 ilyen mintát, és mindegyikre kiszámítjuk a számtani átlagot. Nézzük a megoszlásukat.

Látható, hogy az átlag eloszlása ​​közel áll a normál törvényhez. Ha a minta méretét és számát még nagyobbra tesszük, a hasonlóság még jobb lesz.

Most, hogy a saját szemünkkel láttuk a CLT érvényességét, a számtani átlaghoz kiszámíthatunk konfidencia intervallumokat, amelyek adott valószínűséggel fedik le a valós átlagot vagy a matematikai elvárást.

A felső és alsó határ megállapításához ismerni kell a normál eloszlás paramétereit. Általában nincsenek ilyenek, ezért becsléseket használnak: számtani átlagÉs minta variancia. Ismétlem, ez a módszer csak nagy minták esetén ad jó közelítést. Ha a minták kicsik, gyakran javasolt a Student eloszlás használata. Ne hidd el! Az átlag Student-eloszlása ​​csak akkor fordul elő, ha az eredeti adat normális eloszlású, vagyis szinte soha. Ezért jobb, ha azonnal minimális korlátot szabunk a szükséges adatok mennyiségére, és aszimptotikusan helyes módszereket alkalmazunk. Azt mondják, 30 megfigyelés elég. Vegyél 50-et – nem fogsz rosszul esni.

T 1.2– a konfidencia intervallum alsó és felső határa

– minta számtani átlag

s 0– minta szórása (elfogulatlan)

n – mintanagyság

γ – megbízhatósági valószínűség (általában 0,9, 0,95 vagy 0,99)

c γ =Φ -1 ((1+γ)/2)– a standard normális eloszlásfüggvény inverz értéke. Egyszerűen fogalmazva, ez a standard hibák száma a számtani átlagtól az alsó vagy felső határig (ez a három valószínűség 1,64, 1,96 és 2,58 értékeknek felel meg).

A képlet lényege, hogy felvesszük a számtani átlagot, majd abból egy bizonyos összeget félreteszünk ( γ-val) standard hibák ( s 0 /√n). Minden ismert, vedd és fontold meg.

A személyi számítógépek széles körű használata előtt a normál eloszlási függvény és annak inverze értékeit kapták meg. Ma is használatosak, de hatékonyabb a kész Excel képletek használata. A fenti képlet összes eleme ( , és ) könnyen kiszámítható Excelben. De van egy kész képlet a konfidenciaintervallum kiszámításához - BIZALOM.NORM. A szintaxisa a következő.

CONFIDENCE.NORM(alfa;standard_off;méret)

alfa– szignifikanciaszint vagy konfidenciaszint, amely a fentebb elfogadott jelölésben egyenlő 1- γ-val, azaz. valószínűsége, hogy matematikaia várakozás a konfidenciaintervallumon kívül lesz. 0,95-ös megbízhatósági szint mellett az alfa 0,05 stb.

standard_off– a mintaadatok szórása. Nem kell kiszámítani a standard hibát, maga az Excel osztja az n gyökével.

méret– mintanagyság (n).

A CONFIDENCE NORM függvény eredménye a konfidenciaintervallum számítási képletének második tagja, azaz. fél intervallum Ennek megfelelően az alsó és felső pont az átlag ± a kapott érték.

Így lehetséges egy univerzális algoritmus felépítése az aritmetikai átlag konfidenciaintervallumainak kiszámítására, amely nem függ az eredeti adatok eloszlásától. Az univerzalitás ára aszimptotikus volta, azaz. viszonylag nagy minták használatának szükségessége. Azonban a korban modern technológiák a szükséges adatmennyiség összegyűjtése általában nem nehéz.

Statisztikai hipotézisek tesztelése konfidenciaintervallumokkal

(111. modul)

A statisztikák egyik fő megoldandó problémája az. Lényege röviden a következő. Feltételezzük például, hogy az általános népesség elvárása megegyezik valamilyen értékkel. Ezután megszerkesztjük az adott elvárásnál megfigyelhető mintaátlagok eloszlását. Ezután azt vizsgálják, hogy ebben a feltételes eloszlásban hol található a valós átlag. Ha túllép az elfogadható határokon, akkor egy ilyen átlag megjelenése nagyon valószínűtlen, és ha a kísérletet egyszer megismétlik, akkor szinte lehetetlen, ami ellentmond a felállított hipotézisnek, amelyet sikeresen elvetettek. Ha az átlag nem lépi túl a kritikus szintet, akkor a hipotézist nem utasítják el (de nem is bizonyítják!).

Tehát a konfidenciaintervallumok segítségével, esetünkben a várakozásra, néhány hipotézist is tesztelhet. Nagyon könnyű megtenni. Tegyük fel, hogy egy bizonyos minta számtani átlaga 100. Azt a hipotézist teszteljük, hogy a várható érték mondjuk 90. ​​Vagyis ha primitíven tesszük fel a kérdést, akkor ez így hangzik: lehet, hogy az igaz 90-nel egyenlő átlagérték, a megfigyelt átlag 100-nak bizonyult?

A kérdés megválaszolásához további információkra lesz szüksége a szórással és a minta méretével kapcsolatban. mondjuk szórás 30, a megfigyelések száma pedig 64 (hogy a gyökér könnyen kinyerhető legyen). Ekkor az átlag standard hibája 30/8 vagy 3,75. A 95%-os konfidenciaintervallum kiszámításához kettőt kell félretennie az átlag mindkét oldalán. standard hibák(pontosabban egyenként 1,96). A konfidenciaintervallum körülbelül 100±7,5 vagy 92,5 és 107,5 között lesz.

A további érvelés a következő. Ha a vizsgált érték a konfidenciaintervallumba esik, akkor az nem mond ellent a hipotézisnek, mert véletlenszerű ingadozások határai közé esik (95%-os valószínűséggel). Ha az ellenőrzött pont a konfidenciaintervallumon kívül esik, akkor egy ilyen esemény valószínűsége nagyon kicsi, minden esetben az elfogadható szint alatt van. Ez azt jelenti, hogy a hipotézist elvetjük, mivel ellentmond a megfigyelt adatoknak. Esetünkben a várható értékre vonatkozó hipotézis a konfidencia intervallumon kívül esik (a 90-es tesztelt érték nem szerepel a 100±7,5 intervallumban), ezért el kell vetni. A fenti primitív kérdésre válaszolva azt kell mondani: nem, nem, mindenesetre ez rendkívül ritkán fordul elő. Gyakran a hipotézis téves elutasításának konkrét valószínűségét (p-szint) jelzik, és nem azt a meghatározott szintet, amelyen a konfidenciaintervallumot felállították, hanem erről egy másik alkalommal.

Amint láthatja, az átlag (vagy matematikai elvárás) konfidenciaintervallumának megalkotása nem nehéz. A lényeg az, hogy felfogd a lényeget, és akkor mennek tovább a dolgok. A gyakorlatban a legtöbb esetben 95%-os konfidencia intervallumot használnak, ami körülbelül két standard hiba széles az átlag mindkét oldalán.

Egyelőre ennyi. Minden jót!

MATEMATIKAI VÁRÁSHOZ BIZTOSÍTÁSI INTERVALLUM

1. Legyen tudatában annak sl. az x mennyiség engedelmeskedik a normáltörvénynek ismeretlen μ átlaggal és ismert σ 2: X~N(μ,σ 2), σ 2 adott, μ ismeretlen. β van megadva. Az x 1, x 2, … , x n minta alapján meg kell alkotni I β (θ) (most θ=μ), teljesül (13)

A mintaátlag (más néven mintaátlag) ugyanazzal a μ középponttal, de kisebb eltéréssel X~N (μ, D) engedelmeskedik a normáltörvénynek, ahol D =σ 2 =σ 2 /n variancia.

Szükségünk lesz a K β számra, amelyet ξ~N(0,1) a feltétel határozza meg

Szavakkal kifejezve: az abszcissza tengely -K β és K β pontjai között található a szabványos normáltörvény sűrűséggörbéje alatti terület, egyenlő β-val.

Például, K 0,90 = 1,645 kvantilis a ξ érték 0,95 szintjének

K 0,95 = 1,96. ; K 0,997 =3.

Konkrétan, ha bármely normál törvény középpontjától jobbra és ugyanennyit balra félreteszünk 1,96 szórást, a sűrűséggörbe alatti területet rögzítjük 0,95-tel, ami miatt K 0 95 a 0,95-ös szint kvantiliseje. + 1/2 * 0,005 = 0,975 ennél a törvénynél.

A μ általános átlaghoz szükséges konfidencia intervallum: I A (μ) = (x-σ, x+σ),

ahol δ = (15)

Adjunk indoklást:

Az elmondottak szerint szavak. az érték a J=μ±σ intervallumba esik β valószínűséggel (9. ábra). Ebben az esetben a mennyiség μ középponttól δ-nál kisebb mértékben tér el, és a véletlen intervallumtól ± δ (véletlenszerű középponttal és J-vel azonos szélességgel) lefedi a μ pontot. Azaz Є J<=> μ Є Iβ,és ezért Р(μЄІ β) = Р(Є J)=β.

Tehát a mintán konstans I β intervallum a μ átlagot tartalmazza β valószínűséggel.

Nyilvánvaló, hogy minél nagyobb n, annál kisebb σ és az intervallum szűkebb, és minél nagyobbra vesszük a β garanciát, annál szélesebb a konfidenciaintervallum.

21. példa.

Egy n=16-os minta alapján ismert σ 2 =64 variancia mellett x=200-at találtunk. Szerkesszünk konfidenciaintervallumot az általános átlaghoz (más szóval a matematikai elváráshoz) μ, β=0,95-tel.

Megoldás. I β (μ)= ± δ, ahol δ = K β σ/ -> K β σ/ =1,96*8/ = 4

I 0,95 (μ)=200 4=(196;204).

Abból a következtetésből, hogy β=0,95 garanciával a valódi átlag a (196,204) intervallumhoz tartozik, megértjük, hogy hiba lehetséges.

100 konfidenciaintervallumból I 0,95 (μ), átlagosan 5 nem tartalmaz μ-t.

22. példa.

Az előző 21. példa körülményei között mit kell venni a konfidenciaintervallum felére csökkentéséhez? Ahhoz, hogy 2δ=4 legyen, meg kell vennünk

A gyakorlatban gyakran alkalmaznak egyoldalú konfidenciaintervallumokat. Így, ha a nagy μ értékek hasznosak vagy nem károsak, de az alacsony értékek kellemetlenek, mint például a szilárdság vagy a megbízhatóság esetében, akkor indokolt egy egyoldalú intervallum felépítése. Ehhez meg kell emelni a felső határát, amennyire csak lehetséges. Ha a 21. példához hasonlóan megszerkesztünk egy kétoldali konfidencia intervallumot egy adott β-ra, majd az egyik határ rovására a lehető legnagyobbra kibővítjük, akkor egy egyoldalú intervallumot kapunk nagyobb garanciával β" = β + (1-β) / 2 = (1+ β)/2, például, ha β = 0,90, akkor β = 0,90 + 0,10/2 = 0,95.

Például feltételezzük, hogy a szorzat erősségéről beszélünk, és az intervallum felső határát emeljük értékre. Ekkor a 21. példában μ-re egy egyoldalú konfidencia intervallumot (196,°°) kapunk, amelynek alsó határa 196, és a konfidencia valószínűsége β"=0,95+0,05/2=0,975.

A (15) képlet gyakorlati hátránya, hogy abból a feltételezésből származik, hogy a variancia = σ 2 (tehát = σ 2 /n) ismert; és ez ritkán fordul elő az életben. Kivételt képez az az eset, amikor a minta mérete nagy, mondjuk n-t százban vagy ezerben mérik, és akkor σ 2-re gyakorlatilag s 2 vagy becslést vehetünk.

23. példa.

Tegyük fel, néhányban nagy város A lakosok életkörülményeinek mintavételes felmérése eredményeként az alábbi adattáblázatot kaptuk (munkahelyi példa).

8. táblázat

Például a forrásadatok

Természetes ezt feltételezni az X érték a teljes (hasznos) terület (m2-ben) egy főre, és megfelel a normál törvénynek. Az átlag μ és a variancia σ 2 ismeretlen. μ esetén 95%-os konfidencia intervallumot kell alkotni. A mintaátlagok és szórásnégyzetek csoportosított adatok alapján történő megtalálásához a következő számítási táblázatot állítjuk össze (9. táblázat).

9. táblázat

X és 5 kiszámítása csoportosított adatokból

N csoport 3 Teljes terület egy főre, m2 Az r j csoport lakosainak száma Az x j intervallum közepe r j x j rjxj 2
5.0-ig 2.5 20.0 50.0
5.0-10.0 7.5 712.5 5343.75
10.0-15.0 12.5 2550.0 31875.0
15.0-20.0 17.5 4725.0 82687.5
20.0-25.0 22.5 4725.0 106312.5
25.0-30.0 27.5 3575.0 98312.5
több mint 30,0 32.5 * 2697.5 87668.75
- 19005.0 412250.0

Ebben a segédtáblázatban az első és a második kezdeti statisztikai momentumot a (2) képlet segítségével számítjuk ki. egy 1És A 2

Bár a σ 2 variancia itt ismeretlen, a nagy mintaszám miatt gyakorlatilag alkalmazhatjuk a (15) képletet, σ = = 7,16-ot betéve.

Ekkor δ=k 0,95 σ/ =1,96*7,16/ =0,46.

A konfidenciaintervallum az általános átlaghoz β=0,95 esetén egyenlő: I 0,95 (μ) = ± δ = 19 ± 0,46 = (18,54; 19,46).

Ebből következően az egy főre jutó terület átlagos értéke egy adott városban 0,95-ös garanciával a (18,54; 19,46) intervallumban található.



2. Konfidenciaintervallum a matematikai elváráshoz μ nem esetén ismert varianciaσ 2 normál érték.

(16)

Ezt az intervallumot egy adott β garanciához a következő képlet szerint állítjuk össze, ahol ν = n-1,

.

A t β,ν együtthatónak ugyanaz a jelentése a ν szabadságfokú t eloszlásnál, mint β az N(0,1) eloszlásnál, nevezetesen:

Más szóval, sl. A tν érték a (-t β,ν ; +t β,ν) intervallumba esik β valószínűséggel. A t β,ν értékeit a 10. táblázat tartalmazza β=0,95 és β=0,99 esetén.

10. táblázat.

Értékek t β,ν



Vissza az elejére hiba: