Vyberte možnost Stránka

Prognózování založené na metodě exponenciálního vyhlazování. Příklad řešení problému

04/02/2011 - Touha člověka pozvednout závoj budoucnosti a předvídat běh událostí má stejně dlouhou historii jako jeho pokusy pochopit svět. Je zřejmé, že v pozadí zájmu o prognózu jsou poměrně silné životní motivy (teoretické i praktické). Prognóza funguje jako nejdůležitější metoda pro testování vědeckých teorií a hypotéz. Schopnost předvídat budoucnost je nedílnou součástí vědomí, bez níž by samotný lidský život nebyl možný.

Pojem „prognóza“ (z řec. prognóza – předvídání, předpověď) znamená proces vytváření pravděpodobnostního úsudku o stavu jevu nebo procesu v budoucnosti, jde o poznání toho, co ještě není, ale co může přijít v blízké nebo vzdálené budoucnosti.

Obsah prognózy je složitější než předpověď. Jednak odráží nejpravděpodobnější stav objektu a jednak určuje způsoby a prostředky k dosažení požadovaného výsledku. Na základě informací získaných prediktivním způsobem jsou přijímána určitá rozhodnutí k dosažení požadovaného cíle.

Je třeba si uvědomit, že dynamika ekonomických procesů v moderní podmínky vyznačující se nestabilitou a nejistotou, což ztěžuje použití tradičních prognostických metod.

Exponenciální vyhlazovací a predikční modely patří do třídy adaptivních prognostických metod, jejichž hlavní charakteristikou je schopnost průběžně zohledňovat vývoj dynamických charakteristik studovaných procesů, přizpůsobovat se této dynamice, přičemž zejména tím větší váhu a čím vyšší je informační hodnota dostupných pozorování, tím blíže jsou aktuálnímu okamžiku v čase. Smyslem tohoto termínu je, že adaptivní prognózování umožňuje aktualizovat prognózy s minimálním zpožděním a pomocí relativně jednoduchých matematických postupů.

Metoda exponenciálního vyhlazování byla objevena nezávisle Hnědý(Brown R.G. Statistická prognóza pro řízení zásob, 1959) a Holt(Holt C.C. Forecasting Seasonal and Trends by Exponencially Weighted Moving Averages, 1957). Exponenciální vyhlazování, stejně jako metoda klouzavého průměru, používá pro prognózy minulé hodnoty časové řady.

Podstatou metody exponenciálního vyhlazování je, že časová řada je vyhlazena pomocí váženého klouzavého průměru, ve kterém se váhy řídí exponenciálním zákonem. Vážený klouzavý průměr s exponenciálně rozdělenými vahami charakterizuje hodnotu procesu na konci vyhlazovacího intervalu, tj. průměrná charakteristika poslední úrovně série. Právě tato vlastnost se používá pro prognózování.

Normální exponenciální vyhlazování se použije, když v datech není žádný trend nebo sezónnost. V tomto případě je předpověď váženým průměrem všech dostupných hodnot předchozích řad; v tomto případě váhy geometricky klesají s časem, jak se pohybujeme do minulosti (zpět). Proto (na rozdíl od metody klouzavého průměru) neexistuje žádný bod, ve kterém by se váhy přerušily, tedy nula. Pragmaticky jasný model jednoduchého exponenciálního vyhlazování lze napsat následovně (všechny vzorce článku lze stáhnout z uvedeného odkazu):

Ukažme si exponenciální povahu poklesu vah hodnot časové řady - od aktuální k předchozí, od předchozí k předchozí-předchozí atd.:

Pokud je vzorec aplikován rekurzivně, pak se každá nová vyhlazená hodnota (která je také predikcí) vypočítá jako vážený průměr aktuálního pozorování a vyhlazené řady. Je zřejmé, že výsledek vyhlazení závisí na parametru přizpůsobení alfa. Lze jej interpretovat jako diskontní faktor, který charakterizuje míru znehodnocení dat za jednotku času. Navíc vliv dat na prognózu exponenciálně klesá s „stářím“ dat. Závislost vlivu dat na prognózu při různých koeficientech alfa zobrazeno na obrázku 1.

Obrázek 1. Závislost vlivu dat na prognózu pro různé adaptační koeficienty

Je třeba poznamenat, že hodnota parametru vyhlazování nemůže být rovna 0 nebo 1, protože v tomto případě je samotná myšlenka exponenciálního vyhlazování zamítnuta. Takže když alfa rovná se 1, pak předpokládaná hodnota Ft+1 odpovídá hodnotě aktuálního řádku Xt, zatímco exponenciální model inklinuje k nejjednoduššímu „naivnímu“ modelu, tedy v tomto případě je prognózování naprosto triviální proces. Li alfa rovná se 0, pak počáteční hodnota prognózy F0 (počáteční hodnota) bude současně předpovědí pro všechny následující okamžiky série, to znamená, že předpověď v tomto případě bude vypadat jako pravidelná vodorovná čára.

Uvažujme však varianty parametru vyhlazování, které se blíží 1 nebo 0. Tedy, pokud alfa blízko 1, pak jsou předchozí pozorování časové řady téměř úplně ignorována. Li alfa blízko 0, pak jsou aktuální pozorování ignorována. Hodnoty alfa mezi 0 a 1 poskytují mezivýsledky. Podle řady autorů optimální hodnotu alfa je v rozmezí od 0,05 do 0,30. Nicméně někdy alfa, větší než 0,30 poskytuje lepší předpověď.

Obecně je lepší vyhodnotit optimální alfa na základě nezpracovaných dat (pomocí vyhledávání v mřížce), spíše než pomocí umělých doporučení. Pokud však hodnotu alfa, větší než 0,3 minimalizuje řadu speciálních kritérií, což naznačuje, že jiná technika předpovědi (využívající trend nebo sezónnost) je schopna poskytnout ještě přesnější výsledky. Chcete-li najít optimální hodnotu alfa(tj. minimalizace speciálních kritérií). algoritmus kvazi-newtonské pravděpodobnosti maximalizace(pravděpodobnost), což je efektivnější než běžný výčet na mřížce.

Přepišme rovnici (1) do podoby alternativní varianty, která nám umožní vyhodnotit, jak se exponenciální vyhlazovací model „učí“ ze svých minulých chyb:

Z rovnice (3) jasně vyplývá, že prognóza na období t+1 podléhá změně směru nárůstu, v případě překročení skutečné hodnoty časové řady v období t nad prognózovanou hodnotu a naopak prognózu pro dané období t+1 by měla být snížena, pokud X t méně než F t.

Všimněte si, že při použití metod exponenciálního vyhlazování důležitá záležitost vždy je určení počátečních podmínek (počáteční předpovědní hodnota F0). Proces výběru počáteční hodnoty vyhlazené řady se nazývá inicializace ( inicializace), nebo jinými slovy „zahřívání“ (“ zahřívání“) modely. Jde o to, že počáteční hodnota vyhlazeného procesu může výrazně ovlivnit prognózu pro následná pozorování. Na druhé straně vliv volby klesá s délkou série a stává se nekritickým pro velmi velký počet pozorování. Brown jako první navrhl použít jako výchozí hodnotu průměr časové řady. Jiní autoři navrhují jako výchozí prognózu použít první skutečnou hodnotu časové řady.

V polovině minulého století Holt navrhl rozšířit jednoduchý model exponenciálního vyhlazování o růstový faktor ( růstový faktor), nebo jinak trend ( trendový faktor). V důsledku toho lze Holt model napsat následovně:

Tato metoda umožňuje vzít v úvahu přítomnost lineárního trendu v datech. Později byly navrženy další typy trendů: exponenciální, tlumené atd.

Zimy navrhl vylepšit Holt model z hlediska možnosti popisu vlivu sezónních faktorů (Winters P.R. Forecasting Sales by Exponencially Weighted Moving Averages, 1960).

Konkrétně dále rozšířil Holtův model o další rovnici popisující chování sezónní složka(součástka). Systém rovnic Wintersova modelu je následující:

Zlomek v první rovnici slouží k vyloučení sezónnosti z původní řady. Po vyloučení sezónnosti (podle metody sezónního rozkladu Sčítání lidu) algoritmus pracuje s „čistými“ daty, ve kterých nejsou žádné sezónní výkyvy. Objevují se již ve výsledné předpovědi (15), kdy se „čistá“ předpověď, počítaná téměř Holt metodou, násobí sezónní složkou ( index sezónnosti).

Jednoduchý a logicky přehledný model časové řady má následující podobu:

kde b je konstanta a ε - náhodná chyba. Konstantní b relativně stabilní v každém časovém intervalu, ale může se také v průběhu času pomalu měnit. Jeden z intuitivních způsobů, jak extrahovat hodnotu b z dat je použít vyhlazování klouzavým průměrem, ve kterém jsou nejnovější pozorování vážena více než předposlední, předposlední jsou více vážena než předposlední a tak dále. Jednoduché exponenciální vyhlazování je právě to. Starším pozorováním jsou zde přiřazovány exponenciálně klesající váhy, přičemž na rozdíl od klouzavého průměru se berou v úvahu všechna předchozí pozorování řady a nejen ta, která spadla do určitého okna. Přesný vzorec pro jednoduché exponenciální vyhlazení je:

Když je tento vzorec aplikován rekurzivně, každá nová vyhlazená hodnota (která je také predikcí) se vypočítá jako vážený průměr aktuálního pozorování a vyhlazené řady. Je zřejmé, že výsledek vyhlazení závisí na parametru α . Li α je 1, předchozí pozorování jsou zcela ignorována. Pokud a je 0, pak jsou aktuální pozorování ignorována. Hodnoty α mezi 0 a 1 poskytují mezivýsledky. Empirické studie ukázaly, že jednoduché exponenciální vyhlazení často poskytuje poměrně přesnou předpověď.

V praxi se většinou doporučuje brát α méně než 0,30. Volba větší než 0,30 však někdy poskytuje přesnější předpověď. To znamená, že je lepší odhadnout optimální hodnotu α na reálných datech než použít obecná doporučení.

V praxi se optimální parametr vyhlazování často hledá pomocí postupu vyhledávání mřížky. Možný rozsah hodnot parametrů je rozdělen mřížkou s určitým krokem. Zvažte například mřížku hodnot z α = 0,1 až α = 0,9 s krokem 0,1. Poté se zvolí hodnota α , pro kterou je součet čtverců (nebo středních čtverců) reziduí (pozorované hodnoty mínus předpovědi na krok vpřed) minimální.

Microsoft Excel má funkci Exponenciální vyhlazování (Exponenciální vyhlazování), který se obvykle používá k vyhlazení úrovní empirické časové řady založené na jednoduché metodě exponenciálního vyhlazování. Chcete-li tuto funkci vyvolat, vyberte v pruhu nabídky Nástroje – Analýza dat. Na obrazovce se otevře okno Analýza dat, ve kterém byste měli vybrat hodnotu Exponenciální vyhlazování. V důsledku toho se zobrazí dialogové okno. Exponenciální vyhlazování znázorněno na Obr. 11.5.


V dialogovém okně Exponenciální vyhlazování se nastavují téměř stejné parametry jako v dialogovém okně klouzavý průměr popsaný výše.

1. Vstupní rozsah (Vstupní data) - do tohoto pole se zadává rozsah buněk obsahující hodnoty studovaného parametru.

2. Štítky (štítky) - tento příznak volby je nastaven, pokud první řádek (sloupec) ve vstupním rozsahu obsahuje nadpis. Pokud záhlaví chybí, zaškrtávací políčko by mělo být zrušeno. V tomto případě se pro data výstupního rozsahu automaticky vygenerují standardní názvy.

3. Faktor tlumení - do tohoto pole zadejte hodnotu vybraného faktoru exponenciálního vyhlazování α . Výchozí hodnota je α = 0,3.

4. Možnosti výstupu - v této skupině můžete kromě určení rozsahu buněk pro výstupní data v poli Rozsah výstupu také požadovat automatické vykreslení grafu, u kterého je potřeba zaškrtnout volbu Výstup grafu a vypočítat standard chyby zaškrtnutím volby Standardní chyby.

Použijme funkci Exponenciální vyhlazování pro opětovné rozhodnutí problém zvažovaný výše, ale s pomocí jednoduché metody exponenciálního vyhlazování. Vybrané hodnoty parametrů vyhlazování jsou znázorněny na obr. 11.5. Na Obr. 11.6 ukazuje vypočtené ukazatele a na Obr. 11.7 - vykreslené grafy.

1. Základní metodická ustanovení.

Jednoduchá metoda exponenciálního vyhlazování používá vážený (exponenciálně) klouzavý průměr všech předchozích pozorování. Nejčastěji se tento model aplikuje na data, ve kterých je potřeba vyhodnotit přítomnost vztahu mezi analyzovanými ukazateli (trend) nebo závislost analyzovaných dat. Účelem exponenciálního vyhlazování je odhadnout aktuální stav, jehož výsledky určí všechny budoucí predikce.

Exponenciální vyhlazování zajišťuje neustálá aktualizace modelu díky nejnovějším údajům. Tato metoda je založena na zprůměrování (vyhlazení) časové řady minulých pozorování směrem dolů (exponenciálně). To znamená, že pozdější události mají větší váhu. Váha je přiřazena následovně: pro poslední pozorování bude váha hodnota α, pro předposlední - (1-α), pro to, které bylo před ním - (1-α) 2 atd.

Ve vyhlazené podobě lze novou předpověď (pro časové období t + 1) znázornit jako vážený průměr posledního pozorování veličiny v čase t a její předchozí prognózy pro stejné období t. Navíc je pozorované hodnotě přiřazena váha α a prognóze váha (1- α); předpokládá se, že 0< α<1. Это правило в общем виде можно записать следующим образом.

Nová předpověď = [α*(poslední pozorování)]+[(1- α)*poslední předpověď]

kde je předpokládaná hodnota pro další období;

α je vyhlazovací konstanta;

Yt je pozorování hodnoty za běžné období t;

Předchozí vyhlazená předpověď této hodnoty pro období t.

Exponenciální vyhlazování je postup pro neustálou revizi předpovědních výsledků s ohledem na nejnovější vývoj.

Vyhlazovací konstanta α je vážený faktor. Jeho skutečná hodnota je určena tím, do jaké míry má aktuální pozorování ovlivnit predikovanou hodnotu. Pokud se α blíží 1, pak prognóza zohledňuje hodnotu chyby poslední prognózy. Naopak pro malé hodnoty α je předpovídaná hodnota nejblíže předchozí předpovědi. Lze si ho představit jako vážený průměr všech minulých pozorování s váhami klesajícími exponenciálně s „stářím“ dat.



Tabulka 2.1

Porovnání vlivu různých hodnot vyhlazovacích konstant

Konstanta α je klíčem k analýze dat. Pokud je požadováno, aby predikované hodnoty byly stabilní a náhodné odchylky byly vyhlazeny, je nutné zvolit malou hodnotu α. Velká hodnota konstanty α má smysl, pokud potřebujete rychlou reakci na změny v pozorovacím spektru.

2. Praktický příklad exponenciálního vyhlazování.

Jsou uvedeny údaje společnosti z hlediska objemu prodeje (v tisících jednotek) za sedm let, vyhlazovací konstanta je brána 0,1 a 0,6. Testovací část tvoří data za 7 let; na nich je nutné vyhodnotit účinnost každého z modelů. Pro exponenciální vyhlazení řady se bere počáteční hodnota rovna 500 (první hodnota skutečných dat nebo průměrná hodnota za 3-5 období je zaznamenána ve vyhlazené hodnotě za 2. čtvrtletí).

Tabulka 2.2

Počáteční údaje

Čas Skutečná hodnota (skutečná) Vyhlazená hodnota Chyba předpovědi
rok čtvrťák 0,1 0,1
vynikat podle vzorce
#N/A 0,00
500,00 -150,00
485,00 485,00 -235,00
461,50 461,50 -61,50
455,35 455,35 -5,35
454,82 454,82 -104,82
444,33 444,33 -244,33
419,90 419,90 -119,90
407,91 407,91 -57,91
402,12 402,12 -202,12
381,91 381,91 -231,91
358,72 358,72 41,28
362,84 362,84 187,16
381,56 381,56 -31,56
378,40 378,40 -128,40
365,56 365,56 184,44
384,01 384,01 165,99
400,61 400,61 -0,61
400,55 400,55 -50,55
395,49 395,49 204,51
415,94 415,94 334,06
449,35 449,35 50,65
454,41 454,41 -54,41
448,97 448,97 201,03
469,07 469,07 380,93

Na Obr. 2.1 ukazuje predikci založenou na exponenciálním vyhlazování s konstantou vyhlazování 0,1.



Rýže. 2.1. Exponenciální vyhlazování

Řešení v Excelu.

1. Vyberte nabídku "Nástroje" - "Analýza dat". Ze seznamu Analytické nástroje vyberte Exponenciální vyhlazení. Pokud v nabídce "Nástroje" není žádná analýza dat, musíte nainstalovat "Analytický balíček". Chcete-li to provést, najděte položku "Nastavení" v části "Parametry" a v zobrazeném dialogovém okně zaškrtněte políčko "Analytický balíček" a klepněte na tlačítko OK.

2. Dialogové okno zobrazené na Obr. 2.2.

3. Do pole „interval vstupu“ zadejte hodnoty počátečních dat (plus jednu volnou buňku).

4. Zaškrtněte políčko „štítky“ (pokud vstupní rozsah obsahuje názvy sloupců).

5. Zadejte hodnotu (1-α) do pole faktoru tlumení.

6. Do pole „interval vstupu“ zadejte hodnotu buňky, ve které chcete vidět přijaté hodnoty.

7. Zaškrtnutím políčka "Možnosti" - "Výstup grafu" jej automaticky vytvoříte.

Rýže. 2.2. Dialogové okno pro exponenciální vyhlazování

3. Úloha laboratorní práce.

V tabulce 2.3 jsou uvedeny počáteční údaje o objemech produkce podniku produkujícího ropu za 2 roky:

Tabulka 2.3

Počáteční údaje

Proveďte exponenciální vyhlazení série. Vezměte koeficient exponenciálního vyhlazování rovný 0,1; 0,2; 0,3. Komentář k výsledkům. Můžete použít statistiky uvedené v příloze 1.

Identifikace a analýza trendu časové řady se často provádí pomocí jejího zarovnání nebo vyhlazení. Exponenciální vyhlazování je jednou z nejjednodušších a nejběžnějších technik zarovnání řad. Exponenciální vyhlazování lze reprezentovat jako filtr, jehož vstup je postupně přijímán členy původní řady a na výstupu se tvoří aktuální hodnoty exponenciálního průměru.

Nechť je časová řada.

Exponenciální vyhlazení řady se provádí podle opakujícího se vzorce: , .

Čím menší α, tím více filtrované, potlačené výkyvy původní řady a šum.

Pokud je tento rekurzivní vztah důsledně používán, pak lze exponenciální průměr vyjádřit pomocí hodnot časové řady X.

Pokud v době zahájení vyhlazování existují dřívější data, lze jako počáteční hodnotu použít aritmetický průměr všech nebo některých dostupných dat.

Poté, co se objevily práce R. Browna, se exponenciální vyhlazování často používá k řešení problému krátkodobého předpovídání časových řad.

Formulace problému

Nechť je dána časová řada: .

Je nutné vyřešit problém prognózování časových řad, tzn. nalézt

Předpovědní horizont, to je nutné

Abychom zohlednili zastaralost dat, zavedeme nerostoucí posloupnost vah

Hnědý model

Předpokládejme, že D je malé (krátkodobá předpověď), pak k vyřešení takového problému použijte hnědý model.

Pokud vezmeme v úvahu prognózu o krok napřed, pak - chyba této prognózy a nová prognóza je získána v důsledku úpravy předchozí prognózy s přihlédnutím k její chybě - podstata přizpůsobení.

V krátkodobé prognóze je žádoucí co nejrychleji reflektovat nové změny a zároveň co nejlépe „očistit“ řadu od náhodných výkyvů. Že. zvýšit váhu novějších pozorování: .

Na druhou stranu, aby se vyhladily náhodné odchylky, musí být α sníženo: .

Že. tyto dva požadavky jsou v rozporu. Hledání kompromisní hodnoty α je problémem optimalizace modelu. Obvykle se α bere z intervalu (0,1/3).

Příklady

Práce exponenciálního vyhlazování na α=0,2 na datech měsíčních zpráv o prodejích zahraniční značky automobilů v Rusku za období od ledna 2007 do října 2008. Prudké poklesy zaznamenáváme v lednu a únoru, kdy prodeje tradičně klesají a na začátku rostou léto.

Problémy

Model pracuje pouze s malým horizontem předpovědi. Trend a sezónní změny se neberou v úvahu. Pro zohlednění jejich vlivu se navrhuje použít tyto modely: Holt (bere se v úvahu lineární trend), Holt-Winters (multiplikativní exponenciální trend a sezónnost), Theil-Wage (aditivní lineární trend a sezónnost).

Téma 3. Vyhlazování a prognózování časových řad na základě trendových modelů

cíl studium tohoto tématu je vytvořením základního základu pro přípravu manažerů ve specializaci 080507 v oblasti budování modelů různých úloh z oblasti ekonomiky, formování systematického přístupu k nastavování a řešení prognostických problémů mezi studenty . Navrhovaný kurz umožní specialistům rychle se přizpůsobit praktické práci, lépe se orientovat ve vědeckých a technických informacích a literatuře ve své specializaci a činit jistější rozhodnutí, která při jejich práci vznikají.

Hlavní úkoly studiem tématu jsou: studenti získávají hluboké teoretické znalosti o aplikaci předpovědních modelů, osvojují si stabilní dovednosti při provádění výzkumné práce, schopnost řešit složité vědecké problémy spojené s budováním modelů, včetně vícerozměrných, schopnost logické analýzy získané výsledky a určit způsoby, jak nalézt přijatelná řešení.

Poměrně jednoduchou metodou pro identifikaci vývojových trendů je vyhlazování časových řad, tedy nahrazení skutečných úrovní vypočtenými, které mají menší odchylky než původní data. Odpovídající transformace se nazývá filtrování. Podívejme se na několik metod vyhlazování.

3.1. jednoduché průměry

Cílem vyhlazování je vytvořit předpovědní model pro budoucí období na základě minulých pozorování. V metodě jednoduchých průměrů jsou hodnoty proměnné brány jako počáteční data Y v bodech času t a předpovědní hodnota je určena jako jednoduchý průměr pro další časové období. Výpočtový vzorec má tvar

kde n počet pozorování.

V případě, že bude k dispozici nové pozorování, měla by být nově přijatá prognóza také zohledněna pro prognózu na další období. Při použití této metody se prognóza provádí zprůměrováním všech předchozích dat, nevýhodou takové prognózy je však obtížnost jejího použití v trendových modelech.

3.2. Metoda klouzavého průměru

Tato metoda je založena na reprezentaci řady jako součtu poměrně hladkého trendu a náhodné složky. Metoda je založena na myšlence výpočtu teoretické hodnoty na základě místní aproximace. Chcete-li vytvořit odhad trendu v určitém bodě t hodnotami řady z časového intervalu vypočítat teoretickou hodnotu řady. Nejrozšířenější v praxi vyhlazovacích řad je případ, kdy všechny váhy pro prvky intervalu jsou si navzájem rovny. Z tohoto důvodu se tato metoda nazývá metoda klouzavého průměru, od doby, kdy je procedura provedena, okno o šířce (2 m + 1) v celé řadě. Šířka okna se obvykle bere jako lichá, protože teoretická hodnota se počítá pro centrální hodnotu: počet členů k = 2 m + 1 se stejným počtem úrovní vlevo a vpravo od okamžiku t.

Vzorec pro výpočet klouzavého průměru má v tomto případě tvar:

Rozptyl klouzavého průměru je definován jako σ 2 /k, kam skrz σ2 označuje odchylku původních podmínek řady a k interval vyhlazování, takže čím větší je interval vyhlazování, tím silnější je průměrování dat a tím méně proměnlivý je trend. Nejčastěji se vyhlazování provádí na třech, pěti a sedmi členech původní řady. V tomto případě je třeba vzít v úvahu následující vlastnosti klouzavého průměru: pokud uvažujeme řadu s periodickými fluktuacemi konstantní délky, pak při vyhlazování na základě klouzavého průměru s intervalem vyhlazování rovným nebo násobkem periody , budou výkyvy zcela eliminovány. Vyhlazení založené na klouzavém průměru často transformuje řadu tak silně, že se identifikovaný vývojový trend objeví pouze v nejobecnějších pojmech, zatímco menší, ale pro analýzu důležité detaily (vlny, ohyby atd.) zmizí; po vyhlazení mohou malé vlnky někdy změnit směr na opačné „prohlubně“ a místo „vrcholů“ a naopak. To vše vyžaduje opatrnost při používání jednoduchého klouzavého průměru a nutí člověka hledat jemnější způsoby popisu.

Metoda klouzavého průměru nedává trendové hodnoty pro první a poslední mčlenové řady. Tento nedostatek je patrný zejména v případě, kdy je délka řady malá.

3.3. Exponenciální vyhlazování

Exponenciální průměr y t je příkladem asymetrického váženého klouzavého průměru, který zohledňuje stupeň stárnutí dat: „starší“ informace s menší váhou vstupují do vzorce pro výpočet vyhlazené hodnoty úrovně řady

Tady — exponenciální průměr nahrazující pozorovanou hodnotu řady y t(vyhlazování zahrnuje všechna data přijatá až do aktuálního okamžiku t), α vyhlazovací parametr charakterizující váhu aktuálního (nejnovějšího) pozorování; 0< α <1.

Metoda se používá k predikci nestacionárních časových řad s náhodnými změnami hladiny a sklonu. Jak se vzdalujeme od aktuálního časového okamžiku do minulosti, váha odpovídajícího členu řady rychle (exponenciálně) klesá a prakticky přestává mít jakýkoli vliv na hodnotu .

Je snadné vidět, že poslední vztah nám umožňuje podat následující výklad exponenciálního průměru: jestliže — predikce hodnot série y t, pak rozdíl je chyba předpovědi. Takže předpověď pro další bod v čase t+1 bere v úvahu to, co se v tuto chvíli stalo známým t chyba předpovědi.

Možnost vyhlazování α je váhový faktor. Li α blízko k jednotě, pak prognóza výrazně zohledňuje velikost chyby poslední prognózy. Pro malé hodnoty α predikovaná hodnota se blíží předchozí prognóze. Volba parametru vyhlazování je poměrně komplikovaný problém. Obecné úvahy jsou následující: metoda je dobrá pro predikci dostatečně hladkých řad. V tomto případě lze zvolit vyhlazovací konstantu minimalizací chyby předpovědi o jeden krok napřed odhadované z poslední třetiny série. Někteří odborníci nedoporučují používat velké hodnoty parametru vyhlazování. Na Obr. 3.1 ukazuje příklad vyhlazené řady pomocí metody exponenciálního vyhlazování pro α= 0,1.

Rýže. 3.1. Výsledek exponenciálního vyhlazení at α =0,1
(1 původní série; 2 vyhlazené série; 3 zbytky)

3.4. Exponenciální vyhlazování
založené na trendech (Holt metoda)

Tato metoda zohledňuje lokální lineární trend, který existuje v časové řadě. Pokud je v časové řadě vzestupný trend, je spolu s odhadem aktuální úrovně nutný i odhad sklonu. V technice Holt jsou hodnoty úrovně a sklonu vyhlazeny přímo pomocí různých konstant pro každý z parametrů. Vyhlazovací konstanty vám umožňují odhadnout aktuální úroveň a sklon a zpřesnit je pokaždé, když jsou provedena nová pozorování.

Holt metoda používá tři výpočetní vzorce:

  1. Exponenciálně vyhlazená řada (odhad aktuální úrovně)

(3.2)

  1. Hodnocení trendu

(3.3)

  1. Předpověď pro R období dopředu

(3.4)

kde α, β vyhlazovací konstanty z intervalu .

Rovnice (3.2) je podobná rovnici (3.1) pro jednoduché exponenciální vyhlazování s výjimkou trendového členu. Konstantní β potřebné k vyhlazení odhadu trendu. V předpovědní rovnici (3.3) se odhad trendu násobí počtem období R, na kterém je prognóza založena, a poté je tento produkt přidán k aktuální úrovni vyhlazených dat.

Trvalý α a β jsou vybírány subjektivně nebo minimalizací chyby predikce. Čím větší hodnoty vah se naberou, tím rychlejší bude reakce na probíhající změny a data budou vyhlazená. Menší hmotnosti činí strukturu vyhlazených hodnot méně plochou.

Na Obr. 3.2 ukazuje příklad vyhlazení řady pomocí Holt metody pro hodnoty α a β rovná 0,1.

Rýže. 3.2. Holt výsledek vyhlazení
na α = 0,1 a β = 0,1

3.5. Exponenciální vyhlazování s trendovými a sezónními variacemi (zimní metoda)

Pokud ve struktuře dat dochází k sezónním výkyvům, použije se tříparametrový exponenciální model vyhlazování navržený Wintersem ke snížení chyb prognózy. Tento přístup je rozšířením předchozího Holt modelu. Pro zohlednění sezónních změn se zde používá další rovnice a tato metoda je plně popsána čtyřmi rovnicemi:

  1. Exponenciálně vyhlazená série

(3.5)

  1. Hodnocení trendu

(3.6)

  1. Hodnocení sezónnosti

.

(3.7)

  1. Předpověď pro R období dopředu

(3.8)

kde α, β, γ neustálé vyhlazování úrovně, trendu a sezónnosti; s- trvání období sezónních výkyvů.

Rovnice (3.5) opravuje vyhlazenou řadu. V této rovnici termín zohledňuje sezónnost v původních datech. Po zohlednění sezónnosti a trendu v rovnicích (3.6), (3.7) jsou odhady vyhlazeny a v rovnici (3.8) je provedena předpověď.

Stejně jako v předchozí metodě, závaží α, β, γ lze zvolit subjektivně nebo minimalizací chyby predikce. Před aplikací rovnice (3.5) je nutné určit počáteční hodnoty pro vyhlazenou řadu L t, trend T t, sezónní koeficienty Svatý. Obvykle je počáteční hodnota vyhlazené řady rovna prvnímu pozorování, pak je trend nula a sezónní koeficienty jsou nastaveny na jednu.

Na Obr. 3.3 ukazuje příklad vyhlazování řady pomocí Wintersovy metody.

Rýže. 3.3. Výsledek vyhlazení metodou Winters
na α = 0,1 = 0,1; y = 0,1(1- původní řada; 2 vyhlazené řady; 3 zbytky)

3.6. Prognózy založené na trendových modelech

Časové řady mají poměrně často lineární trend (trend). Za předpokladu lineárního trendu musíte vytvořit přímku, která by nejpřesněji odrážela změnu dynamiky v uvažovaném období. Existuje několik metod pro konstrukci přímky, ale nejobjektivnější z formálního hlediska bude konstrukce založená na minimalizaci součtu záporných a kladných odchylek počátečních hodnot řady od přímky.

Přímka ve dvousouřadnicovém systému (x, y) lze definovat jako průsečík jedné ze souřadnic na a úhel sklonu k ose X. Rovnice pro takovou přímku bude vypadat takto kde A- průsečík; búhel sklonu.

Aby přímka odrážela průběh dynamiky, je nutné minimalizovat součet vertikálních odchylek. Při použití jako kritéria pro odhad minimalizace prostého součtu odchylek nebude výsledek příliš dobrý, protože záporné a kladné odchylky se navzájem ruší. Minimalizace součtu absolutních hodnot také nevede k uspokojivým výsledkům, protože odhady parametrů jsou v tomto případě nestabilní, existují také výpočetní potíže při implementaci takového postupu odhadu. Proto je nejčastěji používaný postup minimalizace součtu kvadrátů odchylek, popř metoda nejmenších čtverců(MNK).

Protože řada počátečních hodnot má fluktuace, model řady bude obsahovat chyby, jejichž čtverce musí být minimalizovány

kde y i pozorovaná hodnota; y i * teoretické hodnoty modelu; pozorovací číslo.

Při modelování trendu původní časové řady pomocí lineárního trendu budeme předpokládat, že

Dělení první rovnice n, dorazíme na další

Dosazením výsledného výrazu do druhé rovnice soustavy (3.10) pro koeficient b* dostaneme:

3.7. Kontrola usazení modelu

Jako příklad na Obr. 3.4 ukazuje graf lineární regrese mezi výkonem vozu X a jeho náklady na.

Rýže. 3.4. Graf lineární regrese

Rovnice pro tento případ je: na=1455,3 + 13,4 X. Vizuální analýza tohoto obrázku ukazuje, že u řady pozorování existují významné odchylky od teoretické křivky. Zbytkový graf je na Obr. 3.5.

Rýže. 3.5. Graf zbytků

Analýza zbytků regresní přímky může poskytnout užitečné měřítko toho, jak dobře odhadovaná regrese odráží skutečná data. Dobrá regrese je taková, která vysvětluje značné množství rozptylu a naopak špatná regrese nesleduje velké množství fluktuací v původních datech. Je intuitivně jasné, že jakákoli další informace zlepší model, tj. sníží nevysvětlitelný zlomek variace proměnné. na. Abychom mohli analyzovat regresi, rozložíme rozptyl na složky. To je zřejmé

Poslední člen se bude rovnat nule, protože je součtem zbytků, takže dospějeme k následujícímu výsledku

kde SS0, SS1, SS2 určit celkové, regresní a zbytkové součty čtverců.

Regresní součet čtverců měří část rozptylu vysvětlenou lineárním vztahem; zbytková část disperze, nevysvětlitelná lineární závislostí.

Každý z těchto součtů je charakterizován odpovídajícím počtem stupňů volnosti (HR), který určuje počet datových jednotek, které jsou na sobě nezávislé. Jinými slovy, srdeční frekvence souvisí s počtem pozorování n a počet parametrů vypočtený ze souhrnu těchto parametrů. V posuzovaném případě vypočítat SS0 je určena pouze jedna konstanta (průměrná hodnota), proto tepová frekvence pro SS0 bude (n1), srdeční frekvence pro SS 2 – (n – 2) a srdeční frekvence pro SS 1 bude n - (n - 1) = 1, protože v regresní rovnici je n - 1 konstantních bodů. Stejně jako součty čtverců, srdeční frekvence souvisí

Součty čtverců souvisejících s rozkladem rozptylu spolu s odpovídajícími srdečními frekvencemi lze umístit do tzv. tabulky analýzy rozptylu (tabulka ANOVA ANAlysis Of VARiance) (tabulka 3.1).

Tabulka 3.1

Stůl ANOVA

Zdroj

Součet čtverců

Středně čtvercový

Regrese

SS2/ (n-2)

Pomocí zavedené zkratky pro součty čtverců definujeme koeficient determinace jako poměr regresního součtu čtverců k celkovému součtu čtverců jako

(3.13)

Koeficient determinace měří podíl variability v proměnné Y, což lze vysvětlit pomocí informací o variabilitě nezávisle proměnné X. Koeficient určení se změní od nuly, když X neovlivňuje Y, do jednoho při změně Y plně vysvětlit změnou X.

3.8. Model regresní prognózy

Nejlepší předpověď je ta s nejmenším rozptylem. V našem případě konvenční metoda nejmenších čtverců poskytuje nejlepší predikci ze všech metod, které poskytují nezkreslené odhady založené na lineárních rovnicích. Chyba prognózy spojená s procedurou prognózování může pocházet ze čtyř zdrojů.

Za prvé, náhodná povaha aditivních chyb zpracovaných lineární regresí zajišťuje, že se předpověď bude odchylovat od skutečných hodnot, i když je model správně specifikován a jeho parametry jsou přesně známy.

Za druhé, samotný proces odhadu zavádí chybu v odhadu parametrů, které se zřídka mohou rovnat skutečným hodnotám, ačkoli se jim v průměru rovnají.

Za třetí, v případě podmíněné prognózy (v případě neznámých přesných hodnot nezávislých proměnných) je chyba zavedena s prognózou vysvětlujících proměnných.

Za čtvrté, chyba se může objevit, protože specifikace modelu je nepřesná.

V důsledku toho lze zdroje chyb klasifikovat takto:

  1. povaha proměnné;
  2. povaha modelu;
  3. chyba způsobená prognózou nezávislých náhodných veličin;
  4. chyba specifikace.

Budeme uvažovat bezpodmínečnou předpověď, kdy lze snadno a přesně předpovídat nezávislé proměnné. Naši úvahu o problému kvality prognózy začneme párovou regresní rovnicí.

Problémové prohlášení lze v tomto případě formulovat následovně: jaká bude nejlepší předpověď y T+1, za předpokladu, že v modelu y = a + bx možnosti A a b přesně odhadnuto a hodnotu xT+1 známý.

Potom lze predikovanou hodnotu definovat jako

Chyba předpovědi pak bude

.

Chyba prognózy má dvě vlastnosti:

Výsledný rozptyl je minimální mezi všemi možnými odhady založenými na lineárních rovnicích.

Ačkoli A ab jsou známy, chyba předpovědi se objevuje kvůli tomu, že v T+1 nemusí kvůli chybě ležet na regresní přímce ε T+1, které se řídí normálním rozdělením s nulovým průměrem a rozptylem σ2. Pro kontrolu kvality prognózy zavádíme normalizovanou hodnotu

95% interval spolehlivosti pak lze definovat takto:

kde p 0,05 kvantily normálního rozdělení.

Hranice 95% intervalu lze definovat jako

Všimněte si, že v tomto případě šířka intervalu spolehlivosti nezávisí na hodnotě X, a hranice intervalu jsou přímky rovnoběžné s regresními přímkami.

Častěji je při konstrukci regresní přímky a kontrole kvality prognózy nutné hodnotit nejen regresní parametry, ale i rozptyl chyby prognózy. Lze ukázat, že v tomto případě rozptyl chyby závisí na hodnotě (), kde je střední hodnota nezávisle proměnné. Navíc čím delší série, tím přesnější předpověď. Chyba prognózy se snižuje, pokud se hodnota X T+1 blíží střední hodnotě nezávisle proměnné, a naopak při vzdalování se od střední hodnoty se předpověď stává méně přesnou. Na Obr. 3.6 ukazuje výsledky predikce pomocí lineární regresní rovnice pro 6 časových intervalů dopředu spolu s intervaly spolehlivosti.

Rýže. 3.6. Predikce lineární regrese

Jak je patrné z Obr. 3.6, tato regresní přímka nepopisuje původní data dobře: existuje velká odchylka ve vztahu k prokládací přímce. Kvalitu modelu lze posuzovat i podle zbytků, které by při vyhovujícím modelu měly být rozděleny přibližně podle normálního zákona. Na Obr. 3.7 ukazuje graf reziduí sestavený pomocí pravděpodobnostní stupnice.

Obr.3.7. Graf zbytků

Při použití takové stupnice by data, která se řídí normálním zákonem, měla ležet na přímce. Jak vyplývá z obrázku, body na začátku a na konci období pozorování se poněkud odchylují od přímky, což svědčí o nedostatečně vysoké kvalitě zvoleného modelu v podobě lineární regresní rovnice.

V tabulce. Tabulka 3.2 ukazuje výsledky prognózy (druhý sloupec) spolu s 95% intervaly spolehlivosti (spodní třetí a horní čtvrtý sloupec).

Tabulka 3.2

Předpověď výsledků

3.9. Vícerozměrný regresní model

Ve vícerozměrné regresi data pro každý případ zahrnují hodnoty závislé proměnné a každé nezávislé proměnné. Závislá proměnná y je náhodná proměnná související s nezávislými proměnnými následujícím vztahem:

kde mají být stanoveny regresní koeficienty; ε chybová složka odpovídající odchylce hodnot závislé proměnné od skutečného poměru (předpokládá se, že chyby jsou nezávislé a mají normální rozdělení s nulovým středním a neznámým rozptylem σ ).

Pro daný soubor dat lze odhady regresních koeficientů nalézt pomocí metody nejmenších čtverců. Pokud jsou odhady OLS označeny , pak bude odpovídající regresní funkce vypadat takto:

Rezidua jsou odhady chybové složky a jsou podobná reziduím v případě jednoduché lineární regrese.

Statistická analýza vícerozměrného regresního modelu se provádí podobně jako analýza jednoduché lineární regrese. Standardní balíčky statistických programů umožňují získat odhady metodou nejmenších čtverců pro parametry modelu, odhady jejich směrodatných chyb. Také můžete získat hodnotu t-statistiky pro kontrolu významnosti jednotlivých členů regresního modelu a hodnoty F-statistiky k testování významnosti regresní závislosti.

Forma rozdělení součtů čtverců v případě vícerozměrné regrese je podobná výrazu (3.13), ale poměr pro srdeční frekvenci bude následující

Znovu to zdůrazňujeme n je objem pozorování a k počet proměnných v modelu. Celkový rozptyl závislé proměnné se skládá ze dvou složek: rozptylu vysvětleného nezávislými proměnnými prostřednictvím regresní funkce a nevysvětleného rozptylu.

Tabulka ANOVA pro případ vícerozměrné regrese bude mít formu uvedenou v tabulce. 3.3.

Tabulka 3.3

Stůl ANOVA

Zdroj

Součet čtverců

Středně čtvercový

Regrese

SS2/ (n-k-1)

Jako příklad vícerozměrné regrese použijeme data z balíčku Statistica (datový soubor Chudoba.Sta) Uvedené údaje vycházejí ze srovnání výsledků sčítání v roce 1960 a 1970. pro náhodný vzorek 30 zemí. Názvy zemí byly zadány jako názvy řetězců a názvy všech proměnných v tomto souboru jsou uvedeny níže:

POP_CHNG změna počtu obyvatel v letech 1960-1970;

N_EMPLD počet lidí zaměstnaných v zemědělství;

PT_POOR procento rodin žijících pod hranicí chudoby;

TAX_RATE daňová sazba;

PT_PHONE procento bytů s telefonem;

PT_RURAL procento venkovského obyvatelstva;

VĚK střední věk.

Jako závisle proměnnou zvolíme vlastnost Pt_Poor, a jako nezávislý - vše ostatní. Vypočtené regresní koeficienty mezi vybranými proměnnými jsou uvedeny v tabulce. 3.4

Tabulka 3.4

Regresní koeficienty

Tato tabulka ukazuje regresní koeficienty ( NA) a standardizované regresní koeficienty ( beta). Pomocí koeficientů NA je stanoven tvar regresní rovnice, která má v tomto případě tvar:

Zahrnutí pouze těchto proměnných na pravou stranu je způsobeno tím, že pouze tyto znaky mají hodnotu pravděpodobnosti R méně než 0,05 (viz čtvrtý sloupec tabulky 3.4).

Bibliografie

  1. Basovský L.E. Prognózování a plánování v tržních podmínkách. - M .: Infra - M, 2003.
  2. Box J., Jenkins G. Analýza časových řad. Vydání 1 Prognóza a řízení. – M.: Mir, 1974.
  3. Borovikov V. P., Ivčenko G. I. Prognózování v systému Statistica v prostředí Windows. - M.: Finance a statistika, 1999.
  4. vévoda V. Zpracování dat na PC v příkladech. - Petrohrad: Petr, 1997.
  5. Ivčenko B. P., Martyščenko L. A., Ivancov I. B. Informační mikroekonomie. Část 1. Metody analýzy a prognózování. - Petrohrad: Nordmed-Izdat, 1997.
  6. Krichevsky M. L.Úvod do umělých neuronových sítí: Proc. příspěvek. - Petrohrad: Petrohrad. Stát námořní tech. un-t, 1999.
  7. Soshnikova L.A., Tamashevich V.N., Uebe G. et al. Vícerozměrná statistická analýza v ekonomii. – M.: Unity-Dana, 1999.


chyba: Obsah je chráněn!!