Lineární regrese (definice, příklady) - Jak interpretovat?

Obsah

Co je lineární regrese?

Co je lineární regrese?

Lineární regrese je v podstatě technika statistického modelování, která slouží k zobrazení vztahu mezi jednou závislou proměnnou a jednou nebo více nezávislými proměnnými. Je to jeden z nejběžnějších typů prediktivní analýzy. Tento typ distribuce se tvoří v linii, proto se tomu říká lineární regrese. V tomto článku si vezmeme příklady lineární regresní analýzy v aplikaci Excel.

Chcete-li nejprve provést lineární regresní analýzu, musíme přidat doplňky aplikace Excel podle následujících kroků.

Klikněte na Soubor - Možnosti (Otevře se okno Možnosti aplikace Excel).

Klikněte na Doplňky - vyberte Doplňky Excel z Spravovat rozevírací seznam v aplikaci Excel a poté klikněte na Přejít.

Otevře se vyskakovací okno doplňků. Vyberte Analysis ToolPak a klikněte na OK.

Na kartě Vložit se zobrazí doplněk Analýza dat.

Rozumíme níže uvedeným příkladům lineární regresní analýzy v aplikaci Excel.

Příklady analýzy lineární regrese

Příklad č. 1

Předpokládejme, že máme za minulý rok tržby a výdaje na marketing. Nyní musíme předpovědět budoucí tržby na základě výdajů a marketingu v loňském roce.

Měsíc	Reklamní	Odbyt
Jan	40937	502729
Února	42376	507553
Mar	43355	516885
Dubna	44126	528347
Smět	45060	537298
Červen	49546	544066
Jul	56105	553664
Srpen	59322	563201
Září	59877	568657
Října	60481	569384
listopad	62356	573764
Prosinec	63246	582746

Klikněte na Analýza dat na kartě Data a otevře se vám Pop Data Analysis Pop up.

Nyní vyberte ze seznamu Regrese a klikněte na Ok.

Otevře se vyskakovací okno regrese.

Vyberte rozsah prodeje $ C $ 1: $ C $ 13 v ose Y, protože toto je závislá proměnná a $ B $ 1: $ B $ 14 v ose X, protože utracená reklama je nezávislá proměnná.

Zaškrtněte políčko Štítky, pokud jste vybrali záhlaví v datech, jinak se zobrazí chyba.

Vyberte Výstupní rozsah, pokud chcete získat hodnotu konkrétního rozsahu na listu, jinak vyberte Nová vrstva listu: a tím se přidá nový list a dá vám výsledek.

Poté zaškrtněte políčko Zbytky a klikněte na OK.

Tím se přidají pracovní listy a získáte následující výsledek.

Rozumíme výstupu.

Souhrnný výstup

Multiple R: Toto představuje korelační koeficient. Hodnota 1 ukazuje pozitivní vztah a hodnota 0 žádný vztah.

Čtverec R: Čtverec R představuje koeficient stanovení. To vám řekne, kolik procent bodů spadne na regresní linii. 0,49 znamená, že 49% hodnot odpovídá modelu

Upravený čtverec R : Toto je upravený čtverec R, který vyžaduje, když máte více než jednu proměnnou X.

Standardní chyba: Představuje odhad směrodatné odchylky chyby. Toto je přesnost, kterou se měří regresní koeficient.

Pozorování: Toto je počet pozorování, která jste provedli ve vzorku.

ANOVA - Df: Stupně svobody

SS: Součet čtverců.

MS: máme dva MS

Regrese MS je Regression SS / Regression Df.
Reziduální MS je střední kvadratická chyba (Residual SS / Residual Df).

F: F test pro nulovou hypotézu.

Význam F: P-hodnoty spojené s významem

Koeficient: Koeficient poskytuje odhad nejmenších čtverců.

T Statistika: T Statistika pro nulovou hypotézu vs. alternativní hypotézu.

Hodnota P: Toto je hodnota p pro test hypotézy.

Dolní 95% a horní 95%: Jedná se o dolní hranici a horní hranici pro interval spolehlivosti

Výstup zbytků .: Na základě údajů máme 12 pozorování. 2 ^nd sloupec představuje odhadnutá prodejní a 3 ^rd sloupců zbytků. Zbytky jsou v zásadě rozdílem v předpokládaných prodejích od skutečných.

Příklad č. 2

Vyberte sloupec předpokládaného prodeje a marketingu

Přejděte do skupiny grafů na kartě Vložit. Vyberte ikonu bodového grafu

Tím vložíte bodový graf do aplikace Excel. Viz obrázek níže

Klepněte pravým tlačítkem na libovolný bod a poté vyberte Přidat trendovou čáru v aplikaci Excel. Tím do svého grafu přidáte trendovou čáru.

Trendovou čáru můžete naformátovat tak, že kliknete pravým tlačítkem kdekoli na spojnici a poté vyberete formátování spojnice.
V grafu můžete provést další vylepšení. tj. formátování trendové čáry, barvy a změny názvu atd
Vzorec můžete také zobrazit v grafu zaškrtnutím políčka Zobrazit vzorec v grafu a zobrazit v grafu hodnotu R na druhou.

Některé další příklady lineární regresní analýzy:

Předpověď prodaného deštníku na základě deště se stala v oblasti.
Predikce prodeje AC na základě teploty v létě.
Během zkouškové sezóny se prodej stacionárních v zásadě zvýšil.
Predikce prodeje, když reklama proběhla na základě seriálu High TRP, kde se dělá reklama, Popularity Brand Ambassador a Footfalls v místě holdingu, kde se zveřejňuje reklama.
Prodej domu na základě lokality, oblasti a ceny.

Příklad č. 3

Předpokládejme, že máme devět studentů s jejich úrovní IQ a počtem, kterých dosáhli v Testu.

Student	Výsledek testu	IQ
RAM	100	145
Shyam	97	140
Kul	93	130
Kappu	91	125
Raju	89	115
Vishal	86	110
Vivek	82	100
Vinay	78	95
Kumar	75	90

Krok 1: Nejprve zjistěte závislé a nezávislé proměnné. Zde je testovací skóre závislá proměnná a IQ je nezávislá proměnná, protože testovací skóre se mění s tím, jak se IQ mění.

Krok 2: Přejít na kartu Data - Klikněte na Analýza dat - Vyberte regresi - klikněte na Ok.

Otevře se vám okno Regrese.

Krok 3. Zadejte rozsah skóre testovacího testu do pole Rozsah Y vstupu a IQ do pole Rozsah X vstupu. (Zaškrtněte na štítcích, pokud máte v datovém rozsahu záhlaví. Vyberte možnosti výstupu a zkontrolujte požadované zbytky. Klikněte na Ok.

Získáte souhrnný výstup zobrazený na obrázku níže.

Krok 4: Analýza regrese podle souhrnného výstupu

Souhrnný výstup

Multiple R: Zde je korelační koeficient 0,99, což je velmi blízko k 1, což znamená, že lineární vztah je velmi pozitivní.

R Square: Hodnota R Square je 0,983, což znamená, že 98,3% hodnot odpovídá modelu.

Hodnota P: Zde je hodnota P 1,86881E-07, což je velmi méně než 0,1, což znamená, že IQ má významné prediktivní hodnoty.

Viz tabulka níže.

Vidíte, že téměř všechny body klesají inline nebo poblíž trendové linie.

Příklad č. 4

Musíme předpovědět prodej AC na základě prodeje a teploty pro jiný měsíc.

Měsíc	Teplota	Odbyt
Jan	25	38893
Února	28	42254
Mar	31	42845
Dubna	33	47917
Smět	37	51243
Červen	40	69588
Jul	38	56570
Srpen	37	50 000

Podle následujících kroků získáte výsledek regrese.

Krok 1: Nejprve zjistěte závislé a nezávislé proměnné. Zde je prodej závislá proměnná a teplota je nezávislá proměnná, protože prodej se mění podle změny teploty.

Krok 2: Přejít na kartu Data - Klikněte na Analýza dat - Vyberte regresi - klikněte na Ok.

Otevře se vám okno Regrese.

Krok 3. Vstup do prodeje v poli Rozsah Y vstupu a Teplota v poli Rozsah X vstupu. (Zaškrtněte na štítcích, pokud máte v datovém rozsahu záhlaví. Vyberte možnosti výstupu a zkontrolujte požadované zbytky. Klikněte na Ok.

Získáte souhrnný výstup níže.

Krok 4: Analyzujte výsledek.

Multiple R: Zde je korelační koeficient 0,877, což je téměř 1, což znamená, že lineární vztah je pozitivní.

R Square: Hodnota R Square je 0,770, což znamená, že 77% hodnot odpovídá modelu

Hodnota P: Zde je hodnota P 1,86881E-07, což je velmi méně než 0,1, což znamená, že IQ má významné prediktivní hodnoty.

Příklad č. 5

Nyní provedeme regresní analýzu pro více nezávislých proměnných:

Musíte předvídat prodej mobilního telefonu, který bude spuštěn příští rok. Máte cenu a počet obyvatel zemí, které ovlivňují prodej mobilních telefonů.

Mobilní verze	Odbyt	Množství	Populace
NÁS	63860	858	823
Spojené království	61841	877	660
KZ	60876	873	631
CH	58188	726	842
HN	52728	864	573
AU	52388	680	809
NZ	51075	728	661
RU	49019	689	778

Podle následujících kroků získáte výsledek regrese.

Krok 1. Nejprve zjistěte závislé a nezávislé proměnné. Zde je prodej závislý na proměnné a množství a populaci. Obě jsou nezávislé proměnné, protože tržby se liší podle množství a počtu obyvatel země.

Krok 2. Přejít na kartu Data - Klikněte na Analýza dat - Vyberte regresi - klikněte na Ok.

Otevře se vám okno Regrese.

Krok 3. Zadejte prodej do pole Vstup Y a v poli Rozsah X vyberte množství a počet obyvatel. (Zaškrtněte na štítcích, pokud máte v datovém rozsahu záhlaví. Vyberte možnosti výstupu a zkontrolujte požadované zbytky. Klikněte na Ok.

Nyní spusťte regresi pomocí analýzy dat na kartě Data. Získáte níže uvedený výsledek.

Souhrnný výstup

Multiple R: Zde je korelační koeficient 0,93, což je velmi blízko k 1, což znamená, že lineární vztah je velmi pozitivní.

R Square: Hodnota R Square je 0,866, což znamená, že 86,7% hodnot odpovídá modelu.

Význam F: Význam F je menší než 0,1, což znamená, že regresní rovnice má významnou prediktivní hodnotu.

P-hodnota : Pokud se podíváte na P-hodnotu pro Kvantitu a populaci, uvidíte, že hodnoty jsou menší než 0,1, což znamená, že kvantita a populace mají významnou prediktivní hodnotu. Čím méně hodnot P znamená, že proměnná má významnější prediktivní hodnoty.

Jak kvantita, tak populace však mají významnou prediktivní hodnotu, ale pokud se podíváte na P-hodnotu pro kvantitu a populaci, uvidíte, že kvantita má v aplikaci Excel nižší P-hodnotu než Populace. To znamená, že kvantita má významnější prediktivní hodnotu než populace.

Věci k zapamatování

Vždy, když vybíráte jakákoli data, zkontrolujte závislé a nezávislé proměnné.
Lineární regresní analýza zohledňuje vztah mezi průměrem proměnných.
Toto pouze modeluje vztah mezi proměnnými, které jsou lineární
Někdy to není nejlepší řešení problému reálného světa. Například: (Věk a mzdy). Většinou se mzda zvyšuje s přibývajícím věkem. Po odchodu do důchodu se však věk zvyšuje, ale mzdy se snižují.