Lineární regrese (definice, příklady) - Jak interpretovat?

Co je lineární regrese?

Lineární regrese je v podstatě technika statistického modelování, která slouží k zobrazení vztahu mezi jednou závislou proměnnou a jednou nebo více nezávislými proměnnými. Je to jeden z nejběžnějších typů prediktivní analýzy. Tento typ distribuce se tvoří v linii, proto se tomu říká lineární regrese. V tomto článku si vezmeme příklady lineární regresní analýzy v aplikaci Excel.

Chcete-li nejprve provést lineární regresní analýzu, musíme přidat doplňky aplikace Excel podle následujících kroků.

Klikněte na Soubor - Možnosti (Otevře se okno Možnosti aplikace Excel).

Klikněte na Doplňky - vyberte Doplňky Excel z Spravovat rozevírací seznam v aplikaci Excel a poté klikněte na Přejít.

Otevře se vyskakovací okno doplňků. Vyberte Analysis ToolPak a klikněte na OK.

Na kartě Vložit se zobrazí doplněk Analýza dat.

Rozumíme níže uvedeným příkladům lineární regresní analýzy v aplikaci Excel.

Příklady analýzy lineární regrese

Příklad č. 1

Předpokládejme, že máme za minulý rok tržby a výdaje na marketing. Nyní musíme předpovědět budoucí tržby na základě výdajů a marketingu v loňském roce.

Měsíc Reklamní Odbyt
Jan 40937 502729
Února 42376 507553
Mar 43355 516885
Dubna 44126 528347
Smět 45060 537298
Červen 49546 544066
Jul 56105 553664
Srpen 59322 563201
Září 59877 568657
Října 60481 569384
listopad 62356 573764
Prosinec 63246 582746

Klikněte na Analýza dat na kartě Data a otevře se vám Pop Data Analysis Pop up.

Nyní vyberte ze seznamu Regrese a klikněte na Ok.

Otevře se vyskakovací okno regrese.

Vyberte rozsah prodeje $ C $ 1: $ C $ 13 v ose Y, protože toto je závislá proměnná a $ B $ 1: $ B $ 14 v ose X, protože utracená reklama je nezávislá proměnná.

Zaškrtněte políčko Štítky, pokud jste vybrali záhlaví v datech, jinak se zobrazí chyba.

Vyberte Výstupní rozsah, pokud chcete získat hodnotu konkrétního rozsahu na listu, jinak vyberte Nová vrstva listu: a tím se přidá nový list a dá vám výsledek.

Poté zaškrtněte políčko Zbytky a klikněte na OK.

Tím se přidají pracovní listy a získáte následující výsledek.

Rozumíme výstupu.

Souhrnný výstup

Multiple R: Toto představuje korelační koeficient. Hodnota 1 ukazuje pozitivní vztah a hodnota 0 žádný vztah.

Čtverec R: Čtverec R představuje koeficient stanovení. To vám řekne, kolik procent bodů spadne na regresní linii. 0,49 znamená, že 49% hodnot odpovídá modelu

Upravený čtverec R : Toto je upravený čtverec R, který vyžaduje, když máte více než jednu proměnnou X.

Standardní chyba: Představuje odhad směrodatné odchylky chyby. Toto je přesnost, kterou se měří regresní koeficient.

Pozorování: Toto je počet pozorování, která jste provedli ve vzorku.

ANOVA - Df: Stupně svobody

SS: Součet čtverců.

MS: máme dva MS

  • Regrese MS je Regression SS / Regression Df.
  • Reziduální MS je střední kvadratická chyba (Residual SS / Residual Df).

F: F test pro nulovou hypotézu.

Význam F: P-hodnoty spojené s významem

Koeficient: Koeficient poskytuje odhad nejmenších čtverců.

T Statistika: T Statistika pro nulovou hypotézu vs. alternativní hypotézu.

Hodnota P: Toto je hodnota p pro test hypotézy.

Dolní 95% a horní 95%: Jedná se o dolní hranici a horní hranici pro interval spolehlivosti

Výstup zbytků .: Na základě údajů máme 12 pozorování. 2 nd sloupec představuje odhadnutá prodejní a 3 rd sloupců zbytků. Zbytky jsou v zásadě rozdílem v předpokládaných prodejích od skutečných.

Příklad č. 2

Vyberte sloupec předpokládaného prodeje a marketingu

Přejděte do skupiny grafů na kartě Vložit. Vyberte ikonu bodového grafu

Tím vložíte bodový graf do aplikace Excel. Viz obrázek níže

Klepněte pravým tlačítkem na libovolný bod a poté vyberte Přidat trendovou čáru v aplikaci Excel. Tím do svého grafu přidáte trendovou čáru.

  • Trendovou čáru můžete naformátovat tak, že kliknete pravým tlačítkem kdekoli na spojnici a poté vyberete formátování spojnice.
  • V grafu můžete provést další vylepšení. tj. formátování trendové čáry, barvy a změny názvu atd
  • Vzorec můžete také zobrazit v grafu zaškrtnutím políčka Zobrazit vzorec v grafu a zobrazit v grafu hodnotu R na druhou.

Některé další příklady lineární regresní analýzy:

  1. Předpověď prodaného deštníku na základě deště se stala v oblasti.
  2. Predikce prodeje AC na základě teploty v létě.
  3. Během zkouškové sezóny se prodej stacionárních v zásadě zvýšil.
  4. Predikce prodeje, když reklama proběhla na základě seriálu High TRP, kde se dělá reklama, Popularity Brand Ambassador a Footfalls v místě holdingu, kde se zveřejňuje reklama.
  5. Prodej domu na základě lokality, oblasti a ceny.

Příklad č. 3

Předpokládejme, že máme devět studentů s jejich úrovní IQ a počtem, kterých dosáhli v Testu.

Student Výsledek testu IQ
RAM 100 145
Shyam 97 140
Kul 93 130
Kappu 91 125
Raju 89 115
Vishal 86 110
Vivek 82 100
Vinay 78 95
Kumar 75 90

Krok 1: Nejprve zjistěte závislé a nezávislé proměnné. Zde je testovací skóre závislá proměnná a IQ je nezávislá proměnná, protože testovací skóre se mění s tím, jak se IQ mění.

Krok 2: Přejít na kartu Data - Klikněte na Analýza dat - Vyberte regresi - klikněte na Ok.

Otevře se vám okno Regrese.

Krok 3. Zadejte rozsah skóre testovacího testu do pole Rozsah Y vstupu a IQ do pole Rozsah X vstupu. (Zaškrtněte na štítcích, pokud máte v datovém rozsahu záhlaví. Vyberte možnosti výstupu a zkontrolujte požadované zbytky. Klikněte na Ok.

Získáte souhrnný výstup zobrazený na obrázku níže.

Krok 4: Analýza regrese podle souhrnného výstupu

Souhrnný výstup

Multiple R: Zde je korelační koeficient 0,99, což je velmi blízko k 1, což znamená, že lineární vztah je velmi pozitivní.

R Square: Hodnota R Square je 0,983, což znamená, že 98,3% hodnot odpovídá modelu.

Hodnota P: Zde je hodnota P 1,86881E-07, což je velmi méně než 0,1, což znamená, že IQ má významné prediktivní hodnoty.

Viz tabulka níže.

Vidíte, že téměř všechny body klesají inline nebo poblíž trendové linie.

Příklad č. 4

Musíme předpovědět prodej AC na základě prodeje a teploty pro jiný měsíc.

Měsíc Teplota Odbyt
Jan 25 38893
Února 28 42254
Mar 31 42845
Dubna 33 47917
Smět 37 51243
Červen 40 69588
Jul 38 56570
Srpen 37 50 000

Podle následujících kroků získáte výsledek regrese.

Krok 1: Nejprve zjistěte závislé a nezávislé proměnné. Zde je prodej závislá proměnná a teplota je nezávislá proměnná, protože prodej se mění podle změny teploty.

Krok 2: Přejít na kartu Data - Klikněte na Analýza dat - Vyberte regresi - klikněte na Ok.

Otevře se vám okno Regrese.

Krok 3. Vstup do prodeje v poli Rozsah Y vstupu a Teplota v poli Rozsah X vstupu. (Zaškrtněte na štítcích, pokud máte v datovém rozsahu záhlaví. Vyberte možnosti výstupu a zkontrolujte požadované zbytky. Klikněte na Ok.

Získáte souhrnný výstup níže.

Krok 4: Analyzujte výsledek.

Multiple R: Zde je korelační koeficient 0,877, což je téměř 1, což znamená, že lineární vztah je pozitivní.

R Square: Hodnota R Square je 0,770, což znamená, že 77% hodnot odpovídá modelu

Hodnota P: Zde je hodnota P 1,86881E-07, což je velmi méně než 0,1, což znamená, že IQ má významné prediktivní hodnoty.

Příklad č. 5

Nyní provedeme regresní analýzu pro více nezávislých proměnných:

Musíte předvídat prodej mobilního telefonu, který bude spuštěn příští rok. Máte cenu a počet obyvatel zemí, které ovlivňují prodej mobilních telefonů.

Mobilní verze Odbyt Množství Populace
NÁS 63860 858 823
Spojené království 61841 877 660
KZ 60876 873 631
CH 58188 726 842
HN 52728 864 573
AU 52388 680 809
NZ 51075 728 661
RU 49019 689 778

Podle následujících kroků získáte výsledek regrese.

Krok 1. Nejprve zjistěte závislé a nezávislé proměnné. Zde je prodej závislý na proměnné a množství a populaci. Obě jsou nezávislé proměnné, protože tržby se liší podle množství a počtu obyvatel země.

Krok 2. Přejít na kartu Data - Klikněte na Analýza dat - Vyberte regresi - klikněte na Ok.

Otevře se vám okno Regrese.

Krok 3. Zadejte prodej do pole Vstup Y a v poli Rozsah X vyberte množství a počet obyvatel. (Zaškrtněte na štítcích, pokud máte v datovém rozsahu záhlaví. Vyberte možnosti výstupu a zkontrolujte požadované zbytky. Klikněte na Ok.

Nyní spusťte regresi pomocí analýzy dat na kartě Data. Získáte níže uvedený výsledek.

Souhrnný výstup

Multiple R: Zde je korelační koeficient 0,93, což je velmi blízko k 1, což znamená, že lineární vztah je velmi pozitivní.

R Square: Hodnota R Square je 0,866, což znamená, že 86,7% hodnot odpovídá modelu.

Význam F: Význam F je menší než 0,1, což znamená, že regresní rovnice má významnou prediktivní hodnotu.

P-hodnota : Pokud se podíváte na P-hodnotu pro Kvantitu a populaci, uvidíte, že hodnoty jsou menší než 0,1, což znamená, že kvantita a populace mají významnou prediktivní hodnotu. Čím méně hodnot P znamená, že proměnná má významnější prediktivní hodnoty.

Jak kvantita, tak populace však mají významnou prediktivní hodnotu, ale pokud se podíváte na P-hodnotu pro kvantitu a populaci, uvidíte, že kvantita má v aplikaci Excel nižší P-hodnotu než Populace. To znamená, že kvantita má významnější prediktivní hodnotu než populace.

Věci k zapamatování

  • Vždy, když vybíráte jakákoli data, zkontrolujte závislé a nezávislé proměnné.
  • Lineární regresní analýza zohledňuje vztah mezi průměrem proměnných.
  • Toto pouze modeluje vztah mezi proměnnými, které jsou lineární
  • Někdy to není nejlepší řešení problému reálného světa. Například: (Věk a mzdy). Většinou se mzda zvyšuje s přibývajícím věkem. Po odchodu do důchodu se však věk zvyšuje, ale mzdy se snižují.

Zajímavé články...