Co je lineární regrese?
Lineární regrese je v podstatě technika statistického modelování, která slouží k zobrazení vztahu mezi jednou závislou proměnnou a jednou nebo více nezávislými proměnnými. Je to jeden z nejběžnějších typů prediktivní analýzy. Tento typ distribuce se tvoří v linii, proto se tomu říká lineární regrese. V tomto článku si vezmeme příklady lineární regresní analýzy v aplikaci Excel.
Chcete-li nejprve provést lineární regresní analýzu, musíme přidat doplňky aplikace Excel podle následujících kroků.
Klikněte na Soubor - Možnosti (Otevře se okno Možnosti aplikace Excel).
 
Klikněte na Doplňky - vyberte Doplňky Excel z Spravovat rozevírací seznam v aplikaci Excel a poté klikněte na Přejít.
 
Otevře se vyskakovací okno doplňků. Vyberte Analysis ToolPak a klikněte na OK.
 
Na kartě Vložit se zobrazí doplněk Analýza dat.
 
Rozumíme níže uvedeným příkladům lineární regresní analýzy v aplikaci Excel.
Příklady analýzy lineární regrese
Příklad č. 1
Předpokládejme, že máme za minulý rok tržby a výdaje na marketing. Nyní musíme předpovědět budoucí tržby na základě výdajů a marketingu v loňském roce.
| Měsíc | Reklamní | Odbyt | 
| Jan | 40937 | 502729 | 
| Února | 42376 | 507553 | 
| Mar | 43355 | 516885 | 
| Dubna | 44126 | 528347 | 
| Smět | 45060 | 537298 | 
| Červen | 49546 | 544066 | 
| Jul | 56105 | 553664 | 
| Srpen | 59322 | 563201 | 
| Září | 59877 | 568657 | 
| Října | 60481 | 569384 | 
| listopad | 62356 | 573764 | 
| Prosinec | 63246 | 582746 | 
Klikněte na Analýza dat na kartě Data a otevře se vám Pop Data Analysis Pop up.
 
Nyní vyberte ze seznamu Regrese a klikněte na Ok.
 
Otevře se vyskakovací okno regrese.
 
Vyberte rozsah prodeje $ C $ 1: $ C $ 13 v ose Y, protože toto je závislá proměnná a $ B $ 1: $ B $ 14 v ose X, protože utracená reklama je nezávislá proměnná.
 
Zaškrtněte políčko Štítky, pokud jste vybrali záhlaví v datech, jinak se zobrazí chyba.
 
Vyberte Výstupní rozsah, pokud chcete získat hodnotu konkrétního rozsahu na listu, jinak vyberte Nová vrstva listu: a tím se přidá nový list a dá vám výsledek.
 
Poté zaškrtněte políčko Zbytky a klikněte na OK.
 
Tím se přidají pracovní listy a získáte následující výsledek.
 
Rozumíme výstupu.
Souhrnný výstup
Multiple R: Toto představuje korelační koeficient. Hodnota 1 ukazuje pozitivní vztah a hodnota 0 žádný vztah.
Čtverec R: Čtverec R představuje koeficient stanovení. To vám řekne, kolik procent bodů spadne na regresní linii. 0,49 znamená, že 49% hodnot odpovídá modelu
Upravený čtverec R : Toto je upravený čtverec R, který vyžaduje, když máte více než jednu proměnnou X.
Standardní chyba: Představuje odhad směrodatné odchylky chyby. Toto je přesnost, kterou se měří regresní koeficient.
Pozorování: Toto je počet pozorování, která jste provedli ve vzorku.
ANOVA - Df: Stupně svobody
SS: Součet čtverců.
MS: máme dva MS
- Regrese MS je Regression SS / Regression Df.
 - Reziduální MS je střední kvadratická chyba (Residual SS / Residual Df).
 
F: F test pro nulovou hypotézu.
Význam F: P-hodnoty spojené s významem
Koeficient: Koeficient poskytuje odhad nejmenších čtverců.
T Statistika: T Statistika pro nulovou hypotézu vs. alternativní hypotézu.
Hodnota P: Toto je hodnota p pro test hypotézy.
Dolní 95% a horní 95%: Jedná se o dolní hranici a horní hranici pro interval spolehlivosti
Výstup zbytků .: Na základě údajů máme 12 pozorování. 2 nd sloupec představuje odhadnutá prodejní a 3 rd sloupců zbytků. Zbytky jsou v zásadě rozdílem v předpokládaných prodejích od skutečných.
Příklad č. 2
Vyberte sloupec předpokládaného prodeje a marketingu
 
Přejděte do skupiny grafů na kartě Vložit. Vyberte ikonu bodového grafu
 
Tím vložíte bodový graf do aplikace Excel. Viz obrázek níže
 
Klepněte pravým tlačítkem na libovolný bod a poté vyberte Přidat trendovou čáru v aplikaci Excel. Tím do svého grafu přidáte trendovou čáru.
 
 
- Trendovou čáru můžete naformátovat tak, že kliknete pravým tlačítkem kdekoli na spojnici a poté vyberete formátování spojnice.
 - V grafu můžete provést další vylepšení. tj. formátování trendové čáry, barvy a změny názvu atd
 - Vzorec můžete také zobrazit v grafu zaškrtnutím políčka Zobrazit vzorec v grafu a zobrazit v grafu hodnotu R na druhou.
 
Některé další příklady lineární regresní analýzy:
- Předpověď prodaného deštníku na základě deště se stala v oblasti.
 - Predikce prodeje AC na základě teploty v létě.
 - Během zkouškové sezóny se prodej stacionárních v zásadě zvýšil.
 - Predikce prodeje, když reklama proběhla na základě seriálu High TRP, kde se dělá reklama, Popularity Brand Ambassador a Footfalls v místě holdingu, kde se zveřejňuje reklama.
 - Prodej domu na základě lokality, oblasti a ceny.
 
Příklad č. 3
Předpokládejme, že máme devět studentů s jejich úrovní IQ a počtem, kterých dosáhli v Testu.
| Student | Výsledek testu | IQ | 
| RAM | 100 | 145 | 
| Shyam | 97 | 140 | 
| Kul | 93 | 130 | 
| Kappu | 91 | 125 | 
| Raju | 89 | 115 | 
| Vishal | 86 | 110 | 
| Vivek | 82 | 100 | 
| Vinay | 78 | 95 | 
| Kumar | 75 | 90 | 
Krok 1: Nejprve zjistěte závislé a nezávislé proměnné. Zde je testovací skóre závislá proměnná a IQ je nezávislá proměnná, protože testovací skóre se mění s tím, jak se IQ mění.
Krok 2: Přejít na kartu Data - Klikněte na Analýza dat - Vyberte regresi - klikněte na Ok.
 
Otevře se vám okno Regrese.
 
Krok 3. Zadejte rozsah skóre testovacího testu do pole Rozsah Y vstupu a IQ do pole Rozsah X vstupu. (Zaškrtněte na štítcích, pokud máte v datovém rozsahu záhlaví. Vyberte možnosti výstupu a zkontrolujte požadované zbytky. Klikněte na Ok.
 
Získáte souhrnný výstup zobrazený na obrázku níže.
 
Krok 4: Analýza regrese podle souhrnného výstupu
Souhrnný výstup
Multiple R: Zde je korelační koeficient 0,99, což je velmi blízko k 1, což znamená, že lineární vztah je velmi pozitivní.
R Square: Hodnota R Square je 0,983, což znamená, že 98,3% hodnot odpovídá modelu.
Hodnota P: Zde je hodnota P 1,86881E-07, což je velmi méně než 0,1, což znamená, že IQ má významné prediktivní hodnoty.
Viz tabulka níže.
 
Vidíte, že téměř všechny body klesají inline nebo poblíž trendové linie.
Příklad č. 4
Musíme předpovědět prodej AC na základě prodeje a teploty pro jiný měsíc.
| Měsíc | Teplota | Odbyt | 
| Jan | 25 | 38893 | 
| Února | 28 | 42254 | 
| Mar | 31 | 42845 | 
| Dubna | 33 | 47917 | 
| Smět | 37 | 51243 | 
| Červen | 40 | 69588 | 
| Jul | 38 | 56570 | 
| Srpen | 37 | 50 000 | 
Podle následujících kroků získáte výsledek regrese.
Krok 1: Nejprve zjistěte závislé a nezávislé proměnné. Zde je prodej závislá proměnná a teplota je nezávislá proměnná, protože prodej se mění podle změny teploty.
Krok 2: Přejít na kartu Data - Klikněte na Analýza dat - Vyberte regresi - klikněte na Ok.
 
Otevře se vám okno Regrese.
 
Krok 3. Vstup do prodeje v poli Rozsah Y vstupu a Teplota v poli Rozsah X vstupu. (Zaškrtněte na štítcích, pokud máte v datovém rozsahu záhlaví. Vyberte možnosti výstupu a zkontrolujte požadované zbytky. Klikněte na Ok.
 
Získáte souhrnný výstup níže.
 
Krok 4: Analyzujte výsledek.
Multiple R: Zde je korelační koeficient 0,877, což je téměř 1, což znamená, že lineární vztah je pozitivní.
R Square: Hodnota R Square je 0,770, což znamená, že 77% hodnot odpovídá modelu
Hodnota P: Zde je hodnota P 1,86881E-07, což je velmi méně než 0,1, což znamená, že IQ má významné prediktivní hodnoty.
Příklad č. 5
Nyní provedeme regresní analýzu pro více nezávislých proměnných:
Musíte předvídat prodej mobilního telefonu, který bude spuštěn příští rok. Máte cenu a počet obyvatel zemí, které ovlivňují prodej mobilních telefonů.
| Mobilní verze | Odbyt | Množství | Populace | 
| NÁS | 63860 | 858 | 823 | 
| Spojené království | 61841 | 877 | 660 | 
| KZ | 60876 | 873 | 631 | 
| CH | 58188 | 726 | 842 | 
| HN | 52728 | 864 | 573 | 
| AU | 52388 | 680 | 809 | 
| NZ | 51075 | 728 | 661 | 
| RU | 49019 | 689 | 778 | 
Podle následujících kroků získáte výsledek regrese.
Krok 1. Nejprve zjistěte závislé a nezávislé proměnné. Zde je prodej závislý na proměnné a množství a populaci. Obě jsou nezávislé proměnné, protože tržby se liší podle množství a počtu obyvatel země.
Krok 2. Přejít na kartu Data - Klikněte na Analýza dat - Vyberte regresi - klikněte na Ok.
 
Otevře se vám okno Regrese.
 
Krok 3. Zadejte prodej do pole Vstup Y a v poli Rozsah X vyberte množství a počet obyvatel. (Zaškrtněte na štítcích, pokud máte v datovém rozsahu záhlaví. Vyberte možnosti výstupu a zkontrolujte požadované zbytky. Klikněte na Ok.
 
Nyní spusťte regresi pomocí analýzy dat na kartě Data. Získáte níže uvedený výsledek.
 
 
Souhrnný výstup
Multiple R: Zde je korelační koeficient 0,93, což je velmi blízko k 1, což znamená, že lineární vztah je velmi pozitivní.
R Square: Hodnota R Square je 0,866, což znamená, že 86,7% hodnot odpovídá modelu.
Význam F: Význam F je menší než 0,1, což znamená, že regresní rovnice má významnou prediktivní hodnotu.
P-hodnota : Pokud se podíváte na P-hodnotu pro Kvantitu a populaci, uvidíte, že hodnoty jsou menší než 0,1, což znamená, že kvantita a populace mají významnou prediktivní hodnotu. Čím méně hodnot P znamená, že proměnná má významnější prediktivní hodnoty.
Jak kvantita, tak populace však mají významnou prediktivní hodnotu, ale pokud se podíváte na P-hodnotu pro kvantitu a populaci, uvidíte, že kvantita má v aplikaci Excel nižší P-hodnotu než Populace. To znamená, že kvantita má významnější prediktivní hodnotu než populace.
Věci k zapamatování
- Vždy, když vybíráte jakákoli data, zkontrolujte závislé a nezávislé proměnné.
 - Lineární regresní analýza zohledňuje vztah mezi průměrem proměnných.
 - Toto pouze modeluje vztah mezi proměnnými, které jsou lineární
 - Někdy to není nejlepší řešení problému reálného světa. Například: (Věk a mzdy). Většinou se mzda zvyšuje s přibývajícím věkem. Po odchodu do důchodu se však věk zvyšuje, ale mzdy se snižují.
 
 







