Odlehlá formule - Krok za krokem výpočet odlehlé hodnoty (s příkladem)

Outlierův vzorec poskytuje grafický nástroj pro výpočet dat, která se nacházejí mimo danou sadu distribuce, která může být vnitřní nebo vnější strana v závislosti na proměnných.

Co je Outlier Formula?

Odlehlá hodnota je datový bod daného vzorku nebo daného pozorování nebo v distribuci, která musí ležet mimo celkový vzor. Běžně používané pravidlo, které říká, že datový bod bude považován za odlehlou hodnotu, pokud má více než 1,5 IQR pod prvním kvartilem nebo nad třetím kvartilem.

Jinak řečeno, nízké odlehlé hodnoty budou ležet pod Q1-1,5 IQR a vysoké odlehlé hodnoty budou ležet Q3 + 1,5 IQR

Je třeba vypočítat medián, kvartily, včetně IQR, Q1 a Q3.

Odlehlý vzorec je znázorněn následovně,

Vzorec pro Q1 = ¼ (n + 1) th termín  Vzorec pro Q3 = ¾ (n + 1) th termín  Vzorec pro Q2 = Q3 - Q1

Krok za krokem výpočet odlehlé hodnoty

K výpočtu odchylky je třeba dodržet níže uvedené kroky.

  • Krok 1: Nejprve vypočítejte kvartily, tj. Q1, Q2 a mezikvartil
  • Krok 2: Nyní vypočítejte hodnotu Q2 * 1,5
  • Krok 3: Nyní odečtěte hodnotu Q1 od hodnoty vypočítané v kroku 2
  • Krok 4: Zde přidejte Q3 s hodnotou vypočítanou v kroku 2
  • Krok 5: Vytvořte rozsah hodnot vypočítaných v kroku 3 a kroku 4
  • Krok 6: Uspořádejte data ve vzestupném pořadí
  • Krok 7: Zkontrolujte, zda jsou nějaké hodnoty nižší nebo vyšší než rozsah vytvořený v kroku 5 .

Příklad

Vezměte v úvahu datovou sadu následujících čísel: 10, 2, 4, 7, 8, 5, 11, 3, 12. Je nutné vypočítat všechny odlehlé hodnoty.

Řešení:

Nejprve musíme uspořádat data ve vzestupném pořadí, abychom našli medián, který pro nás bude Q2.

2, 3, 4, 5, 7, 8, 10, 11, 12

Teď, protože počet pozorování je liché, což je 9, medián by ležet na 5 th pozici, která je 7, a totéž bude Q2 pro tento příklad.

Proto je výpočet Q1 následující -

Q1 = ¼ (9 + 1)

= ¼ (10)

Q1 bude -

Q1 = 2,5 období

To znamená, že Q 1 je průměr 2 nd a 3 rd poloze pozorování, což je 3 a 4 zde, a průměr stejný je (3 + 4) / 2 = 3,5

Výpočet Q3 je tedy následující -

Q3 = ¾ (9 + 1)

= ¾ (10)

Q3 bude -

Q3 = 7,5 období

To znamená, že Q3 je průměr 7 th a 8 th poloha pozorování, což je 10 11 zde, a průměr Totéž (10 + 11) / 2 = 10,5

Nyní budou nízké odlehlé hodnoty ležet pod Q1-1,5IQR a vysoké odlehlé hodnoty budou ležet Q3 + 1,5IQR

Hodnoty jsou tedy 3,5 - (1,5 * 7) = -7 a vyšší rozsah je 10,5 + (1,5 * 7) = 110,25.

Protože neexistují žádná pozorování, která leží nad nebo pod 110,25 a -7, nemáme v tomto vzorku žádné odlehlé hodnoty.

Příklad odlehlého vzorce v aplikaci Excel (s šablonou Excel)

Kurzy kreativního koučování zvažují odměnu studentů, kteří jsou v top 25%. Chtějí se však vyhnout odlehlým hodnotám. Data jsou pro 25 studentů. Použijte Outlierovu rovnici k určení, zda existuje odlehlá hodnota?

Řešení:

Níže jsou uvedeny údaje pro výpočet odlehlé hodnoty.

Počet pozorování je zde 25 a naším prvním krokem bude převod výše uvedených nezpracovaných dat ve vzestupném pořadí.

Medián bude -

Mediánová hodnota = ½ (n + 1)

= ½ = ½ (26)

= 13 th termín

Q2 nebo medián je 68,00

Což je 50% populace.

Q1 bude -

Q1 = ¼ (n + 1) th termín

= ¼ (25 + 1)

= ¼ (26)

= 6,5 th termín, který je ekvivalentní k 7 th termínu

Q1 je 56,00, což je spodní 25%

Q3 bude -

Nakonec Q3 = ¾ (n + 1) th termín

= ¾ (26)

= 19,50 období

Tady průměrná třeba vzít, který je z 19 th a 20 th podmínek, které jsou 77 a 77, a průměr totéž (77 + 77) / 2 = 77,00

Q3 je 77, což je nejlepších 25%

Nízký rozsah

Nyní budou nízké odlehlé hodnoty ležet pod Q1-1,5IQR a vysoké odlehlé hodnoty budou ležet Q3 + 1,5IQR

Vysoký dosah -

Hodnoty jsou tedy 56 - (1,5 * 68) = -46 a vyšší rozsah je 77 + (1,5 * 68) = 179.

Neexistují žádné odlehlé hodnoty.

Relevance a použití

Vzorec odlehlých hodnot je velmi důležité vědět, protože by mohla existovat data, která by byla o takovou hodnotu vychýlena. Vezměte si příklad pozorování 2, 4, 6, 101 a nyní, pokud někdo vezme průměr těchto hodnot, bude to 28,25, ale 75% pozorování leží pod 7, a proto by šlo o nesprávné rozhodnutí týkající se pozorování tento vzorek.

Lze si zde všimnout, že 101 se zjevně jeví jako obrysový, a pokud je toto odstraněno, průměr by byl 4, což o hodnotách nebo pozorováních říká, že leží v rozmezí 4. Proto je velmi důležité to provést výpočet, aby nedošlo ke zneužití úvodních informací o datech. Statistiky po celém světě je často používají, kdykoli provádějí jakýkoli výzkum.

Zajímavé články...