Outlierův vzorec poskytuje grafický nástroj pro výpočet dat, která se nacházejí mimo danou sadu distribuce, která může být vnitřní nebo vnější strana v závislosti na proměnných.
Co je Outlier Formula?
Odlehlá hodnota je datový bod daného vzorku nebo daného pozorování nebo v distribuci, která musí ležet mimo celkový vzor. Běžně používané pravidlo, které říká, že datový bod bude považován za odlehlou hodnotu, pokud má více než 1,5 IQR pod prvním kvartilem nebo nad třetím kvartilem.
Jinak řečeno, nízké odlehlé hodnoty budou ležet pod Q1-1,5 IQR a vysoké odlehlé hodnoty budou ležet Q3 + 1,5 IQR
Je třeba vypočítat medián, kvartily, včetně IQR, Q1 a Q3.
Odlehlý vzorec je znázorněn následovně,
Vzorec pro Q1 = ¼ (n + 1) th termín Vzorec pro Q3 = ¾ (n + 1) th termín Vzorec pro Q2 = Q3 - Q1

Krok za krokem výpočet odlehlé hodnoty
K výpočtu odchylky je třeba dodržet níže uvedené kroky.
- Krok 1: Nejprve vypočítejte kvartily, tj. Q1, Q2 a mezikvartil
- Krok 2: Nyní vypočítejte hodnotu Q2 * 1,5
- Krok 3: Nyní odečtěte hodnotu Q1 od hodnoty vypočítané v kroku 2
- Krok 4: Zde přidejte Q3 s hodnotou vypočítanou v kroku 2
- Krok 5: Vytvořte rozsah hodnot vypočítaných v kroku 3 a kroku 4
- Krok 6: Uspořádejte data ve vzestupném pořadí
- Krok 7: Zkontrolujte, zda jsou nějaké hodnoty nižší nebo vyšší než rozsah vytvořený v kroku 5 .
Příklad
Vezměte v úvahu datovou sadu následujících čísel: 10, 2, 4, 7, 8, 5, 11, 3, 12. Je nutné vypočítat všechny odlehlé hodnoty.
Řešení:
Nejprve musíme uspořádat data ve vzestupném pořadí, abychom našli medián, který pro nás bude Q2.
2, 3, 4, 5, 7, 8, 10, 11, 12

Teď, protože počet pozorování je liché, což je 9, medián by ležet na 5 th pozici, která je 7, a totéž bude Q2 pro tento příklad.
Proto je výpočet Q1 následující -
Q1 = ¼ (9 + 1)
= ¼ (10)
Q1 bude -

Q1 = 2,5 období
To znamená, že Q 1 je průměr 2 nd a 3 rd poloze pozorování, což je 3 a 4 zde, a průměr stejný je (3 + 4) / 2 = 3,5
Výpočet Q3 je tedy následující -

Q3 = ¾ (9 + 1)
= ¾ (10)
Q3 bude -

Q3 = 7,5 období
To znamená, že Q3 je průměr 7 th a 8 th poloha pozorování, což je 10 11 zde, a průměr Totéž (10 + 11) / 2 = 10,5
Nyní budou nízké odlehlé hodnoty ležet pod Q1-1,5IQR a vysoké odlehlé hodnoty budou ležet Q3 + 1,5IQR
Hodnoty jsou tedy 3,5 - (1,5 * 7) = -7 a vyšší rozsah je 10,5 + (1,5 * 7) = 110,25.
Protože neexistují žádná pozorování, která leží nad nebo pod 110,25 a -7, nemáme v tomto vzorku žádné odlehlé hodnoty.
Příklad odlehlého vzorce v aplikaci Excel (s šablonou Excel)
Kurzy kreativního koučování zvažují odměnu studentů, kteří jsou v top 25%. Chtějí se však vyhnout odlehlým hodnotám. Data jsou pro 25 studentů. Použijte Outlierovu rovnici k určení, zda existuje odlehlá hodnota?
Řešení:
Níže jsou uvedeny údaje pro výpočet odlehlé hodnoty.

Počet pozorování je zde 25 a naším prvním krokem bude převod výše uvedených nezpracovaných dat ve vzestupném pořadí.
Medián bude -

Mediánová hodnota = ½ (n + 1)
= ½ = ½ (26)
= 13 th termín
Q2 nebo medián je 68,00
Což je 50% populace.
Q1 bude -

Q1 = ¼ (n + 1) th termín
= ¼ (25 + 1)
= ¼ (26)
= 6,5 th termín, který je ekvivalentní k 7 th termínu
Q1 je 56,00, což je spodní 25%
Q3 bude -

Nakonec Q3 = ¾ (n + 1) th termín
= ¾ (26)
= 19,50 období
Tady průměrná třeba vzít, který je z 19 th a 20 th podmínek, které jsou 77 a 77, a průměr totéž (77 + 77) / 2 = 77,00
Q3 je 77, což je nejlepších 25%
Nízký rozsah
Nyní budou nízké odlehlé hodnoty ležet pod Q1-1,5IQR a vysoké odlehlé hodnoty budou ležet Q3 + 1,5IQR

Vysoký dosah -

Hodnoty jsou tedy 56 - (1,5 * 68) = -46 a vyšší rozsah je 77 + (1,5 * 68) = 179.
Neexistují žádné odlehlé hodnoty.
Relevance a použití
Vzorec odlehlých hodnot je velmi důležité vědět, protože by mohla existovat data, která by byla o takovou hodnotu vychýlena. Vezměte si příklad pozorování 2, 4, 6, 101 a nyní, pokud někdo vezme průměr těchto hodnot, bude to 28,25, ale 75% pozorování leží pod 7, a proto by šlo o nesprávné rozhodnutí týkající se pozorování tento vzorek.
Lze si zde všimnout, že 101 se zjevně jeví jako obrysový, a pokud je toto odstraněno, průměr by byl 4, což o hodnotách nebo pozorováních říká, že leží v rozmezí 4. Proto je velmi důležité to provést výpočet, aby nedošlo ke zneužití úvodních informací o datech. Statistiky po celém světě je často používají, kdykoli provádějí jakýkoli výzkum.