Vypočítajte odľahlé hodnoty

Autor: Charles Brown
Dátum Stvorenia: 8 Február 2021
Dátum Aktualizácie: 1 V Júli 2024
Anonim
PHY 233 - Výpočty experimentu Galileo
Video: PHY 233 - Výpočty experimentu Galileo

Obsah

A odľahlý alebo odľahlý v štatistike je dátový bod, ktorý sa významne líši od ostatných dátových bodov vo vzorke. Odľahlé hodnoty často poukazujú na nezrovnalosti alebo chyby v meraniach štatistikom, potom môžu odľahlú hodnotu zo súboru údajov odstrániť. Ak sa skutočne rozhodnú odstrániť odľahlé hodnoty zo súboru údajov, mohlo by to spôsobiť významné zmeny v záveroch vyvodených zo štúdie. Preto je dôležité vypočítať a určiť odľahlé hodnoty, ak chcete správne interpretovať štatistické údaje.

Na krok

  1. Naučte sa, ako zistiť možné mimoriadne hodnoty. Predtým, ako sa rozhodneme, či z konkrétneho súboru údajov odstránime anomálne hodnoty, musíme samozrejme najskôr identifikovať možné mimoriadne hodnoty v súbore údajov. Odľahlé hodnoty sú vo všeobecnosti dátové body, ktoré sa významne líšia od trendu, ktorý tvorí ďalšie hodnoty v množine - inými slovami, vystreliť ostatných hodnôt. Spravidla je ľahké to rozpoznať v tabuľkách a (najmä) v grafoch. Ak je množina údajov graficky znázornená, odľahlé hodnoty budú „ďaleko“ od ostatných hodnôt. Napríklad, ak väčšina bodov v množine údajov predstavuje priamu čiaru, odľahlé hodnoty sa nezhodujú s touto čiarou.
    • Poďme sa pozrieť na množinu dát ukazujúcu teploty 12 rôznych objektov v miestnosti. Ak teplota 11 predmetov kolíše o niekoľko stupňov najviac okolo 21 ° C, zatiaľ čo jeden objekt, rúra na pečenie, má teplotu 150 ° C, na prvý pohľad uvidíte, že rúra je pravdepodobne odľahlá.
  2. Zoraďte všetky dátové body od najnižšieho po najvyšší. Prvým krokom pri výpočte odľahlých hodnôt je nájdenie strednej hodnoty (alebo strednej hodnoty) súboru údajov. Táto úloha sa stáva oveľa ľahšou, ak sú hodnoty v množine zoradené od najnižšej po najvyššiu. Pred pokračovaním teda zoraďte hodnoty vo svojej množine údajov takto.
    • Pokračujme vyššie uvedeným príkladom. Tu je náš súbor údajov zobrazujúci teploty rôznych objektov v miestnosti v stupňoch Fahrenheita: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Ak zoradíme hodnoty v množine od najnižšej po najvyššiu, stane sa z nej naša nová množina: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
  3. Vypočítajte medián súboru údajov. Medián súboru údajov je dátový bod, v ktorom je polovica údajov nad ním a polovica údajov pod ním - je to v skutočnosti „stred“ súboru údajov. Ak súbor údajov obsahuje nepárny počet bodov, je možné ľahko nájsť strednú hodnotu - stredná hodnota je bod s toľkými bodmi, ktoré sú vyššie a nižšie. Ak existuje párny počet bodov, pretože nie je jeden stred, musíte nájsť priemer dvoch stredných bodov, aby ste našli medián. Pri výpočte odľahlých hodnôt sa na medián zvyčajne odkazuje premenná Q2 - pretože leží medzi Q1 a Q3, prvým a tretím kvartilom. Tieto premenné určíme neskôr.
    • Nenechajte sa zmiasť dátovými sadami s párnym počtom bodov - priemer dvoch stredných bodov je často číslo, ktoré sa v samotnom datasete nenachádza - to je v poriadku. Ak sú však dva stredné body rovnaké, priemerom bude samozrejme aj toto číslo - tiež to je Dobre.
    • V našom príklade máme 12 bodov. Prostredné dva členy sú body 6, respektíve 7 - 70 a 71. Medián nášho súboru údajov je teda priemerom z týchto dvoch bodov: ((70 + 71) / 2) =70,5.
  4. Vypočítajte prvý kvartil. Tento bod, ktorý označujeme premennou Q1, je údajový bod, pod ktorým leží 25 percent (alebo štvrtina) pozorovaní. Inými slovami, toto je stred všetkých bodov vo vašom súbore údajov nižšie medián. Ak je párny počet hodnôt pod strednou hodnotou, musíte znova nájsť priemer dvoch stredných hodnôt, aby ste našli Q1, ako ste to mohli urobiť sami pri určovaní mediánu.
    • V našom príklade je šesť bodov nad strednou hodnotou a šesť bodov pod ňou. Aby sme našli prvý kvartil, musíme brať priemer dvoch stredných bodov v dolných šiestich bodoch. Body 3 a 4 v dolnej šestke sú oba 70, takže ich priemer je ((70 + 70) / 2) =70. Naša hodnota pre Q1 je teda 70.
  5. Vypočítajte tretí kvartil. Tento bod, ktorý označujeme premennou Q3, je dátový bod, nad ktorým leží 25 percent údajov. Nájdenie Q3 je prakticky rovnaké ako nájdenie Q1, ibaže v tomto prípade sa pozeráme na body vyššie medián.
    • Pokračovaním vyššie uvedeného príkladu vidíme, že dva stredné body šiestich bodov nad mediánom sú 71 a 72. Priemer z týchto dvoch bodov je ((71 + 72) / 2) =71,5. Naša hodnota pre Q3 je teda 71,5.
  6. Nájdite medzikvartilový rozsah. Teraz, keď sme určili Q1 a Q3, musíme vypočítať vzdialenosť medzi týmito dvoma premennými. Vzdialenosť medzi Q1 a Q3 nájdete odpočítaním Q1 od Q3. Hodnota, ktorú získate pre medzikvartilový rozsah, je rozhodujúca pre určenie hraníc pre neodchyľujúce sa body vo vašom súbore údajov.
    • V našom príklade sú hodnoty pre Q1 a Q3 70, respektíve 71,5. Ak chcete zistiť medzikvartilový rozsah, vypočítame Q3 - Q1: 71,5 - 70 =1,5.
    • To funguje, aj keď sú Q1, Q3 alebo obe čísla záporné. Napríklad, ak by naša hodnota pre Q1 bola -70, medzikvartilový rozsah by bol 71,5 - (-70) = 141,5, čo je správne.
  7. Nájdite „Vnútorné limity“ množiny údajov. Odľahlé hodnoty môžete rozpoznať podľa toho, či spadajú do množstva číselných limitov; takzvané „vnútorné limity“ a „vonkajšie limity“. Bod, ktorý spadá mimo vnútorné hranice súboru údajov, sa klasifikuje ako jeden mierny odľahlý, a bod mimo vonkajších limitov je klasifikovaný ako jeden extrémny odľahlosť. Ak chcete zistiť vnútorné hranice svojej množiny údajov, najskôr vynásobte medzikvartilový rozsah číslom 1,5. Výsledok pridajte do Q3 a odčítajte od Q1. Tieto dva výsledky sú vnútornými limitmi vášho súboru údajov.
    • V našom príklade je medzikvartilový rozsah (71,5 - 70) alebo 1,5. Vynásobte to 1,5 a získajte 2,25. Toto číslo pridáme do Q3 a odčítame od Q1, aby sme našli vnútorné hranice takto:
      • 71,5 + 2,25=73,75
      • 70 - 2,25=67,75
      • Takže vnútorné hranice sú 67,75 a 73,75.
    • V našom súbore údajov je mimo tohto rozsahu iba teplota rúry - 300 stupňov Fahrenheita. Môže to byť teda mierne odľahlý údaj. Musíme však ešte určiť, či je táto teplota extrémnou odchýlkou, takže ešte neurobme závery.
  8. Nájdite „vonkajšie limity“ množiny údajov. Robíte to rovnako ako s vnútornými hranicami, iba s tým rozdielom, že medzikvartilovú vzdialenosť vynásobíte 3 namiesto 1,5. Výsledok potom pridáte do Q3 a odčítaním od Q1 nájdete vonkajšie limitné hodnoty.
    • V našom príklade vynásobíme medzikvartilovú vzdialenosť 3 a dostaneme (1,5 * 3) alebo 4,5. Teraz môžeme nájsť vonkajšie limity rovnakým spôsobom ako vnútorné limity:
      • 71,5 + 4,5=76
      • 70 - 4,5=65,5
      • Vonkajšie limity teda sú 65,5 a 76.
    • Dátové body, ktoré ležia mimo vonkajších hraníc, sa považujú za extrémne odľahlé hodnoty. V našom príklade je teplota rúry, 300 stupňov Fahrenheita, výrazne mimo vonkajších hraníc. Takže teplota v rúre je určite extrémna odľahlosť.
  9. Kvalitatívnym hodnotením určte, či by ste mali „vyhodiť“ mimoriadne hodnoty. Pomocou vyššie uvedenej metódy môžete zistiť, či sú určité body mierne, extrémne alebo extrémne. Ale nenechajte sa pomýliť - rozpoznanie bodu ako odľahlej hodnoty z neho robí iba jeden kandidát má byť odstránený z množiny údajov, a nie okamžite bod, ktorý je odstránený musieť zmeniť na. The dôvod prečo sa odľahlá hodnota líši od ostatných bodov v súbore, je rozhodujúce pri určovaní, či by sa mala odľahlá hodnota odstrániť. Spravidla sa odstraňujú mimoriadne hodnoty spôsobené chybou - napríklad chybou v meraniach, v záznamoch alebo v experimentálnom prevedení. Naopak, odľahlé hodnoty, ktoré nie sú spôsobené chybami a ktoré odhaľujú nové, nepredvídané informácie alebo trendy, sa zvyčajne stávajú nie vypúšťa sa
    • Ďalším kritériom, ktoré treba zvážiť, je, či odľahlé hodnoty ovplyvňujú priemer súboru údajov skresleným alebo zavádzajúcim spôsobom. Toto je obzvlášť dôležité, ak plánujete vyvodiť závery z priemeru súboru údajov.
    • Posúďme náš príklad. Keďže najvyššia Je nepravdepodobné, že by pec dosiahla teplotu 300 ° F kvôli nejakej nepredvídateľnej sile prírody, v našom príklade môžeme s takmer stopercentnou istotou dospieť k záveru, že pec bola náhodne zapnutá, čo spôsobilo neobvykle vysokú teplotu. Ak navyše neodstránime odľahlú hodnotu, stredná hodnota nášho súboru údajov vyjde na (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89,67 ° F, zatiaľ čo priemer bez odľahlý vychádza (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70,55 ° F.
      • Pretože odľahlá hodnota bola spôsobená ľudskou chybou a pretože nie je správne tvrdiť, že priemerná teplota v miestnosti sa blížila k 32 ° C, musíme sa rozhodnúť použiť našu odľahlú hodnotu. odstrániť.
  10. Pochopte dôležitosť (niekedy) uchovania odľahlých hodnôt. Zatiaľ čo niektoré odľahlé hodnoty by sa mali zo súboru údajov odstrániť, pretože sú výsledkom chýb alebo preto, že skresľujú výsledky zavádzajúcim spôsobom, iné odľahlé hodnoty by sa mali zachovať. Napríklad, ak bola odmerná hodnota získaná správne (a teda nie je výsledkom chyby) a / alebo ak odľahlá hodnota ponúka nový pohľad na meraný jav, nemala by byť okamžite odstránená. Vedecké experimenty sú obzvlášť citlivé situácie, pokiaľ ide o odľahlé hodnoty - chybné odstránenie odľahlej hodnoty môže znamenať vyhodenie dôležitých informácií o novom trende alebo objave.
    • Predstavte si napríklad, že navrhujeme nový liek na zväčšenie rýb na rybej farme. Použime našu starú množinu údajov ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}) s tým rozdielom, že každý bod teraz predstavuje hmotnosť ryby (v gramoch ) po liečbe iným experimentálnym liekom od narodenia. Inými slovami, prvý liek dával jednej rybe hmotnosť 71 gramov, druhý dával ďalšej rybe hmotnosť 70 gramov atď. V tejto situácii 300 stále veľká odľahlosť, ale nemali by sme ju teraz odstraňovať. Pretože, ak predpokladáme, že odľahlá hodnota nie je výsledkom chyby, predstavuje v našom experimente veľký úspech. Droga, ktorá vyprodukovala 300 gramovú rybu, zafungovala lepšie ako ktorákoľvek iná droga, takže je to ono najviac dôležitý dátový bod v našej sade namiesto najmenej dôležitý údajový bod.

Tipy

  • Ak nájdete mimoriadne hodnoty, skúste ich vysvetliť skôr, ako ich odstránite z množiny údajov; môžu indikovať chyby merania alebo odchýlky v distribúcii.

Nevyhnutnosť

  • Kalkulačka