Talaan ng mga Nilalaman:
- Kahulugan - Ano ang ibig sabihin ng Outlier Detection?
- Ipinapaliwanag ng Techopedia ang Outlier Detection
Kahulugan - Ano ang ibig sabihin ng Outlier Detection?
Ang detektib sa outlier ay ang proseso ng pagtuklas at pagkatapos ay hindi kasama ang mga outliers mula sa isang naibigay na hanay ng data.
Ang isang outlier ay maaaring tinukoy bilang isang piraso ng data o pagmamasid na lumihis nang labis mula sa ibinigay na pamantayan o average ng set ng data. Ang isang outlier ay maaaring sanhi ng simpleng pagkakataon, ngunit maaari rin itong magpahiwatig ng error sa pagsukat o na ang ibinigay na set ng data ay may isang mabigat na pamamahagi.
Narito ang isang simpleng senaryo sa mas detektib, ang isang proseso ng pagsukat na palaging gumagawa ng mga readout sa pagitan ng 1 at 10, ngunit sa ilang mga bihirang kaso nakakakuha kami ng mga sukat na higit sa 20.
Ang mga bihirang sukat na ito na lampas sa pamantayan ay tinatawag na mga outliers dahil "nagsinungaling sila sa labas" ng normal na curve ng pamamahagi.
Ipinapaliwanag ng Techopedia ang Outlier Detection
Tunay na walang pamantayang at matibay na pamamaraan sa matematika para sa pagtukoy ng isang mas malaki dahil talagang nag-iiba depende sa hanay o populasyon ng data, kaya ang pagpapasiya at pagtuklas sa huli ay magiging subjective. Sa pamamagitan ng patuloy na pag-sampling sa isang naibigay na patlang ng data, maaaring maitatag ang mga katangian ng isang outlier upang mas madali ang pagtuklas.
Mayroong mga pamamaraan na batay sa modelo para sa pag-alis ng mga outlier at ipinapalagay nila na ang data ay nakuha mula sa isang normal na pamamahagi at makikilala ang mga obserbasyon o puntos, na itinuturing na hindi malamang batay sa kahulugan o karaniwang paglihis, bilang mga outlier. Mayroong maraming mga pamamaraan para sa mas malinaw na pagtuklas:
- Pagsubok ng Grubb para sa mga Outliers - Ito ay batay sa pag-aakala na ang data ay isang normal na pamamahagi at nag-aalis ng isang outlier nang sabay-sabay sa pagsusulit na napapabagsak hanggang sa hindi na mahahanap ang mga outlier.
- Dixon's Q Test - Batay din sa normalidad ng set ng data, ang pamamaraang ito ay sumusubok para sa masamang data. Nabanggit na ito ay dapat gamitin nang matipid at hindi hihigit sa isang beses sa isang set ng data.
- Kriterya ng Chauvenet - Ginagamit ito upang pag-aralan kung ang outlier ay galit o nasa loob pa rin ng mga hangganan at maituturing na bahagi ng set. Ang ibig sabihin at karaniwang paglihis ay kinuha at ang posibilidad na ang paglabas ay nangyayari ay kinakalkula. Matutukoy ng mga resulta kung dapat bang isama o hindi.
- Criterion ni Pierce - Isang limitasyon ng error ay nakatakda para sa isang serye ng mga obserbasyon, na lampas sa kung saan ang lahat ng mga obserbasyon ay tatanggalin dahil nasasangkot na nila ang gayong mahusay na pagkakamali.
