Talaan ng mga Nilalaman:
Kahulugan - Ano ang ibig sabihin ng Dirty Data?
Ang data na marumi ay tumutukoy sa data na naglalaman ng maling impormasyon. Maaari rin itong magamit kapag tinutukoy ang data na nasa memorya at hindi pa nai-load sa isang database. Ang kumpletong pag-alis ng maruming data mula sa isang mapagkukunan ay hindi praktikal o halos imposible.
Ang sumusunod na data ay maaaring isaalang-alang bilang maruming data:
- Maling data
- Doblehin ang data
- Maling data
- Hindi maliwanag na data
- Hindi pinagsama-samang data
- Ang data na lumalabag sa mga patakaran sa negosyo
- Data na walang pangkalahatang format
- Maling na-bantas o baybay na data
Ipinapaliwanag ng Techopedia ang Marumi Data
Bilang karagdagan sa hindi tamang pagpasok ng data, ang maruming data ay maaaring mabuo dahil sa hindi tamang pamamaraan sa pamamahala ng data at pag-iimbak ng data. Ang ilang mga uri ng marumi na data ay ipinaliwanag sa ibaba:
- Maling data - Upang matiyak na ang data ay wasto o tama, ang halaga na ipinasok ay dapat sumunod sa mga wastong halaga ng larangan. Halimbawa, ang halaga na naipasok sa larangan ng buwan ay dapat saklaw mula 1 hanggang 12, o ang edad ng isang indibidwal ay dapat na mas mababa sa 130. Ang kawastuhan ng data ay maaaring ipatupad sa programmatically sa pamamagitan ng mga mesa ng lookup o may mga tseke sa pag-edit.
- Hindi tumpak na data - Posible na ang isang halaga ng data ay maaaring tama, ngunit hindi tumpak. Kung minsan, praktikal na suriin laban sa iba pang mga file o larangan upang malaman kung tumpak ang halaga ng data batay sa konteksto na ginagamit nito. Gayunpaman, ang kawastuhan ay madalas na ma-napatunayan sa pamamagitan ng manu-manong pag-verify.
- Mga paglabag sa panuntunan sa negosyo - Ang data na lumalabag sa panuntunan sa negosyo ay isa pang uri ng maruming data. Halimbawa, ang isang epektibong petsa ay dapat palaging darating bago ang isang petsa ng pag-expire. Ang isa pang halimbawa ng paglabag sa panuntunan sa negosyo ay maaaring pag-angkin ng insurance ng Medicare ng isang pasyente kung saan ang pasyente ay maaaring nasa ilalim pa rin ng edad ng pagreretiro at hindi nabibigyang karapat-dapat sa Medicare.
- Mga hindi pantay na data - Ang hindi natukoy na kalabisan ng data ay humahantong sa pagkakapare-pareho ng data. Ang bawat samahan ay apektado ng hindi pantay-pantay at paulit-ulit na data. Ito ay partikular na tipikal sa data ng customer.
- Hindi kumpletong data - Ang data na may mga nawawalang halaga ay pangunahing uri ng hindi kumpletong data.
- Doble data - Maaaring maganap ang mga duplicate na data dahil sa paulit-ulit na pagsumite, hindi tamang data na pagsali o pagkakamali sa gumagamit.
Upang madagdagan ang kalidad ng data at maiwasan ang maruming data, dapat isama ng mga samahan ang mga pamamaraan upang matiyak ang pagkakumpleto, pagiging wasto, pagkakapare-pareho, at pagiging tama ng data.
