Ang ETL (katas, pagbago at pag-load) ay isa sa pinakamahalagang proseso sa malalaking analytics ng data - at nang sabay-sabay, maaari itong isa sa mga pinakamalaking bottlenecks nito. (Para sa higit pa sa malaking data, tingnan ang 5 Mga Nakatutulong na Big Data Kurso na Maaari Mong Dalhin Online.)
Ang kadahilanan ay napakahalaga ng ETL na ang karamihan sa data na kinokolekta ng isang negosyo ay hindi handa, sa raw form nito, para sa isang analytics solution sa digest. Upang makagawa ng isang solusyon sa analytics upang lumikha ng mga pananaw, ang hilaw na data ay kinakailangang makuha mula sa aplikasyon kung saan ito kasalukuyang naninirahan, nagbago sa isang format na mababasa ng isang programa ng analytics, at pagkatapos ay mai-load sa programa ng analytics mismo.
Ang prosesong ito ay magkatulad sa pagluluto. Ang iyong mga hilaw na sangkap ay ang iyong raw data. Kailangang makuha ang mga ito (binili mula sa isang tindahan), binago (niluto), at pagkatapos ay mai-load (plated), bago sila masuri (natikman). Ang kahirapan at gastos ay maaaring masukat nang hindi mapag-aalinlangan - madaling gumawa ng keso ng mac n 'para sa iyong sarili, ngunit mas mahirap na lumikha ng menu ng gourmet para sa 40 katao sa isang hapunan. Hindi na kailangang sabihin, ang isang pagkakamali sa anumang oras ay maaaring gawin ang iyong pagkain hindi matutunaw.