T:
Ano ang ilang mga pangunahing paraan upang i-automate at ma-optimize ang mga proseso ng agham ng data?
A:Ang mga proseso ng agham ng data sa konteksto ng pag-aaral ng makina at AI ay maaaring nahahati sa apat na natatanging mga phase:
- data acquisition at paggalugad,
- modelo ng gusali,
- modelo ng paglawak at
- online na pagsusuri at pagpapino.
Mula sa aking karanasan, ang pinaka nakakaapekto na mga phase ay ang pagkuha ng data at mga yugto ng paglawak ng modelo sa anumang proseso ng data-based na data science-learning, at narito ang dalawang paraan upang mai-optimize ang mga ito:
1. Magtatag ng isang mataas na naa-access na datastore.
Sa karamihan ng mga samahan, ang data ay hindi nakaimbak sa isang sentral na lokasyon. Kumuha lang tayo ng impormasyon na may kaugnayan sa mga customer. Mayroon kang impormasyon sa pakikipag-ugnay sa customer, email ng suporta sa customer, feedback ng customer at kasaysayan ng pag-browse sa customer kung ang iyong negosyo ay isang web application. Ang lahat ng data na ito ay natural na nakakalat, habang nagsisilbi sila ng iba't ibang mga layunin. Maaari silang manirahan sa iba't ibang mga database at ang ilan ay maaaring ganap na nakabalangkas at ang ilan ay hindi nakabalangkas, at maaaring maiimbak din bilang mga payak na mga file ng teksto.
Sa kasamaang palad, ang pagkalat ng mga datasets na ito ay lubos na naglilimita sa gawaing agham ng data bilang batayan ng lahat ng NLP, pag-aaral ng makina at mga problema sa AI ay data . Kaya, ang pagkakaroon ng lahat ng data na ito sa isang lugar - ang datastore - ay pinakamahalaga sa pabilis na pag-unlad at paglawak ng modelo. Dahil sa ito ay isang mahalagang bahagi sa lahat ng mga proseso ng agham ng data, dapat umupa ang mga samahan ng mga kwalipikadong mga inhinyero ng data upang matulungan silang bumuo ng kanilang mga datastores. Madali itong magsisimula bilang simpleng mga pag-dump ng data sa isang lokasyon at dahan-dahang lumaki sa isang maayos na naisip na data na imbakan, ganap na na-dokumentado at queriable sa mga tool ng utility upang ma-export ang mga subset ng data sa iba't ibang mga format para sa iba't ibang mga layunin.
2. Ilantad ang iyong mga modelo bilang isang serbisyo para sa pagsasama ng walang tahi.
Bilang karagdagan sa pagpapagana ng pag-access sa data, mahalaga din na maisama ang mga modelo na binuo ng mga data na siyentipiko sa produkto. Maaari itong maging lubhang mahirap na pagsamahin ang mga modelo na binuo sa Python na may isang web application na tumatakbo sa Ruby. Bilang karagdagan, ang mga modelo ay maaaring magkaroon ng maraming data dependencies na maaaring hindi maibigay ng iyong produkto.
Ang isang paraan upang makitungo ito ay ang pag-set up ng isang malakas na imprastraktura sa paligid ng iyong modelo at ilantad ang sapat na pag-andar na kinakailangan ng iyong produkto upang magamit ang modelo bilang isang "serbisyo sa web." Halimbawa, kung ang iyong aplikasyon ay nangangailangan ng pag-uuri ng sentimento sa mga pagsusuri ng produkto, ang nararapat na gawin ay hinihikayat ang serbisyo sa web, na nagbibigay ng nauugnay na teksto at ibibigay ng serbisyo ang naaangkop na pag-uuri ng sentimyento na maaaring direktang gamitin ng produkto. Sa ganitong paraan ang pagsasama ay simpleng sa anyo ng isang tawag sa API. Ang pagbubungkal ng modelo at ang produkto na gumagamit nito ay ginagawang madali para sa mga bagong produkto na nakamit mo upang magamit din ang mga modelong ito na may kaunting abala.
Ngayon, ang pag-set up ng imprastraktura sa paligid ng iyong modelo ay isang buong iba pang kuwento at nangangailangan ng isang mabigat na paunang puhunan mula sa iyong mga koponan sa inhinyero. Sa sandaling naroon ang imprastraktura, bagay lamang ito sa pagbuo ng mga modelo sa paraang naaangkop sa imprastruktura.