Bahay Audio Paano naging data ang pag-scrape para sa pag-aaral ng makina dahil sa bottleneck ng masipag na paggawa dahil sa manu-manong pagpasok ng data sa paglipat ng legacy?

Paano naging data ang pag-scrape para sa pag-aaral ng makina dahil sa bottleneck ng masipag na paggawa dahil sa manu-manong pagpasok ng data sa paglipat ng legacy?

Anonim

T:

Paano naging data ang pag-scrape para sa pag-aaral ng makina dahil sa bottleneck ng masipag na paggawa dahil sa manu-manong pagpasok ng data sa paglipat ng legacy?

A:

Ang isa sa mga praktikal na problema na maaaring makatagpo ng mga kumpanya kapag sinusubukan upang simulan ang isang proyekto sa pag-aaral ng machine (ML) ay ang hamon sa pagkuha ng mga unang set ng data sa pagsasanay. Maaaring kabilang dito ang mga proseso ng masinsinang paggawa tulad ng pag-scrap ng web o iba pang pag-scrape ng data.

Ang mga tuntunin sa pag-scrap ng web at pag-scrape ng data ay higit sa lahat ay tumutukoy sa awtomatikong aktibidad sa pamamagitan ng software ng computer, ngunit para sa maraming mga proyekto sa ML, magkakaroon ng mga kaso kung saan ang mga kompyuter ay hindi magkaroon ng pagiging sopistikado upang mangolekta ng tamang naka-target na data, kaya kailangang gawin ito "gamit ang kamay." Maaari mong tawagan ang "human web / data scraping, " at ito ay walang pasasalamat na trabaho. Karaniwan itong nagsasangkot sa paglabas at naghahanap ng data o mga imahe upang "feed" ang programa sa ML sa pamamagitan ng mga set ng pagsasanay. Ito ay madalas na medyo nakakainis, na ginagawang mahirap na pagod, tamad, hinihingi na trabaho.

Libreng Pag-download: Pag- aaral ng Machine at Bakit Mahalaga ito

Ang pag-scrap ng data para sa mga hanay ng pagsasanay sa ML ay kumakatawan sa isang natatanging problemang bottleneck sa pag-aaral ng makina, na bahagyang dahil ang labis sa ibang gawain ay lubos na may konsepto at hindi paulit-ulit. Maraming mga tao ang maaaring magkaroon ng isang mahusay na ideya para sa isang bagong app na nagsasagawa ng mga gawain sa pag-aaral ng machine, ngunit ang mga mani at bolts at ang praktikal na gawain ay maaaring maging mas mahirap. Sa partikular, ang pag-delegate sa gawain ng pag-iipon ng mga set ng pagsasanay ay maaaring talagang maging isa sa mga pinakamahirap na bahagi ng isang proyekto sa ML, bilang ganap na ginalugad sa palabas sa TV na "Silicon Valley" ni Mike Judge. Sa isang yugto ng apat na yugto, ang isang nagsisimula na negosyante ay unang nang-aapi sa isang kasosyo sa paggawa ng masigasig na paggawa, pagkatapos ay susubukan na ipasa ito sa mga mag-aaral sa kolehiyo sa pamamagitan ng pag-disguise bilang isang takdang aralin.

Ang halimbawang ito ay nakapagtuturo dahil ipinapakita nito kung gaano nagustuhan at tila hindi mahalaga ang manu-manong pag-scrape ng data. Gayunpaman, ipinapakita din na ang prosesong ito ay kinakailangan para sa isang malawak na hanay ng mga produkto ng pag-aaral ng machine. Bagaman ang karamihan sa mga tao ay kinamumuhian ang pagpasok ng data, ang mga set ng pagsasanay ay dapat na tipunin sa ilang paraan. Kadalasang inirerekumenda ng mga eksperto sa proseso ang paggamit ng isang serbisyo sa pag-scrap ng web - mahalagang pag-outsource lamang ito ng napaka-masinsinang gawain sa mga panlabas na partido, ngunit maaaring magkaroon ng mga ramization sa seguridad at maging sanhi ng iba pang mga problema. Kapag pinapanatili ang gawaing koleksyon ng manu-manong data sa bahay, muli, kailangang magkaroon ng isang probisyon na ginawa para sa kung ano ang madalas na isang napaka-mano-mano at pag-ubos na proseso.

Sa ilang mga paraan, ang "data ng pag-scrap ng data ng tao" para sa pag-aaral ng makina ay katulad ng manu-manong pagpasok ng data na kung minsan ay kailangang gawin sa paglipat ng legacy. Habang ang ulap ay naging mas at mas sikat, at inilagay ng mga kumpanya ang kanilang mga proseso at mga daloy ng trabaho sa ulap, natagpuan ng ilan na hindi sila nagtrabaho sa pamamagitan ng mga praktikal na aspeto kung paano makuha ang kanilang data sa korporasyon mula sa isang nakahiwalay na sistema ng pamana sa mga application na cloud-katutubong. Bilang isang resulta, ang ilang mga tao na kung hindi man data ng mga siyentipiko o mga taong malikhaing may mahahalagang kasanayan sa IT ay natagpuan ang kanilang sarili na gumagawa ng mga hindi kasiya-siyang gawain sa pagpasok ng data.

Ang parehong ay malamang na mangyari sa pag-aaral ng makina. Maaari mong marinig ang isang siyentipiko ng data na nagrereklamo na "Ako ay isang malikhaing tao" o "Ako ay nasa panig ng pag-unlad" - ngunit ang isang tao ay kailangang gawin ang maruming gawain.

Muli, kung ang daloy ng malikhaing ay hindi tinugma ng isang praktikal na pagtatasa ng delegasyon ng daloy ng trabaho, magkakaroon ng isang pagkakamali sa kung paano ang direksyon ng paghawak sa gawain. Kapag ang isang kumpanya ay walang mga tao na gawin ang data sa pag-scrap ng data sa pagkolekta ng mga set ng data, kulang ito ng isang pangunahing bahagi ng kadena ng pamamaraan para sa isang matagumpay na proyekto. Ito ay nagkakahalaga ng pag-isipan ito sa anumang oras na sinusubukan ng isang kumpanya na gumawa ng mabuti sa isang ideya na batay sa paligid ng pagbuo ng mga bagong application sa pag-aaral ng makina.

Paano naging data ang pag-scrape para sa pag-aaral ng makina dahil sa bottleneck ng masipag na paggawa dahil sa manu-manong pagpasok ng data sa paglipat ng legacy?