Bahay Audio Hadoop analytics: hindi napakadali sa maraming mga mapagkukunan ng data

Hadoop analytics: hindi napakadali sa maraming mga mapagkukunan ng data

Talaan ng mga Nilalaman:

Anonim

Ang Hadoop ay isang mahusay na lugar upang mai-offload ang data para sa pagproseso ng analytics o upang modelo ng mas malaking dami ng isang solong mapagkukunan ng data na hindi posible sa mga umiiral na mga system. Gayunpaman, habang ang mga kumpanya ay nagdadala ng data mula sa maraming mga mapagkukunan sa Hadoop, mayroong isang pagtaas ng demand para sa pagsusuri ng data sa iba't ibang mga mapagkukunan, na maaaring maging mahirap na makamit. Ang post na ito ang una sa isang tatlong bahagi na serye na nagpapaliwanag sa mga isyu na kinakaharap ng mga samahan, habang tinatangka nilang pag-aralan ang iba't ibang mga mapagkukunan ng data at mga uri sa loob ng Hadoop, at kung paano malutas ang mga hamong ito. Ang post ngayon ay nakatuon sa mga problema na nangyayari kapag pinagsama ang maraming panloob na mapagkukunan. Ang susunod na dalawang post ay nagpapaliwanag kung bakit ang mga problemang ito ay tumaas sa pagiging kumplikado, dahil idinagdag ang mga panlabas na mapagkukunan ng data, at kung paano makakatulong ang mga bagong diskarte upang malutas ang mga ito.

Data Mula sa Iba't ibang Mga Pinagmulan na Mahusay na Kumonekta at Map

Ang data mula sa magkakaibang mapagkukunan ay may iba't ibang mga istraktura na nagpapahirap na kumonekta at mag-mapa ng mga uri ng data nang magkasama, kahit na ang data mula sa mga panloob na mapagkukunan. Ang pagsasama ng data ay maaaring maging mahirap lalo na kung ang mga customer ay may maraming mga numero ng account o isang samahan na nakuha o pinagsama sa ibang mga kumpanya. Sa nakalipas na ilang taon, sinubukan ng ilang mga samahan na gumamit ng mga pagtuklas ng data o mga aplikasyon sa agham ng data upang pag-aralan ang mga data mula sa maraming mga mapagkukunan na nakaimbak sa Hadoop. Ang pamamaraang ito ay may problema dahil nagsasangkot ito ng maraming hulaan: kailangang magpasya ang mga gumagamit kung aling mga dayuhang susi ang gagamitin upang ikonekta ang iba't ibang mga mapagkukunan ng data at gumawa ng mga pagpapalagay kapag lumilikha ng mga overlay ng modelo ng data. Ang mga hula na ito ay mahirap subukan at madalas na hindi tama kapag inilalapat sa sukat, na humahantong sa faulty analysis ng data at kawalan ng katiyakan ng mga mapagkukunan.

Sinusubukan ng mga Eksperto ng Hadoop na Pagsamahin ang Data ng Magkasama

Samakatuwid, ang mga organisasyon na nais na pag-aralan ang mga data sa buong mga mapagkukunan ng data ay nagsagawa sa pag-upa ng mga dalubhasa sa Hadoop upang lumikha ng pasadyang, mga tiyak na mapagkukunan na script upang pagsamahin ang mga hanay ng data. Ang mga dalubhasang Hadoop na ito ay karaniwang hindi pagsasama ng data o mga eksperto sa resolusyon ng entidad, ngunit ginagawa nila ang makakaya nila upang matugunan ang mga agarang pangangailangan ng samahan. Ang mga dalubhasang ito ay karaniwang gumagamit ng Baboy o Java upang magsulat ng mahirap at mabilis na mga patakaran na natutukoy kung paano pagsamahin ang nakabalangkas na data mula sa mga tukoy na mapagkukunan, halimbawa ang pagtutugma ng mga talaan batay sa isang numero ng account. Kapag nakasulat ang isang script para sa dalawang mapagkukunan, kung ang isang pangatlong mapagkukunan ay kailangang maidagdag, ang unang script ay kailangang itapon at isang bagong script na idinisenyo upang pagsamahin ang tatlong tiyak na mapagkukunan. Ang parehong bagay ay nangyayari kung ang isa pang mapagkukunan ay idinagdag at iba pa. Hindi lamang ang pamamaraang ito ay hindi mahusay, ngunit nabigo din ito kapag inilalapat sa sukat, hindi maganda ang paghawak sa mga kaso sa gilid, ay maaaring magresulta sa isang malaking bilang ng mga dobleng talaan, at madalas na pinagsasama ang maraming mga tala na hindi dapat pagsamahin.

Hadoop analytics: hindi napakadali sa maraming mga mapagkukunan ng data