Bahay Mga Uso Paano nakatutulong ang hadoop na malutas ang malaking problema sa data

Paano nakatutulong ang hadoop na malutas ang malaking problema sa data

Talaan ng mga Nilalaman:

Anonim

Malaking data ay … maayos … malaki sa laki! Eksakto kung magkano ang data na maaaring maiuri bilang malaking data ay hindi masyadong malinaw na gupit, kaya't huwag tayong maibagsak sa debate na iyon. Para sa isang maliit na kumpanya na ginagamit sa pagharap sa mga data sa gigabytes, 10 TB ng data ang magiging BIG. Gayunpaman para sa mga kumpanya tulad ng Facebook at Yahoo, ang mga petabytes ay malaki.


Lamang ang laki ng malaking data, ginagawang imposible (o hindi bababa sa pagbabawal sa gastos) na itabi ito sa tradisyonal na imbakan tulad ng mga database o maginoo na mga filers. Pinag-uusapan namin ang tungkol sa gastos upang maiimbak ang mga gigabytes ng data. Ang paggamit ng tradisyonal na mga filter ng imbakan ay maaaring gastos ng maraming pera upang maiimbak ang malaking data.


Narito, tingnan natin ang malaking data, mga hamon, at kung paano makakatulong ang Hadoop na malutas ang mga ito. Una, ang pinakamalaking mga hamon ng data.


Ang Big Data Ay Hindi Nakabalangkas o Semi-Structured

Ang isang malaking malaking data ay hindi nakaayos. Halimbawa, ang pag-click sa data ng stream log ay maaaring magmukhang:


stamp ng oras, user_id, pahina, referrer_page


Ang kakulangan ng istraktura ay gumagawa ng mga database ng relational na hindi angkop na mag-imbak ng malaking data. Dagdag pa, hindi maraming mga database ang maaaring makayanan ang pag-iimbak ng bilyun-bilyong mga hilera ng data.

Walang Walang punto sa Pag-iimbak ng Malalaking Data Kung Hindi Kami Magproseso nito

Ang pag-iimbak ng malaking data ay bahagi ng laro. Kailangan nating iproseso ito sa aking katalinuhan na wala rito. Ang mga tradisyunal na sistema ng imbakan ay medyo "pipi" "sa kahulugan na nagtatago lamang sila ng mga piraso. Hindi nila inaalok ang anumang kapangyarihan sa pagproseso.


Ang tradisyunal na modelo ng pagproseso ng data ay may data na nakaimbak sa isang kumpol ng imbakan, na kinokopya sa isang kumpol na compute para sa pagproseso. Ang mga resulta ay nakasulat pabalik sa kumpol ng imbakan.


Ang modelong ito, gayunpaman, ay hindi masyadong gumana para sa malaking data dahil ang pagkopya ng maraming data sa isang kumpol na compute ay maaaring masyadong maraming oras o imposible. Kaya ano ang sagot?


Ang isang solusyon ay ang pagproseso ng malaking data sa lugar, tulad ng sa isang kumpol ng imbakan na pagdodoble bilang isang kumpol.


Kaya tulad ng nakita natin sa itaas, ang malaking data ay tumutol sa tradisyonal na imbakan. Kaya paano natin hahawak ang malaking data?

Paano Nilulutas ng Hadoop ang Malaking Problema sa Data

Ang Hadoop ay binuo upang tumakbo sa isang kumpol ng mga makina

Hinahayaan magsimula sa isang halimbawa. Sabihin nating kailangan nating mag-imbak ng maraming mga larawan. Magsisimula kami sa isang solong disk. Kapag lumampas kami sa isang solong disk, maaari kaming gumamit ng ilang mga disk na nakasalansan sa isang makina. Kapag na-maximize namin ang lahat ng mga disk sa isang makina, kailangan naming makakuha ng isang bungkos ng mga makina, ang bawat isa ay may isang bungkos ng mga disk.


Ito ay eksakto kung paano itinayo ang Hadoop. Ang Hadoop ay idinisenyo upang tumakbo sa isang kumpol ng mga makina mula sa paglabas.



Hadoop clusters scale nang pahalang

Ang higit na lakas ng imbakan at compute ay maaaring makamit sa pamamagitan ng pagdaragdag ng higit pang mga node sa isang kumpol ng Hadoop. Tinatanggal nito ang pangangailangan upang bumili ng higit pa at mas malakas at mamahaling hardware.


Ang Hadoop ay maaaring hawakan ang hindi nakaayos / semi-nakabalangkas na data

Ang Hadoop ay hindi nagpapatupad ng isang panukala sa data na iniimbak nito. Maaari nitong mahawakan ang di-makatwirang teksto at binary data. Kaya madaling matunaw ng Hadoop ang anumang hindi nakaayos na data.


Ang mga kumpol ng Hadoop ay nagbibigay ng imbakan at pag-compute

Nakita namin kung paano ang pagkakaroon ng hiwalay na imbakan at pagproseso ng mga kumpol ay hindi ang pinakamainam na akma para sa malaking data. Ang mga kumpol ng Hadoop, gayunpaman, ay nagbibigay ng pag-iimbak at ipinamamahagi sa computing lahat sa isa.

Ang Kaso sa Negosyo para sa Hadoop

Ang Hadoop ay nagbibigay ng imbakan para sa malaking data sa makatuwirang gastos

Ang pag-iimbak ng malaking data gamit ang tradisyonal na imbakan ay maaaring magastos. Ang Hadoop ay itinayo sa paligid ng hardware ng kalakal, kaya maaari itong magbigay ng medyo malaking imbakan para sa isang makatwirang gastos. Ang Hadoop ay ginamit sa patlang sa petabyte scale.


Ang isang pag-aaral ni Cloudera na iminungkahi na ang mga negosyo ay karaniwang gumastos ng halos $ 25, 000 hanggang $ 50, 000 bawat terabyte bawat taon. Sa Hadoop, ang gastos na ito ay bumaba sa ilang libong dolyar bawat terabyte bawat taon. Tulad ng nakakakuha ng mas mura at mas mura, ang gastos na ito ay patuloy na bumababa.


Pinapayagan ng Hadoop para sa pagkuha ng bago o higit pang data

Minsan ang mga organisasyon ay hindi nakakakuha ng isang uri ng data dahil labis na ipinagbabawal ang gastos upang maiimbak ito. Dahil ang Hadoop ay nagbibigay ng imbakan sa makatuwirang gastos, ang ganitong uri ng data ay maaaring makuha at maiimbak.


Ang isang halimbawa ay ang mga pag-click sa website. Dahil ang dami ng mga log na ito ay maaaring maging napakataas, hindi maraming mga organisasyon ang nakunan ng mga ito. Ngayon sa Hadoop posible na makuha at maiimbak ang mga log.


Sa Hadoop, maaari kang mag-imbak ng data nang mas mahaba

Upang pamahalaan ang dami ng data na naka-imbak, ang mga kumpanya ay pana-panahong naglilinis ng mas lumang data. Halimbawa, ang mga troso lamang sa huling tatlong buwan ay maaaring maiimbak, habang tinanggal ang mga matatandang log. Sa Hadoop posible na maimbak nang mas mahaba ang makasaysayang data. Pinapayagan nitong magawa ang mga bagong analytics sa mas lumang data sa kasaysayan.


Halimbawa, kumuha ng mga pag-click sa mga log mula sa isang website. Ilang taon na ang nakalilipas, ang mga log na ito ay naka-imbak para sa isang maikling panahon upang makalkula ang mga istatistika tulad ng mga sikat na pahina. Ngayon kasama ang Hadoop, mabubuhay na maiimbak ang mga pag-click na log para sa mas mahabang tagal ng panahon.


Ang Hadoop ay nagbibigay ng scalable analytics

Walang punto sa pag-iimbak ng lahat ng data na ito kung hindi namin masuri ang mga ito. Ang Hadoop ay hindi lamang nagbibigay ng ipinamamahagi na imbakan, ngunit ipinamamahagi din ang pagproseso, na nangangahulugang maaari nating mabulok ang isang malaking dami ng data na kahanay. Ang compute framework ng Hadoop ay tinatawag na MapReduce. Ang MapReduce ay napatunayan sa laki ng mga petabytes.


Ang Hadoop ay nagbibigay ng masaganang analytics

Sinusuportahan ng Native MapReduce ang Java bilang isang pangunahing wika sa programming. Ang iba pang mga wika tulad ng Ruby, Python at R ay maaaring magamit din.


Siyempre, ang pagsulat ng pasadyang code ng MapReduce ay hindi lamang ang paraan upang pag-aralan ang data sa Hadoop. Magagamit ang mas mataas na antas ng Pagbawas ng Map. Halimbawa, ang isang tool na nagngangalang Baboy ay tumatagal ng Ingles tulad ng wika daloy ng data at isinalin ang mga ito sa MapReduce. Ang isa pang tool, Hive, ay tumatagal ng mga query sa SQL at pinapatakbo ang mga ito gamit ang MapReduce.


Ang mga kasangkapan sa negosyo (BI) ay maaaring magbigay ng mas mataas na antas ng pagsusuri. Mayroong mga tool para sa ganitong uri ng pagsusuri din.


Ang nilalamang ito ay excerpted mula sa "Hadoop Illuminated" nina Mark Kerzner at Sujee Maniyam. Ginawa itong magagamit sa pamamagitan ng Creative Commons Attribution-NonCommercial-ShareAlike 3.0 Unported Lisensya.

Paano nakatutulong ang hadoop na malutas ang malaking problema sa data