7 Mga bagay na dapat malaman tungkol sa hadoop

2025

Talaan ng mga Nilalaman:

Paano nagsimula ang Hadoop?
Ano ang napakahalaga tungkol sa Hadoop?
Ano ang binabasa ng Schema?
Ano ang Hive?
Anong uri ng data ang sinusuri ng Hadoop?
Maaari kang magbigay ng isang totoong halimbawa sa Hadoop?
Malinaw na ba si Hadoop o morphing lang?

Ano ang Hadoop? Ito ay isang dilaw na laruang elepante. Hindi ang inaasahan mo? Paano ito tungkol sa: Doug Cutting - co-tagalikha ng open-source software project na ito - hiniram ang pangalan mula sa kanyang anak na nangyari na tumawag sa kanyang laruang elepante na Hadoop. Sa madaling sabi, ang Hadoop ay isang balangkas ng software na binuo ng Apache Software Foundation na ginagamit upang bumuo ng data-intensive, na ipinamamahagi na computing. At ito ay isang pangunahing sangkap sa isa pang mga mambabasa ng buzzword ay hindi kailanman maaaring makakuha ng sapat na: malaking data. Narito ang pitong bagay na dapat mong malaman tungkol sa natatanging, malayang lisensyadong software.

Paano nagsimula ang Hadoop?

Labindalawang taon na ang nakalilipas, nagtayo ang Google ng isang platform upang manipulahin ang napakalaking halaga ng data na kinokolekta nito. Tulad ng madalas na ginagawa ng kumpanya, ginawa ng Google ang disenyo nito na magagamit sa publiko sa anyo ng dalawang papel: Google File System at MapReduce.

Kasabay nito, sina Doug Cutting at Mike Cafarella ay nagtatrabaho sa Nutch, isang bagong search engine. Ang dalawa ay nahihirapan din sa kung paano mahawakan ang malaking halaga ng data. Pagkatapos ang dalawang mananaliksik ay nakakuha ng hangin ng mga papel ng Google. Ang masuwerteng intersection ay nagbago ang lahat sa pamamagitan ng pagpapakilala ng Cutting at Cafarella sa isang mas mahusay na sistema ng file at isang paraan upang masubaybayan ang data, na kalaunan ay humahantong sa paglikha ng Hadoop.

Ano ang napakahalaga tungkol sa Hadoop?

Ngayon, ang pagkolekta ng data ay mas madali kaysa dati. Ang pagkakaroon ng lahat ng data na ito ay nagtatanghal ng maraming mga pagkakataon, ngunit may mga hamon din:

Ang napakalaking halaga ng data ay nangangailangan ng mga bagong pamamaraan sa pagproseso.
Ang data na nakukuha ay nasa isang hindi nakaayos na format.

Upang mapagtagumpayan ang mga hamon ng pagmamanipula ng napakaraming dami ng hindi naka-istrukturang data, ang Cutting at Cafarella ay dumating sa isang dalawang bahagi na solusyon. Upang malutas ang problema sa data-dami, ang Hadoop ay gumagamit ng isang ipinamamahagi na kapaligiran - isang network ng mga server ng kalakal - lumilikha ng isang kahanay na kumpol ng pagproseso, na nagdadala ng higit pang kapangyarihan sa pagproseso upang madala sa itinalagang gawain.

Susunod, kinailangan nilang hawakan ang mga hindi nakaayos na data o data sa mga format na ang mga pamantayang sistemang pangkomunidad ng relational ay hindi makayanan. Ang pagputol at Cafarella ay dinisenyo ng Hadoop upang gumana sa anumang uri ng data: nakabalangkas, hindi nakabalangkas, mga imahe, mga file ng audio, kahit na teksto. Ipinapaliwanag ng puting papel na ito ng Cloudera (Hadoop integrator) kung bakit ito mahalaga:

"Sa pamamagitan ng paggawa ng lahat ng iyong data na magagamit, hindi lamang sa iyong mga database, hinahayaan ka ng Hadoop na alisan ng takip ang mga nakatagong mga relasyon at ihayag ang mga sagot na palaging hindi maaabot. Maaari kang magsimulang gumawa ng mas maraming mga pagpapasya batay sa matigas na data, sa halip na mga hunches, at tumingin sa kumpletong hanay ng data, hindi lamang mga halimbawa at buod. "

Ano ang binabasa ng Schema?

Tulad ng nabanggit kanina, ang isa sa mga bentahe ng Hadoop ay ang kakayahang hawakan ang hindi nakaayos na data. Sa isang kahulugan, iyon ay "kicking the can down the road." Sa kalaunan ang data ay nangangailangan ng ilang uri ng istraktura upang pag-aralan ito.

Iyon ay kung saan ang panukala sa pagbasa ay nagsisimula sa paglalaro. Ang schema na basahin ay ang pagtunaw ng kung anong format ang data, kung saan matatagpuan ang data (tandaan ang data ay nakakalat sa maraming mga server), at kung ano ang dapat gawin sa data - hindi isang simpleng gawain. Sinasabi na ang pagmamanipula ng data sa isang sistema ng Hadoop ay nangangailangan ng mga kasanayan ng isang analyst ng negosyo, isang istatistika at isang programer ng Java. Sa kasamaang palad, hindi maraming mga tao na may mga kwalipikasyon.

Ano ang Hive?

Kung ang Hadoop ay magtagumpay, ang pagtatrabaho sa data ay kailangang gawing simple. Kaya, ang open-source na karamihan ay nagtatrabaho at lumikha ng Hive:

"Nagbibigay ang Hive ng isang mekanismo sa istraktura ng proyekto papunta sa data na ito at humiling ng data gamit ang isang wika na tulad ng SQL na tinatawag na HiveQL. Kasabay nito pinapayagan din ng wikang ito ang tradisyonal na mapa / bawasan ang mga programmer na mag-plug sa kanilang mga pasadyang mappers at reducer kapag hindi ito naaayon o hindi mahusay na ipahayag ang lohika na ito sa HiveQL. "

Pinapayagan ng Hive ang pinakamahusay sa parehong mga mundo: ang mga tauhan ng database na pamilyar sa mga utos ng SQL ay maaaring manipulahin ang data, at ang mga developer na pamilyar sa schema sa proseso ng pagbasa ay pa rin makalikha ng mga pasadyang mga query.

Anong uri ng data ang sinusuri ng Hadoop?

Ang web analytics ay ang unang bagay na nasa isip, pagsusuri sa mga web log at trapiko sa Web upang mai-optimize ang mga website. Halimbawa, ang Facebook, ay tiyak na sa Web analytics, gamit ang Hadoop upang ma-uri-uriin ang mga terabytes ng data na naipon ng kumpanya.

Ginagamit ng mga kumpanya ang mga kumpol ng Hadoop upang magsagawa ng pagsusuri sa peligro, pagtuklas ng pandaraya at segmentasyon ng customer-base. Ang mga kumpanya ng utility ay gumagamit ng Hadoop upang pag-aralan ang data ng sensor mula sa kanilang mga de-koryenteng grid, na pinapayagan silang mai-optimize ang paggawa ng koryente. Ang isang pangunahing kumpanya tulad ng Target, 3M at Medtronics ay gumagamit ng Hadoop upang ma-optimize ang pamamahagi ng produkto, mga pagtatasa sa panganib sa negosyo at segmentasyon ng customer-base.

Ang mga unibersidad ay namuhunan din sa Hadoop. Si Brad Rubin, isang associate professor sa University of St. Thomas Graduate Programs in Software, ay nabanggit na ang kanyang kadalubhasaan sa Hadoop ay tumutulong sa pag-uri-uriin sa napakahirap na halaga ng data na naipon ng mga grupo ng pananaliksik sa unibersidad.

Maaari kang magbigay ng isang totoong halimbawa sa Hadoop?

Ang isa sa mga kilalang halimbawa ay ang TimesMachine. Ang New York Times ay may koleksyon ng buong-pahinang pahayagan na mga larawan ng TIFF, nauugnay na metadata, at teksto ng artikulo mula 1851 hanggang 1922 na nagkakahalaga ng mga terabytes ng data. Ang Derek Gottfrid ng NYT, gamit ang isang EC2 / S3 / Hadoop system at dalubhasang code, :

"Inested 405, 000 napakalaking imahe ng TIFF, 3.3 milyong mga artikulo sa SGML at 405, 000 xml file na nagma-map ng mga artikulo sa mga parihabang rehiyon sa mga TIFF. Ang data na ito ay na-convert sa isang mas web-friendly na 810, 000 mga imahe ng PNG (thumbnail at buong imahe) at 405, 000 mga file ng JavaScript. "

Gamit ang mga server sa ulap ng Amazon Web Services, binanggit ni Gottfrid na nagawa nilang maproseso ang lahat ng data na kinakailangan para sa TimesMachine nang mas mababa sa 36 na oras.

Malinaw na ba si Hadoop o morphing lang?

Mahigit isang dekada na ang Hadoop. Iyon ay maraming nagsasabi na hindi na ginagamit. Ang isang dalubhasa na si Dr. David Rico, ay nagsabi na "Ang mga produktong IT ay maikli ang buhay. Sa mga taon ng aso, ang mga produkto ng Google ay mga 70, habang ang Hadoop ay 56."

Maaaring may ilang katotohanan sa sinabi ni Rico. Lumilitaw na ang Hadoop ay dumadaan sa isang pangunahing pag-overhaul. Upang malaman ang higit pa tungkol dito, inanyayahan ako ni Rubin sa isang pulong ng Twin Cities Hadoop User Group, at ang paksa ng talakayan ay ang Panimula sa YUD:

"Ang Apache Hadoop 2 ay nagsasama ng isang bagong makina ng MapReduce, na mayroong maraming mga pakinabang sa nakaraang pagpapatupad, kabilang ang mas mahusay na scalability at paggamit ng mapagkukunan. Ang bagong pagpapatupad ay binuo sa isang pangkalahatang sistema ng pamamahala ng mapagkukunan para sa pagpapatakbo ng mga ipinamamahaging aplikasyon na tinatawag na YARN." Ang Hadoop ay nakakakuha ng maraming buzz sa mga lupon ng database at pamamahala ng nilalaman, ngunit mayroon pa ring maraming mga katanungan sa paligid nito at kung paano ito magagamit. Ilan lamang ito. Kung mayroon kang higit pa, ipadala ang mga ito sa aming paraan. Sasagutin namin ang pinakamahusay na mga sa Techopedia.com.