Bahay Mga Uso Ano ang $ @! ay hadoop?

Ano ang $ @! ay hadoop?

Talaan ng mga Nilalaman:

Anonim

Pinag-uusapan ng lahat ang tungkol sa Hadoop, ang mainit na bagong teknolohiya na lubos na napakahalaga sa mga nag-develop at maaaring baguhin lamang ang mundo (muli). Ngunit ano lang ito, pa rin? Ito ba ay isang wika sa programming? Isang database? Isang sistema ng pagproseso? Isang Indian tea maginhawa?


Ang malawak na sagot: Ang Hadoop ay lahat ng mga bagay na ito (maliban sa maginhawang tsaa), at marami pa. Ito ay isang library ng software na nagbibigay ng isang balangkas ng programming para sa murang, kapaki-pakinabang na pagproseso ng isa pang modernong buzzword: malaking data.

Saan nagmula si Hadoop?

Ang Apache Hadoop ay bahagi ng Foundation Project mula sa Apache Software Foundation, isang samahang hindi kumikita na ang misyon ay "magbigay ng software para sa kabutihan ng publiko." Tulad nito, ang library ng Hadoop ay libre, bukas na mapagkukunan ng software na magagamit sa lahat ng mga developer.


Ang nakapailalim na teknolohiya na nagpapatatag ng Hadoop ay talagang naimbento ng Google. Bumalik sa mga unang araw, ang hindi lubos na higanteng search engine ay nangangailangan ng isang paraan upang mai-index ang napakalaking dami ng data na kanilang kinokolekta mula sa Internet, at gawing makabuluhan, may-katuturang mga resulta para sa mga gumagamit nito. Nang walang magagamit sa merkado na maaaring matugunan ang kanilang mga kinakailangan, ang Google ay nagtayo ng kanilang sariling platform.


Ang mga inobasyong ito ay pinakawalan sa isang open-source project na tinatawag na Nutch, na ginamit ni Hadoop bilang pundasyon. Mahalaga, inilalapat ng Hadoop ang kapangyarihan ng Google sa malaking data sa isang paraan na abot-kayang para sa mga kumpanya ng lahat ng laki.

Paano gumagana ang Hadoop?

Tulad ng nabanggit dati, ang Hadoop ay hindi isang bagay - maraming bagay ito. Ang software library na Hadoop ay binubuo ng apat na pangunahing bahagi (modules), at isang bilang ng mga add-on na solusyon (tulad ng mga database at mga wika ng programming) na nagpapaganda ng paggamit nito sa real-mundo. Ang apat na module ay:

  • Hadoop Karaniwan: Ito ang koleksyon ng mga karaniwang kagamitan (ang karaniwang library) na sumusuporta sa mga module ng Hadoop.
  • Hadoop Ipinamamahaging File System (HDFS): Isang matatag na ipinamamahaging file system na walang mga paghihigpit sa naka-imbak na data (nangangahulugang ang data ay maaaring alinman sa nakabalangkas o hindi nakabalangkas at schemaless, kung saan maraming mga DFS ang mag-iimbak lamang ng nakabalangkas na data) na nagbibigay ng pag-access ng high-throughput na may kalabisan ( Pinapayagan ng HDF ang data na maimbak sa maraming makina - kaya kung ang isang makina ay nabigo, ang pagkakaroon ay mapanatili sa pamamagitan ng iba pang mga makina).
  • Hadoop YARN: Ang balangkas na ito ay responsable para sa pag-iskedyul ng trabaho at pamamahala ng kumpol ng kumpol; tinitiyak nito na ang data ay kumalat nang sapat sa maraming machine upang mapanatili ang kalabisan. Ang YARN ay ang module na gumagawa ng Hadoop ng isang abot-kayang at mahusay na paraan upang maproseso ang malaking data.
  • Ang Hadoop MapReduce: Ang sistemang nakabase sa YARN na ito, na binuo sa teknolohiya ng Google, ay nagsasagawa ng kahanay na pagproseso ng mga malalaking set ng data (nakabalangkas at hindi nakabalangkas). Mapapatunayan din ang MapReduce sa karamihan ng mga malaking frameworks processing ng data ngayon, kabilang ang mga database ng MPP at NoSQL.
Ang lahat ng mga modyul na ito na nagtatrabaho nang sama-sama ay nabuo ang ipinamamahagi na pagproseso para sa malalaking set ng data. Ang balangkas ng Hadoop ay gumagamit ng mga simpleng modelo ng programming na ginagaya sa mga kumpol ng mga kompyuter, nangangahulugang ang sistema ay maaaring masukat mula sa solong mga server hanggang libu-libong mga makina para sa pagtaas ng lakas ng pagproseso, sa halip na umasa sa hardware lamang.


Ang mga Hardware na maaaring mahawakan ang dami ng lakas ng pagproseso na kinakailangan upang gumana sa malaking data ay mahal, upang ilagay ito nang banayad. Ito ang tunay na pagbabago ng Hadoop: ang kakayahang masira ang napakalaking dami ng pagpoproseso ng kapangyarihan sa maraming, mas maliit na makina, bawat isa ay may sariling naisalokal na pagkalkula at imbakan, kasama ang built-in na kalabisan sa antas ng aplikasyon upang maiwasan ang mga pagkabigo.

Ano ang ginagawa ni Hadoop?

Nakatapos lang, Hadoop ay ginagawang ma-access ang malaking data at magagamit sa lahat.


Bago ang Hadoop, ang mga kumpanya na gumagamit ng malalaking data ay ginawa ang karamihan sa mga nakabatay na mga database at mga bodega ng data ng negosyo (na gumagamit ng napakalaking halaga ng mamahaling hardware). Habang ang mga tool na ito ay mahusay para sa pagproseso ng nakabalangkas na data - na kung saan ay ang data na naayos at nakaayos sa isang paraan na mapapamahalaang - ang kapasidad para sa pagproseso ng hindi nakaayos na data ay lubos na limitado, kaya't ito ay halos hindi umiiral. Upang maging kapaki-pakinabang, ang data ay kailangang unang naayos upang magkasya ito nang maayos sa mga talahanayan.


Ang balangkas ng Hadoop ay nagbabago ng kahilingan na iyon, at ginagawa ito nang mura. Sa Hadoop, ang napakalaking halaga ng data mula 10 hanggang 100 gigabytes at sa itaas, parehong nakabalangkas at hindi nakabalangkas, maaaring maiproseso gamit ang mga ordinaryong (kalakal) na server.


Ang Hadoop ay nagdadala ng mga potensyal na malaking aplikasyon ng data para sa mga negosyo ng lahat ng laki, sa bawat industriya. Pinapayagan ng open-source na balangkas ang mga kumpanya ng pananalapi na lumikha ng mga sopistikadong modelo para sa pagsusuri sa portfolio at pagsusuri sa panganib, o mga online na tagatingi upang masarap ang kanilang mga sagot sa paghahanap at ituro ang mga customer patungo sa mga produktong mas malamang na bilhin nila.


Sa Hadoop, ang mga posibilidad ay tunay na walang hanggan.

Ano ang $ @! ay hadoop?