Talaan ng mga Nilalaman:
Ang Apache Hadoop ay naging pundasyon para sa malalaking aplikasyon ng data sa loob ng mahabang panahon, at itinuturing na pangunahing platform ng data para sa lahat ng mga handog na may kaugnayan sa data. Gayunpaman, ang in-memory database at computation ay nakakakuha ng katanyagan dahil sa mas mabilis na pagganap at mabilis na mga resulta. Ang Apache Spark ay isang bagong balangkas na gumagamit ng mga kakayahan sa memorya na maihatid ang mabilis na pagproseso (halos 100 beses nang mas mabilis kaysa sa Hadoop). Kaya, ang produktong Spark ay lalong ginagamit sa isang mundo ng malaking data, at higit sa lahat para sa mas mabilis na pagproseso.
Webinar: Ang Kapangyarihan ng Mungkahi: Paano Pinagpapalakas ng isang Katalogo ng Data ang mga analista Magrehistro dito |
Ano ang Apache Spark?
Ang Apache Spark ay isang open-source na balangkas para sa pagproseso ng malaking dami ng data (malaking data) na may bilis at pagiging simple. Ito ay angkop para sa mga aplikasyon ng analytics batay sa malaking data. Ang spark ay maaaring magamit sa isang kapaligiran ng Hadoop, nakapag-iisa o sa ulap. Ito ay binuo sa University of California at pagkatapos ay inalok sa Apache Software Foundation. Sa gayon, ito ay kabilang sa bukas na mapagkukunan na komunidad at maaaring maging napaka-epektibo, na kung saan ay karagdagang pinapayagan ang mga developer ng amateur na gumana nang madali. (Upang malaman ang higit pa tungkol sa bukas na mapagkukunan ni Hadoop, tingnan ang Ano ang Impluwensya ng Open Source sa Apache Hadoop Ecosystem?)
Ang pangunahing layunin ng Spark ay nag-aalok ito ng mga developer ng isang balangkas ng aplikasyon na gumagana sa paligid ng isang istraktura ng data na nakasentro. Spark ay din napakalakas at may likas na kakayahan upang mabilis na maproseso ang napakalaking halaga ng data sa isang maikling haba ng oras, sa gayon nag-aalok ng napakagandang pagganap. Ginagawa nitong mas mabilis kaysa sa kung ano ang sinasabing pinakamalapit nitong kakumpitensya, ang Hadoop.