Data, malaki at maliit: saan ang tunay na halaga?

2025

Talaan ng mga Nilalaman:

Paano Ginagamit ang Big Data
Nasaan ang Tunay na Halaga?
Minsan Ang Maliit na Data ay Gumagawa ng Mas Malaki (at Hindi Gastos) Epekto

Ang malaking data ay isang salitang kumot na ginamit upang sumangguni sa paghawak ng malalaking dami ng data. Naiintindihan nating lahat na mas malaki ang dami ng data, mas kumplikado ito. Ang mga tradisyunal na solusyon sa database ay madalas na nabigo upang pamahalaan ang mga malalaking dami ng data nang maayos dahil sa kanilang pagiging kumplikado at laki. Samakatuwid, ang pamamahala ng malaking dami ng data at pagkuha ng tunay na pananaw ay isang mahirap na gawain. Ang parehong konsepto na "halaga" ay naaangkop din sa maliit na data.

Paano Ginagamit ang Big Data

Ang mga maginoo na solusyon sa database batay sa konsepto ng RDBMS ay maaaring pamahalaan nang maayos ang mga transactional data at malawakang ginagamit sa iba't ibang mga aplikasyon. Ngunit pagdating sa paghawak ng isang malaking hanay ng data (data na nai-archive at nasa terabytes o petabytes), ang mga solusyon sa database ay madalas na nabigo. Ang mga set ng data na ito ay napakalaki at halos lahat ng oras, hindi sila umaangkop sa arkitektura ng mga tradisyonal na database. Sa mga araw na ito, ang malaking data ay naging isang diskarte na mabibili sa gastos sa paghawak ng mas malaking hanay ng data. Mula sa isang punto ng pang-organisasyon, ang paggamit ng malaking data ay maaaring masira sa mga sumusunod na kategorya, kung saan naninirahan ang totoong halaga ng malaking data:

Paggamit ng Analytical

Ang mga analista ng malaking data ay nagpahayag ng maraming mahahalagang nakatagong aspeto ng data na masyadong magastos upang maproseso. Halimbawa, kung kailangan nating suriin ang takbo ng interes ng mga mag-aaral sa isang tiyak na bagong paksa, magagawa natin ito sa pamamagitan ng pagsusuri sa mga talaan sa pagdalo sa araw-araw at iba pang mga katotohanan sa lipunan at heograpiya. Ang mga katotohanang ito ay nakuha sa database. Kung hindi namin ma-access ang data na ito sa isang mahusay na paraan, hindi namin makita ang mga resulta.

Paganahin ang Mga Bagong Produkto

Sa nagdaang nakaraan, maraming mga bagong kumpanya ng Web, tulad ng Facebook, ang nagsimulang gumamit ng malaking data bilang isang solusyon upang ilunsad ang mga bagong produkto. Alam nating lahat kung gaano ka sikat ang Facebook - matagumpay itong naghanda ng isang karanasan sa gumagamit na may mataas na pagganap gamit ang malaking data.

Nasaan ang Tunay na Halaga?

Ang iba't ibang mga malalaking solusyon sa data ay naiiba sa diskarte kung saan sila nag-iimbak ng data, ngunit sa huli, lahat sila ay nag-iimbak ng data sa isang istraktura ng flat file. Sa pangkalahatan, ang Hadoop ay binubuo ng file system at ilang mga abstraction ng data ng operating-system-level. Kasama dito ang isang MapReduce engine at ang Hadoop na ipinamamahaging File System (HDFS). Ang isang simpleng kumpol ng Hadoop ay may kasamang isang master node at ilang mga node ng manggagawa. Ang master node ay binubuo ng mga sumusunod:

Task Tracker
Trabaho ng Tracker
Pangalan ng Node
Data Node

Ang node ng manggagawa ay binubuo ng mga sumusunod:

Task Tracker
Data Node

Ang ilang mga pagpapatupad ay may lamang node ng data. Ang node ng data ay ang aktwal na lugar kung saan namamalagi ang data. Nag-iimbak ang HDFS ng malalaking file (sa hanay ng mga terabytes sa petabytes) na ipinamamahagi sa maraming mga makina. Ang pagiging maaasahan ng data sa bawat node ay nakamit sa pamamagitan ng pagtitiklop ng data sa lahat ng mga host. Sa gayon, magagamit ang data kahit na ang isa sa mga node ay bumaba. Makakatulong ito sa pagkamit ng mas mabilis na tugon laban sa mga query. Ang konsepto na ito ay napaka-kapaki-pakinabang sa kaso ng malaking aplikasyon tulad ng Facebook. Bilang isang gumagamit, nakakakuha kami ng tugon sa aming kahilingan sa chat, halimbawa, halos agad-agad. Isaalang-alang ang isang sitwasyon kung saan ang isang gumagamit ay kailangang maghintay ng mahabang panahon habang nakikipag-chat. Kung ang mensahe at ang kasunod na tugon ay hindi agad naihatid, kung gaano karaming mga tao ang tunay na gagamitin ang mga tool sa pakikipag-chat na ito?

Bumalik sa pagpapatupad ng Facebook, kung ang data ay hindi nai-replicate sa buong kumpol, hindi magiging posible na magkaroon ng isang nakakaakit na pagpapatupad. Ipinamamahagi ng Hadoop ang data sa buong mga makina sa isang mas malaking kumpol, at nag-iimbak ng mga file bilang isang pagkakasunud-sunod ng mga bloke. Ang mga bloke na ito ay magkatulad na laki maliban sa huling bloke. Ang laki ng block at factor ng pagtitiklop ay maaaring ipasadya ayon sa bawat pangangailangan. Ang mga file sa HDFS ay mahigpit na sinusunod ang diskarte sa pagsulat ng isang beses at sa gayon maaari lamang itong isulat o na-edit ng isang gumagamit nang paisa-isa. Ang mga desisyon tungkol sa pagtitiklop ng mga bloke ay ginawa ng node ng pangalan. Tumatanggap ang mga node ng pangalan ng mga ulat at mga sagot sa pulso mula sa bawat isa sa mga node ng data. Tinitiyak ng mga sagot sa pulso ang pagkakaroon ng kaukulang node ng data. Ang ulat ay naglalaman ng mga detalye ng mga bloke sa data node.

Ang isa pang malaking pagpapatupad ng data, si Cassandra, ay gumagamit din ng isang katulad na konsepto ng pamamahagi. Ipinamamahagi ni Cassandra ang data batay sa lokasyon ng heograpiya. Samakatuwid, sa Cassandra, ang data ay pinaghiwalay batay sa lokasyon ng heograpiya ng paggamit ng data.

Minsan Ang Maliit na Data ay Gumagawa ng Mas Malaki (at Hindi Gastos) Epekto

Tulad ng bawat Rufus Pollock ng Open Knowledge Foundation, walang punto sa paglikha ng hype sa paligid ng malaking data habang ang maliit na data ay pa rin ang lugar kung saan namamalagi ang totoong halaga.

Tulad ng iminumungkahi ng pangalan, ang maliit na data ay isang hanay ng data na na-target mula sa isang mas malaking hanay ng data. Nilalayon ng maliit na data na ilipat ang pokus mula sa paggamit ng data at nilalayon din nitong pigilan ang takbo ng paglipat patungo sa malaking data. Ang maliit na diskarte ng data ay tumutulong sa pangangalap ng data batay sa mga tiyak na kinakailangan gamit ang mas kaunting pagsisikap. Bilang isang resulta, ito ang mas mahusay na kasanayan sa negosyo habang nagpapatupad ng katalinuhan sa negosyo.

Sa core nito, ang konsepto ng maliit na data ay umiikot sa mga negosyo na nangangailangan ng mga resulta na nangangailangan ng karagdagang mga aksyon. Ang mga resulta na ito ay kailangang makuha ng mabilis at ang kasunod na pagkilos ay dapat ding maisakatuparan kaagad. Sa gayon, maaari nating alisin ang mga uri ng mga system na karaniwang ginagamit sa malaking data analytics.

Sa pangkalahatan, kung isasaalang-alang namin ang ilan sa mga tukoy na system na kinakailangan para sa malaking pagkuha ng data, maaaring mamuhunan ang isang kumpanya sa pag-set up ng maraming imbakan ng server, gumamit ng sopistikadong mga high-end na server at ang pinakabagong mga aplikasyon ng pagmimina ng data upang mahawakan ang iba't ibang mga piraso ng data, kabilang ang mga petsa at oras ng pagkilos ng gumagamit, impormasyon sa demograpiko at iba pang impormasyon. Ang buong set ng data ay gumagalaw sa isang gitnang warehouse ng data, kung saan ginagamit ang mga kumplikadong algorithm upang maiayos at iproseso ang data upang maipakita sa anyo ng mga detalyadong ulat.

Alam nating lahat na ang mga solusyon na ito ay nakinabang sa maraming mga negosyo sa mga tuntunin ng scalability at pagkakaroon; may mga organisasyon na nalaman na ang pag-ampon sa mga pamamaraang ito ay nangangailangan ng malaking pagsisikap. Totoo rin na sa ilang mga kaso, ang mga magkatulad na resulta ay nakamit gamit ang isang hindi gaanong matatag na diskarte sa pagmimina ng data.

Ang maliit na data ay nagbibigay ng isang paraan para sa mga organisasyon na bumalik mula sa isang pagkahumaling sa pinakabagong at pinakabagong mga teknolohiya na sumusuporta sa mas sopistikadong mga proseso ng negosyo. Ang mga kumpanya na nagpo-promote ng maliit na data ay nagtaltalan na mahalaga mula sa punto ng negosyo na gagamitin ang kanilang mga mapagkukunan sa isang mahusay na paraan, upang ang labis na paggasta sa teknolohiya ay maiiwasan sa isang tiyak na lawak.

Marami kaming napag-usapan tungkol sa malaking data at maliit na katotohanan ng data, ngunit dapat nating maunawaan na ang pagpili ng tamang platform (malaking data o maliit na data) para sa tamang paggamit ay ang pinakamahalagang bahagi ng buong ehersisyo. At ang katotohanan ay habang ang malaking data ay maaaring magbigay ng maraming mga benepisyo, hindi ito palaging pinakamahusay.