Bahay Hardware Malaking bakal, matugunan ang malaking data: palayain ang data ng mainframe na may hadoop at spark

Malaking bakal, matugunan ang malaking data: palayain ang data ng mainframe na may hadoop at spark

Anonim

Sa pamamagitan ng Techopedia Staff, Hunyo 2, 2016

Takeaway: Ang Hadoop ecosystem ay ginagamit sa mainframes upang maproseso ang malaking data nang mabilis at mahusay.

Kasalukuyan kang hindi naka-log in. Mangyaring mag-log in o mag-sign up upang makita ang video.

Eric Kavanagh: Okay ladies and gentlemen, ito ay alas otso ng Eastern sa isang Huwebes, at ang mga araw na ito ay nangangahulugang oras na ito para sa Hot Technologies. Oo nga, ang pangalan ko ay Eric Kavanagh. Ako ang magiging moderator mo para sa web seminar ngayon. Ito ay magandang bagay, mga tao, "Big Iron, Kilalanin ang Big Data" - Gustung-gusto ko lamang ang pamagat na iyon - "Ang Pag-libog ng Mainframe Data kasama ang Hadoop at Spark." Pag-uusapan natin ang tungkol sa lumang nakakatugon sa bago. Wow! Sinasaklaw namin ang spectrum ng lahat ng napag-usapan namin sa huling 50 taon ng enterprise IT. Ang Spark ay nakakatugon sa mainframe, mahal ko ito.

Mayroong isang lugar tungkol sa iyo ng tunay at sapat na tungkol sa akin. Mainit ang taon. Pinag-uusapan namin ang tungkol sa mainit na mga paksa sa seryeng ito dahil sinusubukan naming tulungan ang mga tao na maunawaan ang ilang mga disiplina, ilang mga puwang. Ano ang ibig sabihin sa, halimbawa, ay may isang analytic platform? Ano ang ibig sabihin ng palayain ang malaking data mula sa mga mainframes? Ano ang ibig sabihin ng lahat ng bagay na ito? Sinusubukan naming tulungan kang maunawaan ang mga tiyak na uri ng mga teknolohiya, kung saan umaangkop sila sa halo at kung paano mo magagamit ang mga ito.

Mayroon kaming dalawang analyst ngayon at pagkatapos ay syempre Tendü Yogurtçu ng Syncsort. Siya ay isang paningin sa aming puwang, labis na nasisiyahan na magkaroon siya ng online ngayon, kasama ang aming sariling Dez Blanchfield at Dr. Robin Bloor. Sasabihin ko lang ng ilang mabilis na salita. Ang isa ay, mga tao, naglalaro ka ng isang malaking bahagi sa prosesong ito, kaya't huwag kang mahiya na magtanong ng ilang magagandang katanungan. Nais naming makarating sa kanila sa panahon ng Q&A na bahagi ng webcast, na karaniwang nasa dulo ng palabas. At ang sasabihin ko lang ay marami kaming magagandang nilalaman, kaya nasasabik kong marinig ang sasabihin ng mga batang ito. At kasama iyon, ihahatid ko ito kay Dez Blanchfield. Dez, ang sahig ay iyo, dalhin mo ito.

Dez Blanchfield: Salamat, Eric, at salamat sa lahat sa pagdalo ngayon. Kaya't nasasabik ako kapag nagkakaroon ako ng pagkakataon na pag-usapan ang tungkol sa isa sa aking mga paboritong bagay sa mundo, mga pangunahing papel. Hindi nila gaanong minamahal ang mga araw na ito. Ang aking pananaw ay ang mainframe ay ang orihinal na malaking platform ng data. Ang ilan ay magtaltalan na sila lamang ang computer sa oras at iyon ay isang makatarungang punto na gagawin, ngunit sa loob ng higit sa 60 taon na ngayon sila talaga ang naging silid ng engine ng kung ano ang malaking data ay huli na naging popular. At dadalhin kita sa isang maliit na paglalakbay sa kung bakit naniniwala ako na ang kaso.

Nakita namin ang isang paglalakbay sa mga stacks ng hardware sa teknolohiya sa konteksto ng paglipat ng mga mainframes mula sa imahe na nakikita mo sa screen ngayon. Ito ay isang oldframe FACOM, isa sa aking mga paborito. Inilipat namin ang aming mga sarili sa malaking bahagi ng bakal, ang huli na mga dekada at ang dot-com boom. Ito ang Sun Microsystems E10000. Ang bagay na ito ay isang ganap na halimaw sa 96 na mga CPU. Orihinal na 64 ngunit maaari itong i-upgrade sa 96 na mga CPU. Ang bawat CPU ay maaaring magpatakbo ng 1, 024 na mga thread. Ang bawat thread ay maaaring nasa rate ng aplikasyon nang sabay. Napakapangit lang ito at talagang pinalakas nito ang dot-com boom. Ito ang lahat ng mga malalaking unicorn habang tinawag namin sila, ngayon tumatakbo kami, at hindi lamang ang mga malalaking negosyo, ang ilan sa mga malalaking website.

At pagkatapos ay natapos namin ang karaniwang modelong PC na off-the-shelf commodity. Kami lamang strapped ng maraming mga murang machine nang magkasama at lumikha kami ng isang kumpol at nilapitan namin ang malaking hamon ng bakal at kung ano ang naging malaking data partikular sa anyo ng proyekto ng Hadoop na bumubuo sa open source search engine, Nutch. At mahalagang namin muling likhain ang mainframe at maraming maliit na mga CPU na nakadikit at nagawang kumilos tulad ng mga L-path at sa anyo ng pagpapatakbo ng hiwalay na mga trabaho o mga bahagi ng mga trabaho at medyo epektibo ito sa maraming paraan. Mas maaga kung nagsimula ka ng mas maliit, ngunit walang paltos na marami sa mga malalaking kumpol na ito ang nakakakuha ng mas mahal kaysa sa isang mainframe.

Ang pananaw ko sa mga bagay na ito ay sa pagmamadali mula sa dot-com boom hanggang sa kung ano ang naging Web 2.0 at ngayon hinabol ang mga unicorn, nakalimutan namin na mayroong platform na ito pa rin ang nagpapatakbo ng marami sa aming mga pinakamalaking sistema ng misyon-kritikal na naroon. Kapag naiisip namin ang tungkol sa kung ano ang tumatakbo sa mga pangunahing platform ng platform doon. Ito ay napaka ang malaking data, lalo na ang data workhorse, ngunit tiyak na malaking data. Ang mga tradisyunal na sistema ng negosyo at pamahalaan tulad ng pagbabangko at pamamahala ng kayamanan at seguro partikular, ginagamit namin ang bawat araw.

Airline booking at flight management system, lalo na ang pamamahala ng flight kung saan kritikal ang real-time. Halos lahat ng estado at pederal na pamahalaan sa isang oras ay nagkaroon ng isang pangunahing papel at walang tigil na marami pa rin ang mayroon sa kanila. Pagbebenta at pagmamanupaktura. Ang ilan sa mga lumang software na noon pa lamang ay hindi pa lumilipas. Patuloy lamang sa mga kapaligiran ng pagmamanupaktura ng kapangyarihan at tiyak na tingi sa laki. Mga sistemang medikal. Mga sistema ng pagtatanggol, tiyak na mga sistema ng pagtatanggol.

Ang huling ilang linggo na nabasa ko ang maraming mga artikulo tungkol sa katotohanan na ang ilan sa mga sistema ng kontrol ng misil ay lahat pa rin ang tumatakbo sa mga lumang mainframes na nahihirapan silang makahanap ng mga bahagi. Inaalam nila kung paano mag-upgrade sa mga bagong mainframes. Mga sistema ng transportasyon at logistik. Ang mga ito ay maaaring hindi tunog tulad ng mga sexy na paksa ngunit ito ang mga paksang pinag-uusapan natin sa pang-araw-araw na batayan sa mga linya. At ang ilang napakalaking mga telecommunications environment ay pinapatakbo pa rin sa mga platform ng mainframe.

Kung iisipin mo ang tungkol sa mga uri ng data na naroroon, lahat sila ay kritikal na misyon. Mahalaga talaga silang mga platform at platform na kinakabahan namin araw-araw at sa maraming paraan ginagawang posible ang buhay. Kaya't sino pa ang gumagamit ng isang pangunahing papel at sino ang lahat ng mga taong ito na humahawak sa mga malalaking platform at humahawak ng lahat ng data na ito? Kaya, tulad ng sinabi ko dito naniniwala ako na madaling malinlang sa paglilipat ng media mula sa malaking bakal hanggang sa mga rack ng mga karaniwang kumpol na off-the-shelf o murang mga PC o x86 machine, sa pag-iisip na namatay ang mainframe at umalis. Ngunit sinabi ng data na ang mainframe ay hindi kailanman umalis at sa katunayan narito ito upang manatili.

Ang pananaliksik na pinagsama ko dito sa huling ilang linggo ay ipinakita na 70 porsyento ng enterprise, lalo na ang malaking enterprise, ang data ay talagang naninirahan sa isang pangunahing sukat ng ilang form. Ang pitumpu't isang porsyento ng Fortune 500 ay nagpapatakbo pa rin ng mga pangunahing sistema ng negosyo sa mga mainframes sa isang lugar. Sa katunayan, dito sa Australia, mayroon kaming isang bilang ng mga samahan na mayroong data center sa gitna ng isang lungsod. Ito ay isang aktwal na kompyuter sa ilalim ng lupa na epektibo, at ang bilang ng mga mainframes na tumatakbo lamang doon, gris at maligaya na ginagawa ang kanilang trabaho. At napakakaunting mga tao ang nakakaalam na ang paglalakad sa mga kalye, mismo sa ilalim ng kanilang mga paa sa isang partikular na bahagi ng lungsod ay mayroong malaking data center na puno ng mga pangunahing papel. Siyamnapu't dalawa sa 100 ng mga bangko sa buong mundo, ang nangungunang 100 mga bangko na, pinapatakbo pa rin ang mga sistema ng pagbabangko sa mainframes. Dalawampu't tatlo sa nangungunang 25 mga kadena sa tingian sa buong mundo ay gumagamit ng mga mainframes upang paandarin ang kanilang mga sistema ng pamamahala ng tingi sa mga platform ng EIP at BI.

Nakatutuwang sapat, 10 sa nangungunang 10 mga insurer ay nagpapatakbo pa rin ng kanilang mga platform sa mainframe, at talagang pinangangasiwaan nila ang kanilang mga serbisyo sa ulap sa mainframe. Kung gumagamit ka ng isang web interface o isang mobile app sa isang lugar na mayroong interface ng middleware, na talagang makipag-usap sa isang bagay na talagang mabigat at malaki sa likuran.

Natagpuan ko ang higit sa 225 mga ahensya ng estado at lokal na pamahalaan sa buong mundo na tumatakbo sa mga platform ng mainframe. Sigurado akong maraming dahilan para doon. Siguro wala silang badyet upang isaalang-alang ang mga bagong bakal ngunit iyon ay isang malaking bakas ng paa ng napakalaking mga kapaligiran na tumatakbo sa mainframe na may ilang mga kritikal na data. At tulad ng nabanggit ko kanina, ang karamihan sa mga bansa ay nagpapatakbo pa rin ng kanilang mga pangunahing sistema ng pagtatanggol sa mainframe. Sigurado ako sa maraming paraan na sinusubukan nilang bumaba doon ngunit doon ka pupunta.

Noong 2015 nagpatakbo ng IDC ang isang survey at 350 ng mga CIO na na-survey ay naiulat na nagmamay-ari pa rin sila at pinamamahalaan ang malaking bakal sa anyo ng mga mainframes. At sinaktan ako nito na malamang na higit pa ito sa bilang ng mga malalaking kumpol ng Hadoop na kasalukuyang tumatakbo sa buong mundo sa paggawa - isang kawili-wiling maliit na estatwa doon. Pupunta ako sa unahan at patunayan ang, ngunit ito ay isang malaking bilang. Tatlong daang limampung CIO ang iniulat na mayroon silang isa o higit pang mga mainframes na nasa paggawa pa rin.

Noong nakaraang taon, 2015, binigyan kami ng IBM ng makapangyarihang Z13, ang ika- 13 pag-iiba ng kanilang pangunahing platform. Ang media ay naging ligaw tungkol sa bagay na ito dahil namangha sila na ang IBM ay gumagawa pa rin ng mga pangunahing papel. Nang itinaas nila ang hood at tumingin sa kung ano ang nasa ilalim ng bagay, nalaman nila na ito ay talagang naaayon sa halos bawat modernong platform na nasasabik namin sa anyo ng malaking data, Hadoop at tiyak na mga kumpol. Ang bagay na ito ay tumakbo Spark at ngayon Hadoop na katutubong. Maaari kang magpatakbo ng libu-libo at libu-libong mga machine ng Linux dito at ito ay tumingin at naramdaman tulad ng anumang iba pang kumpol. Ito ay medyo isang kamangha-manghang makina.

Ang isang bilang ng mga organisasyon ay tumagal ng mga bagay na ito at sa katunayan ay ginawa ko ang ilang mga data sa kung gaano karaming mga machine na ito ay tumatagal. Ngayon ay nakita ko na ang 3270 text terminal ay pinalitan ng mga web browser at mga mobile app para sa ilang oras at maraming data na sumusuporta sa iyon. Sa palagay ko ngayon ay pumapasok kami sa isang panahon kung saan napagtanto namin na ang mga pangunahing papel na ito ay hindi lalayo at mayroong isang malaking halaga ng data sa kanila. At kaya kung ano ang ginagawa namin ngayon ay simpleng pagdaragdag ng tinatawag kong off-the-shelf na mga tool sa analytics. Hindi ito mga custom na built app. Ito ang mga bagay na naka-bespoke one-off. Ito ang mga bagay na maaari mong literal na bumili lamang sa isang nakabalot na kahon bawat se at isaksak sa iyong mainframe at gumawa ng ilang analytics.

Tulad ng sinabi ko dati, ang pangunahing papel ay nasa loob ng higit sa 60 taon, sa katunayan. Kung iniisip namin ang tungkol sa kung gaano katagal iyon, mas mahaba kaysa sa karamihan sa mga namumuhay na propesyonal sa IT na propesyonal ay sumasaklaw. At sa katunayan marahil ang ilan sa kanilang buhay, kahit na. Noong 2002 nagbebenta ang IBM ng 2, 300 mainframes. Noong 2013 na lumago sa 2, 700 pangunahing mga pangunahing papel. Iyon ang 2, 700 na benta ng mga mainframes sa isang taon noong 2013. Hindi ako makakakuha ng tumpak na data noong 2015 ngunit naisip kong mabilis itong lumapit sa 3, 000 na yunit na nabili sa isang taon noong 2015, 2013. At inaasahan kong makumpirma iyon.

Sa pagpapalabas ng Z13, ang ika- 13 pag-aalis ng isang platform ng mainframe, na sa palagay ko ay nagkakahalaga ang mga ito sa paligid ng tungkol sa 1.2 o 1.3 bilyong dolyar upang makabuo mula sa simula, IBM na, narito ang isang makina na mukhang at nararamdaman tulad ng anumang iba pang kumpol na mayroon kami ngayon, at katutubong tumatakbo ang Hadoop at Spark. At maaaring tiyak na konektado sa mula sa iba pang mga analytics at malaking tool ng data o palaging konektado sa isa sa iyong umiiral o bagong mga kumpol ng Hadoop. Mayroon akong pananaw na ito na kasama ang pangunahing platform ng pangunahing papel sa iyong malaking diskarte ng data ay dapat. Malinaw, kung mayroon kang isa, marami kang data at nais mong malaman kung paano ito makukuha doon. At sila ay naiwan upang mangolekta ng alikabok sa maraming paraan, mental at emosyonal hanggang sa napunta ang mundo ng negosyo, ngunit narito sila upang manatili.

Ang pagkonekta at mga interface para sa lahat ng iyong mga tool sa analytics sa data na naka-host sa pangunahing network ay dapat na isang pangunahing bahagi ng iyong negosyo at partikular na malaking plano ng data ng gobyerno. At walang paltos na ngayon ay napansin ng software ang mga ito, na tinitingnan ang mga ito at napagtanto kung ano ang nasa loob ng mga bagay na ito at kumokonekta sa mga isipan na nagsisimula upang makakuha ng kaunting pananaw at kaunting pakiramdam para sa kung ano talaga sa ilalim ng hood. At sa pamamagitan nito ay ibibigay ko ang aking mahal na kasamahan, si Dr. Robin Bloor at idadagdag niya sa maliit na paglalakbay na iyon. Robin, ilayo mo na.

Robin Bloor: Well, salamat. Okay, well since naawit ni Dez ang kanta ng mainframe, dapat kong isipin kung ano ang inaakala kong nangyayari sa mga tuntunin ng dating mainframe world at ang bagong mundo ng Hadoop. Sa palagay ko ang malaking tanong dito ay, paano mo pinamamahalaan ang lahat ng data na iyon? Hindi sa aking opinyon na ang mainframe ay hinamon sa paggalang sa malaking kakayahan ng data - ang malaking kakayahan ng data ay labis, tulad ng itinuro ni Dez, ito ay lubos na may kakayahang. Sa aktwal na maaari mong ilagay ang mga kumpol ng Hadoop dito. Kung saan ito ay hinamon ay sa mga tuntunin ng ekosistema nito at gugustuhin ko itong ipaliwanag.

Narito ang ilang pagpoposisyon sa pangunahing papel. Ito ay may mataas na gastos sa pagpasok at kung ano ang tunay na nangyari sa nakaraan, mula noong kalagitnaan ng '90s nang magsimulang lumubog ang kasikatan ng mga mainframes, ito ay may posibilidad na mawala ang mababang dulo nito, ang mga taong bumili ng murang mga pangunahing papel at ito ay Talagang partikular na pang-ekonomiya para sa mga taong iyon. Ngunit mas mataas na talaga sa mid-range at high-range ng mainframe na ito pa rin talaga, at demonstrably talaga ay, hindi mapaniniwalaan o kapani-paniwalang murang computing.

Ito ay, dapat itong sabihin, nailigtas ng Linux dahil ipinatupad ang Linux sa isang mainframe na posible syempre patakbuhin ang lahat ng mga aplikasyon ng Linux. Ang isang maraming mga aplikasyon ng Linux ay pumunta doon bago ang malaking data ay kahit isang salita, o dalawang salita na akala ko. Ito ay talagang isang mahusay na platform para sa pribadong ulap. Dahil dito maaari itong lumahok sa mga hybrid na paglawak ng ulap. Ang isa sa mga problema ay ang mga kasanayan sa mainframe ay sa maikling supply. Ang mga pangunahing kasanayan sa keyframe na umiiral ay talagang pag-iipon sa kamalayan na ang mga tao ay umalis sa industriya para sa pagretiro taon-taon at sila ay pinapalitan lamang sa mga tuntunin ng bilang ng mga tao. Kaya iyan ay isang isyu. Ngunit ito pa rin ang murang computing.

Ang lugar kung saan hinamon siyempre ay ang buong bagay na Hadoop na ito. Iyon ay isang larawan ng Doug Cutting na may orihinal na elepante ng Hadoop. Ang Hadoop ecosystem ay - at ito ay mananatili - ang nangingibabaw na malaking ekosistema ng data. Nag-aalok ito ng mas mahusay na scale kaysa sa mainframe ay maaaring makamit at mas mababa ang gastos bilang isang data store sa pamamagitan ng isang mahabang paraan. Ang Hadoop ecosystem ay umuusbong. Ang pinakamahusay na paraan ng pag-iisip tungkol dito ay isang beses na isang partikular na platform ng hardware at ang operating environment kasama nito ay nagiging nangingibabaw, kung gayon ang ecosystem ay mabubuhay lamang. At nangyari iyon sa pangunahing papel ng IBM. Kaya, kalaunan ay nangyari sa Digital VAX, nangyari sa mga server ng Sun, nangyari sa Windows, nangyari sa Linux.

At ang nangyari ay ang Hadoop, na lagi kong iniisip, o nais na isipin, bilang isang uri ng ipinamamahaging kapaligiran para sa data, ang ekosistema ay umuusbong sa isang hindi kapani-paniwala na rate. Ibig kong sabihin kung banggitin mo lamang ang iba't ibang mga kahanga-hangang mga kontribusyon na bukas na mapagkukunan, Spark, Flink, Kafka, Presto, at pagkatapos ay idagdag mo sa ilan sa mga database, ang NoSQL at SQL na mga kakayahan na nakaupo ngayon sa Hadoop. Ang Hadoop ay ang pinaka-aktibong ekosistema na aktwal na umiiral doon, tiyak sa corporate computing. Ngunit kung nais mong gamutin ito bilang isang database, hindi lamang ito nagkakaroon ng anumang paghahambing sa sandaling ito kung ano ang madalas kong isipin bilang mga tunay na database, lalo na sa puwang ng bodega ng data. At ipinapaliwanag nito sa isang tiyak na lawak ang tagumpay ng isang bilang ng mga malalaking database ng NoSQL na hindi tumatakbo sa Hadoop tulad ng CouchDB at iba pa.

Bilang isang lawa ng data na ito ay may isang mas mayamang ecosystem kaysa sa anumang iba pang platform at hindi ito maiiwanan mula doon. Ang ecosystem nito ay hindi lamang ang open-source ecosystem. Mayroon na ngayong isang dramatikong bilang ng mga miyembro ng software na may mga produkto na panimulang itinayo para sa Hadoop o na-import sa Hadoop. At nilikha lamang nila ang isang ekosistema na walang anumang maaaring makipagkumpitensya sa mga tuntunin ng saklaw nito. At nangangahulugang ito ay naging platform para sa malaking pagbabago ng data. Ngunit sa palagay ko hindi pa rin immature at maaari naming magkaroon ng mahabang talakayan tungkol sa kung ano at hindi, sabihin natin, na tumatakbo na matanda sa Hadoop ngunit sa palagay ko ang karamihan sa mga tao na tumitingin sa partikular na lugar na ito ay alam na ang Hadoop ay mga dekada sa likod ng mainframe sa mga tuntunin ng kakayahan sa pagpapatakbo.

Ang umuusbong na lawa ng data. Ang data lake ay isang platform sa pamamagitan ng anumang kahulugan at kung sa tingin mo ay mayroong isang layer ng data sa corporate computing ngayon ay napakadali na isipin ito sa mga tuntunin ng mga nakapirming database kasama ang data lake na bumubuo sa data layer. Ang mga aplikasyon ng data lake ay marami at iba-iba. Mayroon akong isang diagram dito na napupunta lamang sa iba't ibang data na nagaganyak na mga bagay na kailangang gawin kung gumamit ka ng Hadoop bilang isang lugar ng dula o Hadoop at Spark bilang isang lugar ng dula. At nakuha mo na ang buong bagay - ang linya ng data, paglilinis ng data, pamamahala ng metadata, pagtuklas ng metadata - maaari itong magamit para sa ETL mismo ngunit madalas na nangangailangan ng ETL na dalhin ang data sa Pamamahala ng data ng master, mga kahulugan ng negosyo ng data, pamamahala ng serbisyo ng kung ano ang nangyayari sa Hadoop, pamamahala ng siklo ng buhay ng data, at ETL sa labas ng Hadoop, at mayroon ka ring direktang mga aplikasyon ng analytics na maaari mong patakbuhin sa Hadoop.

At iyon ang dahilan kung bakit ito ay naging napakalakas at kung saan matagumpay itong naipatupad at naipatupad, normal na mayroon itong kahit isang koleksyon ng mga ganitong uri ng application na tumatakbo sa tuktok nito. At ang karamihan sa mga application na iyon, lalo na ang mga na-briefed ko tungkol sa kanila, hindi lamang sila magagamit sa mainframe ngayon. Ngunit maaari mong patakbuhin ang mga ito sa mainframe, sa isang kumpol ng Hadoop na tumatakbo sa isang partisyon ng mainframe.

Ang lawa ng data ay nagiging, sa aking palagay, ang likas na lugar ng pagtatanghal para sa mabilis na database ng analytics at para sa BI. Ito ay nagiging lugar kung saan mo kukuha ng data, maging data man ito o panlabas na data, gulo ito hanggang sa, sabihin natin, sapat na malinis upang magamit at maayos na gagamitin at pagkatapos ay ipasa mo ito. At ang lahat ng ito ay nasa pagkabata pa lamang.

Ang ideya, sa palagay ko, ng paksang pagkakasama ng mainframe / Hadoop, ang unang bagay ay ang mga malalaking kumpanya ay hindi malamang na iwanan ang mainframe. Sa katunayan, ang mga indikasyon na nakita ko kamakailan ay nagpapahiwatig na mayroong pagtaas ng pamumuhunan sa mainframe. Ngunit hindi rin nila papansinin ang Hadoop ecosystem. Nakikita ko ang mga numero ng 60 porsyento ng mga malalaking kumpanya na gumagamit ng Hadoop kahit na ang marami sa kanila ay talagang prototyping at eksperimento lamang.

Ang conundrum pagkatapos ay, "Paano mo gagawin ang dalawang bagay na magkakasamang ito?" Dahil kakailanganin nilang magbahagi ng data. Ang data na dinala sa lawa ng data na kailangan nila upang ilipat sa mainframe. Ang data na nasa mainframe ay maaaring kailanganin na pumunta sa data lake o sa pamamagitan ng data lake upang makisali sa iba pang data. At mangyayari iyon. At nangangahulugan ito na nangangailangan ng mabilis na paglilipat ng data / kakayahan ng ETL. Hindi malamang na ang mga naglo-load ng trabaho ay maibabahagi nang pabago-bago, sabihin natin, isang mainframe na kapaligiran o may isang bagay sa isang kapaligiran ng Hadoop. Ito ay magiging data na ibinahagi. At ang karamihan ng data ay hindi maiiwasang pagpunta sa Hadoop dahil lamang ito ang pinakamababang-gastos na platform para dito. At ang pagproseso ng end-to-end na pagproseso ay maaaring manirahan din doon.

Sa buod, sa huli kailangan nating mag-isip sa mga tuntunin ng isang layer ng data ng korporasyon, na para sa maraming mga kumpanya ay isasama ang mainframe. At ang layer ng data ay kailangang ma-pinamamahalaang maagap. Kung hindi man ang dalawa ay hindi magkakasamang magkakasama. Maipasa ko ang bola sa iyo Eric.

Eric Kavanagh: Muli, Tendü ginawa ko lang sa iyo ang nagtatanghal, kaya ilabas mo ito.

Tendü Yogurtçu: Salamat, Eric. Salamat sa pagkakaroon ko. Kumusta, lahat. Sasabihin ko ang tungkol sa karanasan ng Syncsort sa mga customer na may kaugnayan sa kung paano namin nakikita ang data bilang isang pag-aari sa samahan ay na-level mula sa mainframe hanggang sa malaking data sa mga platform ng analytics. At inaasahan kong magkakaroon din tayo ng oras sa pagtatapos ng session upang magkaroon ng mga katanungan mula sa madla dahil iyon talaga ang pinakamahalagang bahagi ng mga webcasts na ito.

Para lamang sa mga taong hindi alam kung ano ang ginagawa ng Syncsort, ang Syncsort ay isang kumpanya ng software. Kami ay nasa paligid ng higit sa 40 taon. Nagsimula sa mainframe side at ang aming mga produkto ay sumasaklaw mula sa mainframe hanggang Unix hanggang sa malaking platform ng data, kasama ang Hadoop, Spark, Splunk, kapwa sa premise at sa ulap. Ang aming pokus ay palaging nasa mga produkto ng data, pagproseso ng data at mga produkto ng pagsasama ng data.

Ang aming diskarte na may paggalang sa malaking data at ang Hadoop ay talagang naging bahagi ng ekosistema mula noong araw. Bilang mga nagmamay-ari ng mga nagtitinda na talagang nakatuon sa pagproseso ng data na may napaka magaan na makina na naisip namin na mayroong isang malaking pagkakataon na lumahok sa Hadoop na maging isang platform sa pagproseso ng data at maging bahagi ng susunod na henerasyon na arkitektura ng data ng bodega para sa samahan. Kami ay naging isang tagapag-ambag sa bukas na mapagkukunan ng mga proyekto ng Apache mula noong 2011, na nagsisimula sa MapReduce. Nasa tuktok na sampung para sa Hadoop Bersyon 2, at lumahok talaga sa maraming mga proyekto kabilang din ang mga pakete ng Spark, ang ilan sa aming mga konektor ay nai-publish sa mga pakete ng Spark.

Pinakinabangan namin ang aming napaka magaan na data sa pagpoproseso ng data na kung saan ay ganap na flat-file-based na metadata, at umupo nang maayos sa mga ipinamamahaging file system tulad ng Hadoop na ipinamamahaging File System. At nagamit namin ang aming pamana sa mainframe, ang aming kadalubhasaan sa mga algorithm habang inilalabas namin ang aming malaking mga produkto ng data. At kami ay kasosyo nang malapit sa mga pangunahing nagtitinda, pangunahing mga manlalaro dito kasama ang Hortonworks, Cloudera, MapR, Splunk. Kamakailan ay inihayag ng Hortonworks na ibebenta nila ang aming produkto para sa pagsakay sa ETL kasama ang Hadoop. Sa Dell at Cloudera mayroon kaming isang malapit na pakikipagsosyo na nagbebenta din ng aming produkto ng ETL bilang bahagi ng kanilang malaking data appliance. At sa Splunk talaga, inilalathala namin ang isang pangunahing papel ng telemetry at data ng seguridad sa mga Splash dashboards. Mayroon kaming isang malapit na pakikipagtulungan.

Ano ang nasa isip ng bawat executive ng C-level? Ito talaga, "Paano ko mai-tap ang aking mga ari-arian ng data?" Lahat ng tao ay pinag-uusapan ang malaking data. Lahat ng tao ay pinag-uusapan tungkol sa Hadoop, Spark, ang susunod na platform ng computer na maaaring makatulong sa akin na lumikha ng liksi ng negosyo at magbukas ng mga bagong aplikasyon ng pagbabagong-anyo. Mga bagong pagkakataon sa go-to-market. Ang bawat solong ehekutibo ay nag-iisip, "Ano ang aking diskarte sa data, ano ang inisyatibo ng aking data, at paano ko masisiguro na hindi ako mananatili sa likuran ng aking kumpetisyon, at ako ay nasa merkado pa rin sa susunod na tatlong taon?" Kami tingnan ito habang nakikipag-usap kami sa aming mga customer, habang nakikipag-usap kami sa aming pandaigdigang base ng customer, na medyo malaki, tulad ng maiisip mo, dahil matagal-tagal kami.

Habang nakikipag-usap kami sa lahat ng mga samahang ito nakita din namin ito sa pag-istilo ng teknolohiya sa pagkagambala na nangyari sa Hadoop. Ito ay talagang upang masiyahan ang kahilingan na ito tungkol sa data bilang isang pag-aari. Pag-agaw sa lahat ng mga data assets ng isang samahan. At nakita namin ang arkitektura ng data ng bodega ng negosyo ay nagbabago na ang Hadoop ngayon ay ang bagong sentro ng modernong arkitektura ng data. At ang karamihan sa aming mga customer, alinman sa mga serbisyo sa pananalapi, ito ay seguro, ang telco ng tingi, ang mga pagkukusa ay karaniwang alinman mahahanap natin na ang Hadoop bilang isang serbisyo o data bilang isang serbisyo. Sapagkat sinisikap ng lahat na magamit ang mga assets ng data para sa alinman sa kanilang mga panlabas na kliyente o panloob na kliyente. At sa ilang mga samahan na nakikita namin ang mga inisyatibo tulad ng halos isang merkado ng data para sa kanilang mga kliyente.

At isa sa mga unang hakbang na nakamit na ang lahat mula sa paglikha ng isang data hub ng negosyo. Minsan tatawagin ito ng mga tao ng isang lawa ng data. Ang paglikha ng data ng hub ng enterprise na ito ay talagang hindi ganoon kadalas sa tunog dahil talagang nangangailangan ito ng pag-access at pagkolekta ng halos anumang data sa negosyo. At ang data na ngayon ay mula sa lahat ng mga bagong mapagkukunan tulad ng mga mobile sensor pati na rin ang mga database ng legacy at ito ay nasa batch mode at sa streaming mode. Ang pagsasama ng data ay palaging isang hamon, gayunpaman, kasama ang bilang at iba't-ibang mga mapagkukunan ng data at iba't ibang mga istilo ng paghahatid, maging batch o streaming real-time na ito, kahit na mas mahirap na ngayon kumpara sa limang taon na ang nakaraan, sampung taon na ang nakalilipas. Minsan tinutukoy namin ito bilang, "Hindi na ETL ang iyong ama."

Kaya pinag-uusapan namin ang iba't ibang mga assets ng data. Tulad ng sinusubukan ng mga negosyo na magkaroon ng kahulugan ng bagong data, ang data na kinokolekta nila mula sa mga mobile device, kung ang mga sensor sa isang tagagawa ng kotse o ito ay ang data ng gumagamit para sa isang kumpanya ng mobile gaming, madalas na kailangan nilang i-refer ang pinaka kritikal na mga assets ng data sa ang negosyo, na impormasyon ng customer, halimbawa. Ang mga pinaka kritikal na mga ari-arian ng data ay madalas na nakatira sa pangunahing papel. Ang pagwawasto ng data ng pangunahing papel sa mga umuusbong na bagong mapagkukunan, na nakolekta sa ulap, na nakolekta sa pamamagitan ng mobile, na nakolekta sa linya ng pagmamanupaktura ng isang kumpanya ng kotse ng Hapon, o internet ng mga bagay na aplikasyon, ay dapat magkaroon ng kahulugan sa bagong data na ito sa pamamagitan ng pagtukoy sa kanilang mga set ng data ng legacy. At ang mga set ng data ng legacy ay madalas sa mainframe.

At kung ang mga kumpanyang ito ay hindi magagawa, hindi magagawang mag-tap sa mainframe data pagkatapos mayroong isang napalampas na pagkakataon. Pagkatapos ang data bilang isang serbisyo, o pag-agaw sa lahat ng data ng negosyo ay hindi talagang pag-tap sa mga pinaka kritikal na mga pag-aari sa samahan. Nariyan din ang bahagi ng telemetry at seguridad ng data dahil halos lahat ng mga transactional data ay nakatira sa mainframe.

Isipin na pupunta ka sa isang ATM, sa palagay ko ang isa sa mga dadalo ay nagpadala ng isang mensahe sa mga kalahok dito para sa pagprotekta sa sistema ng pagbabangko, kapag ipinapako mo ang iyong card na ang data ng transactional ay medyo sa buong mundo sa mainframe. At ang pag-secure at pagkolekta ng data ng seguridad at data ng telemetry mula sa mga mainframes at paggawa ng mga magagamit sa pamamagitan ng alinman sa mga Splash dashboard o iba pa, ang Spark, SQL, ay nagiging mas kritikal ngayon kaysa dati, dahil sa dami ng data at iba't-ibang data.

Ang mga hanay ng kasanayan ay isa sa mga pinakamalaking hamon. Dahil sa isang banda mayroon kang mabilis na pagbabago ng malaking data stack, hindi mo alam kung aling proyekto ang makakaligtas, kung aling proyekto ang hindi makakaligtas, dapat ba akong umarkila ng mga developer ng Hive o Baboy? Dapat ba akong mamuhunan sa MapReduce o Spark? O sa susunod na bagay, Flink, isang tao ang nagsabi. Dapat ba akong mamuhunan sa isa sa mga platform ng computer na ito? Sa isang banda, ang pagsunod sa mabilis na pagbabago ng ecosystem ay isang hamon, at sa kabilang banda mayroon kang mga mapagkukunan ng data ng legacy. Ang mga bagong set ng kasanayan ay hindi talagang tugma at maaaring magkaroon ka ng isang isyu dahil ang mga mapagkukunang iyon ay maaaring talagang magretiro. Mayroong isang malaking puwang sa mga tuntunin ng mga hanay ng kasanayan ng mga tao na nauunawaan ang mga stack ng data ng legacy at nauunawaan ang lumilitaw na stack ng teknolohiya.

Ang pangalawang hamon ay ang pamamahala. Kapag na-access mo talaga ang lahat ng data ng negosyo sa mga platform, mayroon kaming mga customer na nagtaas ng mga alalahanin na, "Hindi ko nais na mapunta ang aking data. Hindi ko nais na makopya ang aking data sa maraming lugar dahil nais kong maiwasan ang maraming mga kopya hangga't maaari. Nais kong magkaroon ng pag-access sa dulo nang walang pag-landing sa gitna doon. "Ang pamamahala ng data na ito ay nagiging isang hamon. At ang iba pang piraso ay kung na-access mo ang data na mga bottlenecks, kung nakolekta mo ang karamihan ng iyong data sa ulap at mai-access at tinukoy ang data ng legacy, ang bandwidth ng network ay nagiging isang isyu, isang platform ng kumpol. Maraming mga hamon sa mga tuntunin ng pagkakaroon ng malaking pagkukusa ng data na ito at mga advanced na platform ng analytics at pag-agaw ng lahat ng data ng enterprise.

Ang inaalok ng Syncsort ay, tinutukoy tayo bilang "simpleng ang pinakamahusay" hindi dahil kami lamang ang pinakamahusay na ngunit ang aming mga customer ay talagang tinutukoy sa amin bilang simpleng ang pinakamahusay sa pag-access at pagsasama ng data ng mainframe. Sinusuportahan namin ang lahat ng mga format ng data mula sa mainframe at ginagawa itong magagamit para sa malaking analytics ng data. Nasa Hadoop man o Spark o sa susunod na computer platform. Dahil ang aming mga produkto ay talagang insulate ang pagiging kumplikado ng platform ng computer. Ikaw, bilang isang developer, ay potensyal na umuunlad sa isang laptop, na nakatuon sa pipeline ng data at kung ano ang mga paghahanda ng data, ang mga hakbang upang gawin ang data na ito na nilikha para sa analytics, sa susunod na yugto, at gawin ang parehong aplikasyon sa MapReduce o gawin iyon parehong application sa paligid sa Spark.

Tinulungan namin ang aming mga customer na gawin iyon kapag magagamit ang YARN at kinailangan nilang ilipat ang kanilang mga aplikasyon mula sa MapReduce na bersyon 1 hanggang sa PAG-ARAL. Tinutulungan namin silang gawin ang parehong sa Apache Spark. Ang aming produkto, ang bagong release 9 ay tumatakbo kasama ang Spark pati na rin at mga barko na may isang dinamikong pag-optimize na insulate ang mga application na ito para sa mga frameworks ng computer sa hinaharap.

Kaya mayroon kaming pag-access sa data ng mainframe, kung ito ay mga file ng VSAM, kung ito ay DB2, o kung ito ay data ng telemetry, tulad ng mga tala sa SMF o Log4j o syslog, na kailangang ma-visualize sa pamamagitan ng mga Splunk dashboards. At habang ginagawa iyon, dahil maaaring magamit ng samahan ang kanilang umiiral na data engineer o mga set ng kasanayan sa ETL, ang pagbuo ng oras ay makabuluhang nabawasan. Sa katunayan kasama sina Dell at Cloudera, mayroong isang independiyenteng benchmark na na-sponsor, at ang benchmark na nakatuon sa oras ng pag-unlad ay kinakailangan kung gumagawa ka ng coding ng kamay o gumagamit ng iba pang mga tool tulad ng Syncsort, at ito ay halos 60, 70 porsyento na pagbawas sa oras ng pag-unlad . Ang pag-brid ng kasanayan ay nagtatakda ng agwat sa mga pangkat, sa mga nagho-host ng data file, at pati na rin ang mga nag-host ng data file sa mga tuntunin ng mga tao.

Karaniwan ang malaking koponan ng data, o ang data ingest team, o ang koponan na inatasang bumuo ng data na ito bilang isang arkitektura ng serbisyo, hindi kinakailangang makipag-usap sa koponan ng mainframe. Nais nilang bawasan ang pakikipag-ugnay na iyon sa halos lahat ng mga samahan. Sa pamamagitan ng pagsasara ng puwang na iyon ay advanced na kami. At ang pinakamahalagang bahagi ay ang pag-secure ng buong proseso. Dahil sa negosyo kapag nakikipag-ugnayan ka sa ganitong uri ng sensitibong data maraming mga kinakailangan.

Sa lubos na kinokontrol na mga industriya tulad ng seguro at pagbabangko itanong ng aming mga customer, sinabi nila, "Nag-aalok ka ng access sa data na ito ng mainframe at mahusay iyon. Maaari mo bang ihandog sa akin ang paggawa ng format na record na naka-encode na EBCDIC na iniingatan sa orihinal nitong format upang masisiyahan ko ang aking mga kinakailangan sa pag-audit? Maaari mong panatilihin ang data sa orihinal na format ng record nito, gawin ang iyong pagproseso at antas ng platform ng computer na namamahagi at kung kailangan mong ibalik na maaari mong ipakita ang tala ay hindi nabago at ang format ng record ay hindi nabago, maaari kang sumunod sa mga kinakailangan sa regulasyon .

At karamihan sa mga samahan, habang nililikha nila ang data hub o data lake, sinusubukan din nilang gawin ito sa isang solong pag-click upang ma-mapa ang metadata mula sa daan-daang mga scheme sa isang database ng Oracle patungong mga talahanayan ng Hive o mga file ng ORC o Parquet nagiging kinakailangan. Nagpapadala kami ng mga tool at nagbibigay kami ng mga tool upang gawin itong isang hakbang na pag-access ng data, mga job-auto-generating o ang kilusan ng data, at mga job na bumubuo ng auto upang makagawa ang data ng pagmamapa.

Napag-usapan namin ang bahagi ng koneksyon, pagsunod, pamamahala at pagproseso ng data. At ang aming mga produkto ay magagamit pareho sa premise at sa ulap, na ginagawang napaka-simple dahil ang mga kumpanya ay hindi kailangang mag-isip tungkol sa kung ano ang mangyayari sa susunod na taon o dalawa kung magpasya kong pumunta nang buo sa pampublikong ulap kumpara sa hybrid kapaligiran, tulad ng ilan sa mga kumpol ay maaaring tumatakbo sa saligan o sa ulap. At ang aming mga produkto ay magagamit pareho sa Amazon Marketplace, sa EC2, Elastic MapReduce at din sa isang lalagyan ng Docker.

Lamang sa uri ng balot, kaya't mayroon kaming sapat na oras para sa Q&A, talagang tungkol sa pag-access, pagsasama at pagsunod sa pamamahala ng data, gayon pa man ginagawa ang lahat ng ito mas simple. At habang ginagawa itong mas simple, "magdisenyo ng isang beses at maglagay ng kahit saan" sa isang tunay na kahulugan dahil sa aming bukas na mapagkukunan ng kontribusyon ang aming produkto ay tumatakbo nang katutubong sa daloy ng data ng Hadoop at katutubong sa Spark, pinipilit ang mga samahan mula sa mabilis na pagbabago ng ekosistema. At ang pagbibigay ng isang solong pipeline ng data, isang solong interface, kapwa para sa batch at streaming.

At nakakatulong din ito sa mga organisasyon kung minsan suriin ang mga balangkas na ito, dahil baka gusto mong lumikha mismo ng mga aplikasyon at tumakbo lamang sa MapReduce kumpara sa Spark at makita para sa iyong sarili, oo, ang Spark ay may pangakong ito at nagbibigay ng lahat ng advance sa mga iterative algorithm na gumagana para sa pinakamahusay na pag-aaral ng makina. at ang mga mapaghulaang aplikasyon ng analytics ay gumagana kasama ang Spark, maaari ba akong magawa ang aking mga streaming at batch workload na nagawa sa balangkas ng computer na ito? Maaari mong subukan ang iba't ibang mga platform ng computer gamit ang aming mga produkto. At ang pabago-bagong pag-optimize kung nagpapatakbo ka sa isang mapag-isa na server, sa iyong laptop, sa Google Cloud kumpara sa Apache Spark, ay talagang isang malaking panukala sa halaga para sa aming mga customer. At talagang hinihimok ito ng mga hamon na naranasan nila.

Saklaw ko lamang ang isa sa mga pag-aaral sa kaso. Ito ang Guardian Life Insurance Company. At ang inisyatibo ng Guardian ay talagang isentro ang kanilang mga ari-arian ng data at gawing magagamit para sa kanilang mga kliyente, bawasan ang oras ng paghahanda ng data at sinabi nila na ang lahat ay nag-uusap tungkol sa paghahanda ng data na kumukuha ng 80 porsiyento ng pangkalahatang pipeline ng pagproseso ng data at sinabi nila na sa katunayan ay kinukuha ang tungkol 75 hanggang 80 porsyento para sa kanila at nais nilang bawasan ang paghahanda ng data, oras ng pagbabago, oras-sa-merkado para sa mga proyekto ng analytics. Lumikha ng kakayahang iyon habang nagdaragdag sila ng mga bagong mapagkukunan ng data. At gawin ang magagamit na sentralisadong pag-access ng data para sa lahat ng kanilang mga kliyente.

Ang kanilang solusyon, kasama ang mga produkto ng Syncsort, ngayon ay mayroon silang isang merkado ng data ng lookalike ng data ng Amazon Marketplace na suportado ng isang lawa ng data, na karaniwang Hadoop, at database ng NoSQL. At ginagamit nila ang aming mga produkto upang dalhin ang lahat ng mga ari-arian ng data sa lawa ng data, kabilang ang DB2 sa mainframe, kasama ang mga file ng VSAM sa mainframe, at ang mga mapagkukunan ng data ng pamana ng database pati na rin ang mga bagong mapagkukunan ng data. At bilang isang resulta na isinaayos nila ang mga magagamit na data assets na mahahanap, maa-access at magagamit sa kanilang mga kliyente. At talagang nagdagdag sila ng mga bagong mapagkukunan ng data at serbisyo sa kanilang mga kliyente na mas mabilis at mas mahusay kaysa sa dati. At ang mga inisyatibo ng analytics ay mas umuunlad din sa mahuhulaan na bahagi din. Kaya i-pause ko at inaasahan kong ito ay kapaki-pakinabang at kung mayroon kang anumang mga katanungan para sa akin ng alinman sa mga kaugnay na paksa mangyaring, malugod ka.

Eric Kavanagh: Oo, at Tendü, magtatapon lang ako ng isa. Nakakuha ako ng puna mula sa isang miyembro ng tagapakinig na nagsasabing, "Gusto ko ang 'disenyo na ito minsan, maglagay ng kahit saan.'" Maaari ka bang maghukay kung paano ito totoo? Ibig kong sabihin, ano ang nagawa mo upang paganahin ang ganitong uri ng liksi at mayroon bang anumang buwis? Tulad ng kapag pinag-uusapan natin ang tungkol sa virtualization, halimbawa, palaging may kaunting buwis sa pagganap. Ang ilang mga tao ay nagsabi ng dalawang porsyento, limang porsyento 10 porsyento. Ano ang nagawa mo upang paganahin ang disenyo ng isang beses, i-deploy kahit saan - paano mo ito gagawin at mayroong anumang buwis na nauugnay dito sa mga tuntunin ng pagganap?

Tendü Yogurtçu: Oo naman, salamat. Hindi, dahil hindi tulad ng ilan sa iba pang mga nagtitinda hindi kami talagang gumawa ng Hive o Pig o ilang iba pang code na hindi katutubong sa aming mga makina. Narito kung saan ang aming mga open-source na kontribusyon ay gumaganap ng isang malaking papel, dahil kami ay nagtatrabaho sa mga vendor ng Hadoop, Cloudera, Hortonworks at MapR at dahil sa aming mga open-source na kontribusyon, ang aming engine sa katunayan ay tumatakbo nang katutubong bilang bahagi ng daloy, bilang bahagi ng daloy ng Hadoop, bilang bahagi ng Spark.

Ano ang isasalin din, mayroon kaming ito dinamikong pag-optimize. Ito ay isang bagay na dumating bilang isang resulta ng aming mga customer na hinamon sa mga computer frameworks. Habang nagsasagawa sila ng produksiyon kasama ang ilan sa mga aplikasyon, bumalik sila, sinabi nila, "Pinapanatili ko lamang ang aking Hadoop na kumpol, nagpapatatag sa MapReduce YARN Bersyon 2, MapReduce Bersyon 2, at pinag-uusapan ng mga tao na patay na ang MapReduce, Spark ay ang susunod na bagay, at ang ilang mga tao ay nagsasabi na ang Flink ang susunod na bagay, paano ko ito malalampasan? "

At ang mga hamong iyon ay talagang naging malinaw sa amin, namuhunan kami sa pagkakaroon ng pabago-bagong pag-optimize na tinutukoy namin bilang matalinong pagpapatupad. Sa oras ng pagtakbo, kapag ang trabaho, kapag ang data pipeline na ito ay isinumite, batay sa kumpol, Spark man, kung ito ay MapReduce o isang Linux na standalone server, nagpapasya kami kung paano patakbuhin ang trabahong ito, na katutubong sa aming makina, bilang bahagi nito Ang daloy ng data ng Hadoop o Spark. Walang overhead dahil ang lahat ay tapos na sa pamamagitan ng dinamikong pag-optimize na mayroon kami at ang lahat ay nagawa din dahil ang aming makina ay napaka-katutubong isinama dahil sa aming mga open-source na kontribusyon. Sinasagot ba nito ang iyong katanungan?

Eric Kavanagh: Oo, mabuti iyon. At nais kong itapon ang isa pang tanong doon, at pagkatapos ay Dez, baka hilahin ka rin namin at si Robin din. Nakakuha lang ako ng isang masayang-maingay na komento mula sa isa sa aming mga dadalo. Babasahin ko ito dahil medyo pithy talaga. Sinusulat niya, "Tila na sa kasaysayan ng mga bagay na HOT" - kunin ito? Tulad ng IoT - "ay na mas sinusubukan mong 'gawing simple' ang isang bagay na talagang kumplikado, mas madalas kaysa sa hindi mas simple na lumilitaw na gawin ang mga bagay, ang higit pang nakabitin na lubid ang ibinibigay. Mag-isip ng query sa database, pagsabog, multi-threading, atbp. ”Maaari mo bang uri ng puna sa kabalayang ito na tinutukoy niya? Ang pagiging simple kumpara sa pagiging kumplikado, at talaga kung ano talaga ang nangyayari sa ilalim ng mga pabalat?

Tendü Yogurtçu: Oo naman. Sa palagay ko iyon ay isang napaka-wastong punto. Kapag pinapasimple mo ang mga bagay at ginagawa ang mga pag-optimize na ito, sa isang paraan sa ilalim ng mga takip, kailangang kunin ng isang tao ang pagiging kumplikado ng kung ano ang kailangang mangyari, di ba? Kung nagpaparalisa ka ng isang bagay o kung nagpapasya ka kung paano magpatakbo ng isang partikular na trabaho na may paggalang sa balangkas ng computer, malinaw na mayroong ilang bahagi ng trabaho na itinutulak kung nasa dulo ng gumagamit, menu coding, o nasa optimization ng engine. Mayroong isang bahagi nito, sa pamamagitan ng pagpapagaan sa karanasan ng gumagamit mayroong isang malaking pakinabang sa mga tuntunin ng kakayahang magamit ang mga set ng kasanayan na umiiral sa enterprise.

At maaari mong uri ng pagwawasak na kabalintunaan, pagaanin ang hamon ng, "Oo, ngunit wala akong kontrol sa lahat ng nangyayari sa ilalim ng takip, sa ilalim ng talukap ng makina na iyon, " sa pamamagitan ng paglalahad ng mga bagay sa mas advanced na mga gumagamit kung sila nais na magkaroon ng ganitong uri ng kontrol. Sa pamamagitan din ng pamumuhunan sa ilang mga uri ng serviceability ng mga bagay. Ang kakayahang mag-alok ng mas maraming metadata ng pagpapatakbo, mas maraming data ng pagpapatakbo, tulad ng halimbawa na ibinigay ng dumalo na ito, para sa isang query sa SQL pati na rin sa pagpapatakbo ng engine. Inaasahan ko na ang mga sagot.

Eric Kavanagh: Oo maganda ang tunog. Dez, ilabas mo na.

Dez Blanchfield: Nais kong masigasig na makakuha ng kaunting pag-unawa sa iyong yapak sa bukas na mapagkukunan at ang paglalakbay na iyong nakuha mula sa iyong tradisyonal, matagal nang karanasan sa mainframe at sa pagmamay-ari ng mundo at pagkatapos ay ang paglipat sa nag-aambag sa bukas na mapagkukunan at kung paano naganap. At ang iba pang bagay na gusto kong maunawaan ay ang pananaw na nakikita mo na ang mga negosyo, hindi lamang departamento ng IT, ngunit ang mga negosyo ay tinutukoy ngayon ang mga hubs ng data o mga lawa ng data tulad ng sinasabi ng mga tao ngayon at kung nakikita nila ang kalakaran na ito ng isang solong, pinagsama-samang data lawa o kung nakikita natin ang mga ipinamamahaging lawa ng data at ang mga tao ay gumagamit ng mga tool upang magkasama?

Tendü Yogurtçu: Oo naman. Para sa una, iyon ay isang napaka-kagiliw-giliw na paglalakbay, bilang isang proprietor software company, isa sa mga una pagkatapos ng IBM. Gayunpaman, muli, ang lahat ay nagsimula sa aming mga customer ng ebanghelista na tumitingin sa Hadoop. Mayroon kaming mga kumpanya ng data tulad ng ComScore, sila ay isa sa mga unang nagpatibay ng Hadoop dahil nakakolekta sila ng mga digital na data sa buong mundo at hindi nakapagtago ng 90 araw ng data maliban kung namuhunan sila ng isang sampung milyong dolyar na bodega ng data ng bodega sa kanilang kapaligiran. Nagsimula silang tumingin kay Hadoop. Sa pagsisimula namin ay tumitingin din sa Hadoop.

At nang gumawa kami ng isang desisyon at kinilala na ang Hadoop ay talagang magiging platform ng data sa hinaharap, nakarating din kami sa pag-unawa na hindi kami magkakaroon ng isang paglalaro sa ito, isang matagumpay na pag-play sa ito, maliban kung kami ay isang bahagi ng ekosistema. At kami ay nagtatrabaho nang malapit sa mga vendor ng Hadoop, kasama ang Cloudera, Hortonworks, MapR, atbp Sinimulan namin ang tunay na pakikipag-usap sa kanila dahil ang pakikipagtulungan ay nagiging napakahalaga upang mapatunayan ang halaga na maaaring dalhin ng isang vendor at tinitiyak din na maaari nating sama-sama na pumunta sa enterprise at mag-alok ng isang bagay na mas makabuluhan. Nangangailangan ito ng maraming ugnayan sa gusali dahil hindi kami kilala sa mga proyektong open-source ng Apache, gayunpaman mayroon kaming malaking suporta mula sa mga nagbebenta ng Hadoop na ito, dapat kong sabihin.

Nagsimula kaming magtulungan at tumitingin sa hub, kung paano namin madadala ang halaga nang walang kahit na ang aming proprietor software sa espasyo. Mahalaga iyon. Ito ay hindi lamang tungkol sa paglalagay ng ilang mga API na maaaring patakbuhin ng iyong produkto, upang sabihin na mamuhunan ako sa ito dahil naniniwala ako na ang Hadoop ay magiging isang platform ng hinaharap, kaya sa pamamagitan ng pamumuhunan sa mga mapagkukunan na nais naming gumawa sigurado na ito ay tumatanda at magiging handa na ang negosyo. Maaari naming talagang paganahin ang ilan sa mga kaso ng paggamit na hindi magagamit bago ang aming mga kontribusyon. Makikinabang ito sa buong ekosistema at maaari nating mapaunlad nang malapit ang mga pakikipagsosyo.

Ito ay tumagal ng maraming oras. Nagsimula kaming mag-ambag noong 2011, at 2013, Enero 21 st - Naaalala ko ang petsa dahil ang petsa na ang aming pinakamalaking kontribusyon ay nakatuon na nangangahulugang maaari na nating makukuha ang aming mga produkto sa pangkalahatang magagamit mula sa puntong iyon - matagal na panahon upang mabuo ang mga relasyon, ipakita ang halaga, ang mga kasosyo ay maging mga kasosyo sa disenyo sa mga nagtitinda at kasama ng mga komite sa bukas na mapagkukunan na komunidad. Ngunit maraming nakakatuwa. Ito ay napaka-rewarding bilang isang kumpanya para sa amin na maging bahagi ng ecosystem na iyon at bumuo ng isang mahusay na pakikipagtulungan.

Ang pangalawang tanong tungkol sa data hub / data lake, sa palagay ko kapag nakita natin ang data na ito bilang isang pagpapatupad ng serbisyo sa karamihan ng mga kaso, oo, maaaring ito ay mga kumpol, pisikal na solong o maraming kumpol, ngunit ito ay higit na konsepto kaysa sa pagiging iisang lugar na iyon para sa lahat ng data. Dahil sa ilang mga organisasyon nakikita namin ang mga malalaking kumpol ng kumpol sa premise, gayunpaman mayroon din silang mga kumpol, halimbawa, sa pampublikong ulap dahil ang ilan sa mga data na nakolekta mula sa mga online na seksyon ay talagang pinananatiling nasa ulap. Nagagawa mong magkaroon ng isang solong pipeline ng data na maaari mong aktwal na pagkilos sa pareho, at gamitin ang mga ito bilang isang solong data hub, solong data lake, ay nagiging mahalaga. Hindi kinakailangan lamang ang pisikal na lugar, ngunit ang pagkakaroon ng data hub at data lawa sa buong kumpol, sa buong geograpiya at marahil sa premise at ulap ay magiging napaka kritikal, sa palagay ko. Lalo na ang pasulong. Sa taong ito sinimulan naming makita ang higit pa at higit pang mga pag-deploy ng ulap. Ang galing. Ang unang kalahati ng taong ito hanggang ngayon ay marami kaming nakitang mga pag-deploy ng ulap.

Eric Kavanagh: Okay, cool. At Robin, mayroon ka bang mga katanungan? Alam kong ilang minuto lang ang naiwan namin.

Robin Bloor: Okay, well pwede ko siyang tanungin. Ang unang bagay na nangyari sa akin ay nagkaroon ng maraming kaguluhan tungkol kay Kafka at interesado ako sa iyong opinyon tungkol kay Kafka at kung paano ka nakasama sa paraan ng paggamit ng mga tao sa Kafka?

Tendü Yogurtçu: Oo naman. Oo, si Kafka ay naging sikat. Kabilang sa aming mga customer nakita namin na ang uri ng layer ng transportasyon ng data at tiningnan na ang data ay isang bus, medyo. Halimbawa, ang isa sa aming mga customer ay tunay na gumagamit ng isang uri ng isang pagkonsumo ng data na itinulak sa Kafka na ito kasama ng maramihang, tulad ng libu-libong mga gumagamit ng online at pag-uri-uriin ito at itulak.

Muli, ang Kafka ay isang data bus sa iba't ibang mga mamimili ng data na ito. Pag-uri-uriin ang ilang mga advanced na gumagamit kumpara sa mga hindi advanced na mga gumagamit at gumawa ng isang bagay na naiiba sa paglipat sa pipeline ng data na iyon. Kung paano namin isama sa Kafka ay talaga, ang aming produkto DMX-h ay nagiging isang maaasahang mamimili, isang lubos na mahusay, maaasahang mamimili para sa Kafka. Maaari itong basahin ang data at hindi ito naiiba kaysa sa pagbabasa ng data mula sa anumang iba pang mapagkukunan ng data para sa amin. Binibigyan namin ang mga gumagamit ng kakayahang kontrolin ang window alinman sa mga tuntunin ng kinakailangan ng oras na mayroon sila o ang bilang ng mga mensahe na maaaring naubos nila mula sa Kafka bus. At pagkatapos ay maaari rin nating gawin ang pagpayaman ng data na iyon habang nangyayari sa aming produkto at itinulak pabalik sa Kafka. Nasubukan namin ito. Nai-benchmark namin ito sa site ng customer. Sertipikado din ng Confluent. Nagtatrabaho kami nang malapit sa Confluent guys at napakataas na gumaganap at madaling gamitin. Muli, doon nagbabago ang mga API ngunit hindi mo kailangang mag-alala dahil ang produkto ay talagang tinatrato na tulad ng isa pang mapagkukunan ng data, isang mapagkukunan ng streaming data. Nakatutuwang magtrabaho sa aming produkto at Kafka, talaga.

Robin Bloor: Okay Mayroon akong isa pang katanungan na kung saan ay uri lamang ng isang pangkalahatang tanong sa negosyo ngunit matagal ko nang nakilala ang Syncsort at palagi kang may reputasyon at naghatid ng napakabilis na mabilis na software para sa ETL at sa pangunahing mundo. Ito ba ang kaso na ang karamihan sa iyong negosyo ay ngayon ay inilipat sa Hadoop? Ito ba ang kaso na sa isang paraan o iba pang uri ng iyong pagkalat ng iyong negosyo sa labas ng kapansin-pansing mula sa pangunahing mundo?

Tendü Yogurtçu: Ang aming mga pangunahing produkto ng produkto ay tumatakbo pa rin ng 50 porsyento ng mga mainframes sa buong mundo. Kaya mayroon kaming isang napakalakas na linya ng produkto ng mainframe bilang karagdagan sa ginagawa namin sa malaking data at sa pagtatapos ng Hadoop. At naroroon pa rin kami sa karamihan ng mga proyekto sa IT pagpapasimple o pag-optimize dahil mayroong isang dulo na nais mong ma-tap ang iyong data ng mainframe sa malaking data Multex platform at pag-gamit ang lahat ng data ng enterprise, gayunpaman mayroon ding napaka kritikal na mga transactional workloads na patuloy pa ring tumatakbo sa mainframe at inaalok namin sa mga customer ang mga paraan upang talagang gawing mas mahusay ang mga application na iyon, patakbuhin sa zIIP engine upang hindi nila ubusin ang mas maraming mga pag-proseso ng mga siklo at MIPS, gawin silang mabisa.

Patuloy kaming namuhunan sa mga produktong mainframe at aktwal na naglalaro sa puwang na ito kung saan nanggagaling ang mga tao mula sa pangunahing sukat na bakal hanggang sa malaking data at sumasaklaw din sa linya ng produkto sa mga platform na iyon. Kaya hindi namin kinakailangang ilipat ang buong negosyo sa isang panig, patuloy kaming may matagumpay na negosyo sa magkabilang panig. At ang mga pagkuha ay isang malaking pokus para sa amin din. Bilang ang pamamahala ng data at puwang sa pagproseso ng data para sa malaking platform ng data ay nagbabago din kami upang makagawa ng kaunting mga komplimentaryong pagkuha.

Robin Bloor: Well hulaan ko na hindi ko maaaring tanungin ka kung ano sila dahil hindi ka papayag na sabihin sa akin. Interesado ako kung nakakita ka ba ng maraming pagpapatupad ng Hadoop o Spark na aktwal sa mainframe o kung ito ay isang bihirang bagay.

Tendü Yogurtçu: Wala kaming nakita. Marami pang katanungan tungkol doon. Sa palagay ko ang Hadoop sa mainframe ay hindi gumawa ng maraming kahulugan dahil sa uri ng pangunahing istraktura. Gayunpaman Spark sa mainframe ay lubos na makabuluhan at ang Spark talaga ay napakahusay sa pag-aaral ng makina at mahuhulaan na analytics at pagkakaroon ng ilan sa mga aplikasyon na may pangunahing datos ng pangunahing datos ay, sa palagay ko, medyo makabuluhan. Hindi pa namin nakita ang sinumang gumagawa nito, gayunpaman ito talaga ang kaso sa paggamit ng mga bagay na ito. Kung ang iyong kaso sa paggamit bilang isang kumpanya ay higit na nagdadala ng pangunahing datos ng data at pagsasama sa natitirang mga set ng data sa malaking platform ng data, iyon ang isang kwento. Kinakailangan nito ang pag-access sa data ng mainframe mula sa malaking platform ng Multex na data dahil hindi ka malamang na dalhin ang iyong mga set ng data mula sa mga bukas na sistema at tinawag muli sa mainframe. Gayunpaman, kung mayroon kang ilang data ng mainframe na nais mong galugarin at gumawa ng kaunting pagtuklas ng data sa paggalugad, mag-apply ng ilang mga advanced na AI at advanced na analytics, kung gayon ang Spark ay maaaring maging isang mahusay na paraan upang pumunta at tumakbo sa mainframe bilang na.

Eric Kavanagh: At narito ang isa pang tanong mula sa madla, talagang dalawa pa. Bibigyan kita ng tanong ng tag-team, pagkatapos ay ibalot namin. Ang isang dadalo ay nagtatanong, "Isinasama ba ng IBM ang iyong bukas na mapagkukunan ng mga kontribusyon sa pampublikong ecosystem ng ulap, sa madaling salita, ang Bluemix?" At isa pang dumalo ang gumawa ng isang mahusay na punto, na binanggit na mahusay ang Syncsort para mapanatiling buhay ang malaking bakal para sa mga taong mayroon na ito, ngunit kung ang mga kumpanya ay nagbigay ng bago sa mga bagong mainframes na pabor sa tinatawag niya na CE, ibagsak ang lahat, na malamang na ito ay tanggihan, ngunit ang mga tala na talagang magaling ka sa paglipat ng data sa pamamagitan ng pag-bypass ng mga operating system hanggang sa isang gigabyte bawat segundo. Maaari ka bang uri ng pag-uusap tungkol sa iyong pangunahing lakas, tulad ng binanggit niya, at kung isinasama ba ng IBM ang iyong mga bagay sa Bluemix?

Tendü Yogurtçu: Sa IBM, kami ay mga kasosyo sa IBM at nagkaroon kami ng mga talakayan para sa kanilang mga serbisyo sa ulap ng data na nag-aalok ng produkto. Bukas ang aming mga kontribusyon sa bukas na mapagkukunan sa lahat na nais na mai-leverage ang mga ito. Ang ilan sa koneksyon sa mainframe ay magagamit din sa mga pakete ng Spark, kaya hindi lamang IBM. Kahit sino ay maaaring mai-gamit ang mga iyon. Sa Bluemix hindi pa namin nagawa ang anumang bagay na partikular. At naisip mo bang ulitin ang pangalawang tanong?

Eric Kavanagh: Oo, ang pangalawang tanong ay tungkol sa iyong pangunahing lugar ng pag-andar sa mga nakaraang taon, na talagang pinangangasiwaan ang mga bottlenecks ng ETL at malinaw naman na isang bagay na ginagawa mo pa rin ang ginagawa bilang mga mainframes, well, theoretically stay away, bagaman Dez's point pa rin ang uri ng tumba at gumulong doon. Ngunit napansin lamang ng dumalo na napakahusay ng Syncsort sa paglipat ng data sa pamamagitan ng pag-bypass ng mga operating system at hanggang sa isang gigabyte sa isang segundo. Pwede mo bang komento tungkol doon?

Tendü Yogurtçu: Oo, na ang pangkalahatang kahusayan ng mapagkukunan ay ang aming lakas at ang scalability at pagganap ay naging aming lakas. Hindi kami kompromiso, gawing simple ang maraming kahulugan, hindi namin kinompromiso mula sa mga iyon. Kapag sinimulan ng mga tao ang pakikipag-usap tungkol sa Hadoop noong 2014, halimbawa, marami sa mga samahan ay hindi talaga tumitingin sa pagganap sa una. Sinabi nila, "Oh, kung may mangyari ay maaari akong magdagdag ng isa pang pares ng mga node at magiging maayos ako, ang pagganap ay hindi ang aking kinakailangan."

Habang pinag-uusapan namin ang pagkakaroon ng pinakamahusay na pagganap dahil tumatakbo na kami nang katutubong, hindi pa kami nagkakaroon ng ilan sa mga paunang hiccup na mayroon si Hive na may maraming mga trabaho at Mapagpapalit na MapReduce sa pagsisimula ng mga ito. Sinasabi sa amin ng mga tao, "Oh, hindi iyon ang aking pag-aalala, huwag magalala tungkol sa ngayon."

Nang dumating kami sa 2015 na ang landscape ay nagbago dahil ang ilan sa aming mga customer ay lumampas sa imbakan na mayroon sila sa kanilang mga kumpol ng produksyon. Ito ay naging napaka kritikal para sa kanila upang makita kung ano ang maaaring mag-alok ng Syncsort. Kung kukuha ka ng ilang data mula sa isang database o mainframe at pagsulat sa isang format ng Parquet sa mga kumpol, mapunta ka ba at entablado at gumawa ng ibang pagbabagong-anyo o gawin lamang ang pagbabagong-anyo ng pagbago at landed na target na format ng file, gumawa ng pagkakaiba-iba dahil nakakatipid ka mula sa imbakan, naka-save ka mula sa bandwidth ng network, nakakatipid ka mula sa workload sa kumpol dahil hindi ka nagpapatakbo ng mga sobrang trabaho. Ang mga lakas na ginampanan natin sa mga tuntunin ng pagiging napaka-malay, naramdaman namin ang kahusayan ng mapagkukunan sa ilalim ng aming balat, tila.

Iyon ay kung paano namin ilarawan ito. Ito ay kritikal para sa atin. Hindi namin ito pinapabayaan. Hindi namin ito pinapabayaan kaya't magpapatuloy kaming maging malakas sa pagkilos na iyon sa Apache Spark o sa susunod na balangkas ng computer. Iyon ay patuloy na magiging aming pokus. At sa mga tuntunin ng piraso ng paggalaw ng data at piraso ng pag-access ng data, tiyak na ito ay isa sa aming mga lakas at ina-access namin ang data ng DB2 o VSAM sa mga mainframes sa konteksto ng Hadoop o Spark.

Eric Kavanagh: Well, iyan ay isang mahusay na paraan upang tapusin ang webcast, folks. Maraming salamat sa iyong oras at atensyon. Salamat sa iyo, Tendü at Syncsort, sa pagpasok sa silid ng pagtataguyod at pagpunta sa pag-ikot, ayon sa sinasabi nila. Ang isang pulutong ng mga mahusay na katanungan mula sa madla. Ito ay isang palaging gumagalaw na kapaligiran doon, mga tao. I-archive namin ang Hot Tech tulad ng ginagawa namin sa lahat ng iba pa. Maaari kang makahanap sa amin sa loobanalysis.com at sa techopedia.com. Karaniwan ito ay umakyat sa halos isang araw. At kasama iyon, kami ay mag-bid sa iyo ng paalam, mga tao. Maraming salamat. Makikipag-usap kami sa iyo sa lalong madaling panahon. Ingat. Paalam.

Malaking bakal, matugunan ang malaking data: palayain ang data ng mainframe na may hadoop at spark