Bahay Mga Databases Ang kapangyarihan ng mungkahi: kung paano ang isang katalogo ng data ay nagbibigay kapangyarihan sa mga analyst

Ang kapangyarihan ng mungkahi: kung paano ang isang katalogo ng data ay nagbibigay kapangyarihan sa mga analyst

Anonim

Sa pamamagitan ng Techopedia Staff, Hunyo 22, 2016

Takeaway: Tatalakayin ni Host Rebecca Jozwiak ang mga pakinabang ng mga katalogo ng data kasama sina Dez Blanchfield, Robin Bloor at David Crawford.

Dapat kang magparehistro para sa kaganapang ito upang matingnan ang video. Magrehistro upang makita ang video.

Rebecca Jozwiak: Mga Babae at mga ginoo, kumusta at maligayang pagdating sa Hot Technologies ng 2016. Ngayon nakuha namin, "Ang Kapangyarihan ng Mungkahi: Paano Ang isang Katalogo ng Data ay Nagpapatunay ng Mga Analyst." Ako ang iyong host na si Rebecca Jozwiak, pinupunan ang aming karaniwang host na si Eric Kavanagh ngayon, habang siya ay naglalakbay sa mundo, kaya salamat sa pagsali sa amin. Mainit ang taong ito, hindi lamang ito mainit sa Texas kung nasaan ako, ngunit mainit ito sa buong lugar. Mayroong pagsabog ng lahat ng mga uri ng mga bagong teknolohiya na lumalabas. Mayroon kaming IoT, streaming data, pag-aampon ng ulap, ang Hadoop ay patuloy na tumanda at pinagtibay. Mayroon kaming automation, pag-aaral ng makina, at lahat ng bagay na ito ay siyempre underline ng data. At ang mga negosyo ay nagiging mas maraming data na hinihimok ng araw. At syempre, ang punto ng iyon ay humantong sa kaalaman, at pagtuklas at, alam mo, gumawa ng mas mahusay na mga pagpapasya. Ngunit upang makuha ang pinakamahalagang halaga mula sa data, kailangang madaling makarating. Kung panatilihin mo itong naka-lock ang layo, o inilibing, o sa utak ng ilang mga tao sa loob ng enterprise, hindi ito magagawa nang mabuti para sa enterprise nang buo.

At ako ay uri ng pag-iisip tungkol sa katalogo ng data at pag-iisip ng kurso ng mga aklatan, kung saan matagal na ang pinuntahan mo kung kailangan mong maghanap ng isang bagay, kung kailangan mong magsaliksik ng isang paksa, o maghanap ng ilang impormasyon, nagpunta ka sa library, at syempre nagpunta ka sa katalogo ng kard, o babaeng alimango na nagtatrabaho doon. Ngunit nakakatuwa din sa uri ng paglibot, kung nais mo lamang tumingin, at sigurado na maaari mo lamang tuklasin ang isang bagay na maayos, maaari mong malaman ang ilang mga kagiliw-giliw na katotohanan na hindi mo alam, ngunit kung talagang kailangan mong makahanap ng isang bagay, at alam mo kung ano ang iyong hinahanap, kailangan mo ang katalogo ng kard, at siyempre ang katumbas ng negosyo ay isang katalogo ng data, na makakatulong sa pag-iilaw ng ilaw sa lahat ng data para sa aming mga gumagamit upang mapayaman, matuklasan, magbahagi, ubusin at talagang makakatulong mas mabilis at madali ang mga tao sa data.

Kaya ngayon nakuha namin si Dez Blanchfield, ang aming sariling data scientist, at mayroon kaming Doctor Robin Bloor, ang aming sariling punong analista, nakuha namin si David Crawford mula sa Alation, na mag-uusap tungkol sa kwento ng pagkakaugnay ng data ng kanyang kumpanya, ngunit una pupunta kami sa pangunguna kay Dez. Dez, ipinapasa ko sa iyo ang bola at ang sahig ay iyo.

Dez Blanchfield: Salamat, salamat sa pagkakaroon ko ngayon. Ito ay isang bagay na labis akong interesado, dahil halos lahat ng samahan na narating ko sa aking pang-araw-araw na gawain, nahanap ko ang eksaktong isyu na napagusapan namin nang maikli tungkol sa pre-show na banter, at iyon ang ang karamihan sa mga samahan na may negosyo nang higit sa isang taon ay may isang maraming data na inilibing sa paligid ng samahan, iba't ibang mga format, at sa katunayan mayroon akong mga kliyente na mayroong mga set ng data na bumalik sa Mga Tala ng Lotus, mga database na nagpapatakbo pa rin sa ilang kaso bilang kanilang pseudo internets, at sila, lahat ay tumatakbo sa hamon na ito ng tunay na paghahanap kung saan ang kanilang data, at kung paano makakuha ng access dito, na magbigay ng access dito, kung kailan magbigay ng pag-access sa kanila, at kung paano makatarungan katalogo, at kung paano makukuha ito sa isang lugar kung saan makakaya ng lahat: A) magkaroon ng kamalayan sa kung ano ang naroroon at kung ano ang nasa loob nito, at B), kung paano makakuha ng access dito at gamitin ito. At ang isa sa mga pinakamalaking hamon ng kurso ay ang paghahanap nito, ang iba pang malaking hamon ay ang alam kung ano ang naroroon at kung paano ma-access ito.

Marahil ay nalalaman ko na mayroon akong dose-dosenang mga database, ngunit hindi ko talaga alam kung ano ang naroroon o kung paano malaman kung ano ang nandoon, at sa gayon ay palagiang natutuklasan natin ngayon sa pre-show na data, malamang maglakad sa paligid ng opisina at magtanong, at sumigaw sa buong cubical pader at subukan at malaman, madalas ang aking karanasan ay, maaari mo ring makita na gumala-gala ka sa harap ng desk, ang pagtanggap, at nagtanong kung may nakakaalam na pupunta ka sa pakikipag-usap. Madalas, hindi palaging ang IT folk dahil hindi nila alam ang set ng data dahil nilikha lamang ito ng isang tao, at maaari itong maging isang bagay na simple bilang isang - madalas na makikita natin ang isang proyekto ng ilang uri na nakatayo sa kapaligiran ng IT at ginamit ng manager ng proyekto ang isang spreadsheet ng lahat ng mga bagay, at nakakuha ito ng maraming napakalaking halaga ng mahalagang impormasyon sa paligid ng mga assets at konteksto at mga pangalan, at maliban kung alam mo ang proyekto na iyon at alam mo ang taong iyon, hindi mo lamang mahahanap ang impormasyong iyon. Hindi ito magagamit, at kailangan mong hawakan ang orihinal na file na iyon.

Mayroong isang parirala na pinaglaruan tungkol sa data at hindi ko dapat sumasang-ayon dito, ngunit sa palagay ko ito ay isang nakatutuwang maliit na pagtapon at iyon ay isang tiyak na halaga ng mga tao na iniisip na ang data ay ang bagong langis, at ako sigurado na sasasakop namin iyon sa ilang aspeto rin, sa ibang araw ngayon. Ngunit ang napansin ko, tiyak na bahagi ng pagbabagong ito, ay ang mga samahan ng mga negosyo na natutunan na pahalagahan ang kanilang data ay nakakuha ng malaking kalamangan sa kanilang mga katunggali.

May isang nakawiwiling papel ng IBM, mga lima o anim na taon na ang nakalilipas, at sinuri nila ang tungkol sa 4, 000 mga kumpanya dito sa Australia, at kinuha nila ang lahat ng impormasyon, lahat ng data ng pagganap, lahat ng data sa pananalapi at pinagsama-sama sa isang kumukulong kaldero at pagkatapos ipinadala ito sa Australian School of Economics, at talagang sinimulan nila ang isang pangkaraniwang kalakaran dito, at iyon ay ang mga kumpanyang nagamit ang teknolohiyang walang tigil na nakakuha ng tulad ng isang kalamangan na kumpetisyon sa kanilang mga kapantay at kakumpitensya bawat se na ang kanilang mga kakumpitensya ay hindi kailanman naabutan, at sa palagay ko napakaraming kaso ngayon sa data na nakita namin ang tinatawag ng mga tao ng isang digital na pagbabagong-anyo kung saan ang mga samahan na malinaw na naiisip kung paano makahanap ng data na nakuha nila, upang magamit ang data na iyon, at gawing magagamit ito sa ilang napakadaling magamit fashion sa organisasyon, nang hindi palaging palaging alam kung bakit kailangan ito ng samahan, at makakuha ng makabuluhang kalamangan sa mga kakumpitensya.

Mayroon akong ilang mga halimbawa sa slide na ito, na maaari mong makita. Ang isa kong linya ay, na ang malaking pagkagambala sa halos lahat ng sektor ng industriya, sa aking pananaw, ay hinihimok ng data, at kung ang mga kasalukuyang uso ay dapat gawin, ang aking pananaw ay talagang nakakuha lamang tayo nagsimula dahil kapag ang mga matagal na tatak sa wakas gisingin kung ano ang ibig sabihin nito at ipasok ang laro, papasok sila sa laro sa pakyawan. Kapag ang uri ng mga pangunahing nagtitingi na may mga bundok ng data ay nagsisimulang mag-aplay ng ilang pagsusuri sa makasaysayang data, kung alam man nila na mayroon ito, kung gayon ang ilan sa mga online na manlalaro ay makakakuha ng kaunting isang tawag sa paggising.

Ngunit sa karamihan ng mga tatak na ito, ang ibig kong sabihin ay nakuha namin si Uber na ang pinakamalaking kumpanya ng taxi sa buong mundo. Wala silang pagmamay-ari ng anumang mga taxi, kaya ano ang gumagawa ng magic sa kanila, ano ang kanilang data? Ang Airbnb, ang pinakamalaking tagabigay ng tirahan, nakuha namin ang WeChat, ang pinakamalaking kumpanya ng telepono sa mundo, ngunit wala silang aktwal na imprastraktura, at walang mga handset, walang mga linya ng telepono. Si Alibaba, ang pinakamalaking nagtitingi sa planeta, ngunit hindi nila pagmamay-ari ang alinman sa imbentaryo. Ang Facebook, ang pinakamalaking kumpanya ng media sa salita. Sa palagay ko sa huling bilang ay mayroon silang 1.4 bilyon na aktibong gumagamit ng data ngayon, na kung saan ay isang numero ng pag-iisip. Ito ay hindi saanman malapit - Sa palagay ko ay may nagsabing isang quarter ng planeta ang talagang naroroon araw-araw, at narito narito ang isang tagabigay ng nilalaman na talagang hindi lumikha ng nilalaman, lahat ng data na kanilang pinaglingkuran ay hindi nilikha ng mga ito, nilikha ito ng kanilang mga tagasuskribi, at alam nating lahat ang modelong ito.

Ang SocietyOne, na maaaring narinig mo o hindi marinig, ito ay isang lokal na tatak, sa palagay ko sa ilang mga bansa ito ay isang bangko na aktwal na gumagawa ng pagpapautang sa peer-to-peer, kaya sa madaling salita, wala itong pera. Ang ginagawa nito ay namamahala sa mga transaksyon at ang data ay nakaupo sa ilalim nito. Netflix, lahat kami, napaka-pamilyar sa na. May isang kawili-wiling isang-liner dito. Kapag ang Netflix ay ligal na magamit sa Australia, kapag ito ay opisyal na inihayag, hindi mo na kailangang gumamit ng VPN upang makarating dito, maraming tao sa buong mundo ang may posibilidad - kung hindi ka makakarating sa iyong lokal na lugar - nang inilunsad ang Netfix sa Australia, nadagdagan nito ang internasyonal na bandwidth sa aming mga link sa internet ng 40 porsyento, kaya halos doble ang paggamit ng internet sa Australia nang magdamag, sa pamamagitan lamang ng isang application, isang application na naka-host sa ulap na walang ginawa kundi maglaro sa data. Ito ay isang istatistika na nakakawala ng pag-iisip.

At syempre, pamilyar kaming lahat sa Apple at Google, ngunit ito ang pinakamalaking negosyo ng software sa planeta, subalit hindi talaga nila isulat ang mga app. Ano ang pare-pareho na bagay sa lahat ng mga samahang ito? Buweno, ito ay data, at hindi sila nakarating doon dahil hindi nila alam kung nasaan ang kanilang data, at hindi nila alam kung paano itala ito.

Ang nahanap namin ngayon ay mayroong ang buong bagong klase ng asset na tinukoy bilang data, at ang mga kumpanya ay nakakagising dito. Ngunit hindi sila palaging mayroong mga tool at may alam at kung kaya't kung bakit i-map ang lahat ng data na iyon, upang mai-catalog ang lahat ng data na iyon at magagamit ito, ngunit natagpuan namin na ang mga kumpanya na halos walang mga pisikal na pag-aari ay nakakuha ng mataas na halaga ng merkado sa record ng oras sa pamamagitan ng bagong klase ng data asset. Tulad ng sinabi ko, ang ilan sa mga dating manlalaro ay nakakagising na ngayon at tiyak na ilalabas ito.

Ako ay isang malaking tagahanga ng pagkuha ng mga katutubong sa isang maliit na paglalakbay, kaya sa labing walong daan-daang, huli labing-walo daan-daang, at mas magiging pamilyar ka sa ito sa pamilihan ng US, napalabas na upang magpatakbo ng isang census bawat taon o higit pa, sa palagay ko ay pinatakbo nila ang mga ito sa bawat sampung taon sa puntong iyon, ngunit kung magpapatakbo ka ng isang census bawat taon, maaari kang tumagal ng hanggang walong o siyam na taon upang aktwal na gawin ang pagsusuri ng data. Ito ay naka-set na ang set ng data pagkatapos ay naiwan sa mga kahon sa mga lugar sa papel, at halos walang makakakita dito. Patuloy lamang nilang pinalabas ang mga ulat na ito, ngunit ang aktwal na data ay napakahirap makarating, mayroon kaming isang katulad na sitwasyon sa isa pang makabuluhang sandali sa mundo, sa paligid ng 1940s, kasama ang Ikalawang Digmaang Pandaigdig, at ang bagay na ito ay ang Bletchley Park Bombe na baybay na BOMBE, at ito ay isang napakalaking tool na analytical na crunching na dumadaan sa maliit na set ng data at makahanap ng mga signal sa loob nito, at magamit upang matulungan ang mga crack code sa pamamagitan ng Enigma.

Ang bagay na ito muli, ay mahalagang isang aparato na dinisenyo, hindi gaanong katalogo, ngunit upang i-tag at data ng mapa, at gawin itong posible na kumuha ng mga pattern at hanapin ito sa loob ng mga set ng data, sa kasong ito, masira ang mga code, maghanap ng mga susi at parirala at hanapin regular ang mga ito sa mga set ng data, at sa gayon ay dumaan kami sa paglalakbay na ito ng paghahanap ng mga bagay sa data, at humahantong sa data ng pag-uugnay.

At pagkatapos ay sumunod ang mga bagay na ito, ang mga napakalaking mababang rack ng mga makina, off-the-shelf machine. At gumawa kami ng ilang mga kagiliw-giliw na bagay, at ang isa sa mga bagay na ginawa namin sa kanila ay itinayo namin ang napakababang mga kumpol na gastos na maaaring magsimulang mag-index ng planeta, at napaka sikat na mga malalaking tatak na ito ay dumating at nawala, ngunit marahil ang Google ang pinaka-karaniwang bahay tatak na napakinggan nating lahat - ito ay naging isang aktwal na pandiwa, at alam mong matagumpay ka kapag ang iyong tatak ay naging isang pandiwa. Ngunit ang itinuro sa amin ng Google, nang hindi napagtanto ito, marahil sa mundo ng negosyo, ay nagawa nilang mai-index ang buong planeta sa isang tiyak na antas, at itala ang data na nasa buong mundo, at ginawang magagamit ito sa isang napakadali. maginhawang form sa isang maliit na maliit na formula ng isang linya, isang web page na halos wala dito, at nagta-type ka sa iyong query, napunta ito at hahanapin dahil na-crawl na nila ang planeta, na-index ito at madali itong magagamit.

At ang napansin namin ay, "Well hang on, hindi namin ginagawa ito sa mga organisasyon - bakit ganoon? Bakit mayroon kaming isang samahan na mai-mapa ang buong planeta at i-index ito, mag-crawl at mag-index nito, at magagamit ito, maaari naming maghanap, at pagkatapos ay mag-click sa bagay na pupunta at hanapin ito, kung paano tayo darating hindi pa nagawa iyon? "Kaya maraming mga maliit na rack ng mga makina sa buong mundo ngayon ang gumagawa nito para sa mga intranets at makahanap ng mga bagay, ngunit sila ay talagang dumarating lamang sa ideya na lalampas sa tradisyunal na web pahina, o isang file server.

Sa halip na ngayon ay pagpasok sa susunod na henerasyon ng katalogo ng data sa maraming mga paraan, ang pagtuklas ng pag-access ng data sa pamamagitan ng mga tala sa post-it at ang mga pag-uusap ng tubig na mas cool ay hindi talaga isang angkop na pamamaraan para sa pagtuklas ng data at pag-uugnay sa ngayon, at sa katunayan, hindi ko iniisip na kailanman talaga. Hindi na natin maiakay ang buong hamon sa mga tao na lamang ang pagpasa ng mga tala, at pag-post ng mga tala, at pakikipag-chat tungkol dito. Kami ay mabuti at tunay na lampas sa lugar ngayon kung saan ang susunod na gen na pamamaraan sa katalogo ng data ay dumating at nawala. Kailangan nating hawakan ito. Kung ito ay isang madaling isyu, malutas na namin ito sa maraming mga paraan nang mas maaga, ngunit sa palagay ko hindi ito isang madaling isyu, ang pag-index at pagtawag ng data ay isa lamang bahagi nito, alam kung ano ang nasa data at pagbuo ng metadata sa paligid kung ano ang aming natuklasan, at pagkatapos ay magagamit ito sa isang madaling, madaling magamit, lalo na sa paglilingkod sa sarili at analytics. Ito ay pa rin isang problema na nalutas, ngunit maraming mga bahagi ng puzzle sa limang taon ang maayos at tunay na nalutas at magagamit.

Tulad ng nalalaman natin, ang mga tao na nakalista sa data ay isang recipe para sa kabiguan dahil ang pagkakamali ng tao ay isa sa mga pinakadakilang bangungot na ating tinalakay sa pagproseso ng data, at regular kong pinag-uusapan ang paksang ito kung saan sa aking pananaw, ang mga tao na pumupuno sa mga form ng papel ay marahil ang pinakamalaking bangungot nakikipag-ugnayan kami sa malaking data at analytics, na patuloy na kinakailangang ayusin ang mga bagay na ginagawa nila, kahit na sa mga simpleng bagay tulad ng mga petsa at larangan, inilalagay ito ng mga tao sa maling format.

Ngunit tulad ng sinabi ko, nakita namin ang mga search engine sa internet index sa buong mundo araw-araw, kaya ngayon ginagawa namin ito sa ideya na magagawa sa mga set ng data ng negosyo sa proseso ng pagtuklas, at ang mga tool at system ay ngayon madaling magagamit habang malapit ka nang matuto ngayon. Kaya ang trick, talaga sa aking pananaw, ay ang pagpili ng tamang mga tool, ang pinakamahusay na tool para sa trabaho. At mas naaangkop sa tuktok nito, sa paghahanap ng tamang bahagi nito upang matulungan kang makapagsimula sa landas na ito. At naniniwala ako na maririnig namin ang tungkol sa araw na ito, ngunit bago natin gawin iyon, pupunta ako sa aking kolehiyo, si Robin Bloor at pakinggan ang kanyang pakikinig sa paksa. Robin, maipasa ko ba sa iyo?

Robin Bloor: Oo, tiyak na kaya mo. Tingnan natin kung ito ay gumagana, oh oo. Okay, galing ako sa ibang direksyon kaysa kay Dez talaga, ngunit magtatapos ako sa parehong lugar. Ito ay tungkol sa pagkonekta sa data, kaya naisip ko lang na maglakad ako sa katotohanan ng pagkonekta sa data, point by point talaga.

Mayroong isang katotohanan na ang data ay mas fragment kaysa sa dati. Ang dami ng data ay lumalagong hindi pangkaraniwang bagay, ngunit sa aktwal na katotohanan, ang iba't ibang mga mapagkukunan ng data ay lumalaki din sa isang hindi kapani-paniwala na rate, at samakatuwid ang data ay lalong nagiging fragment sa lahat ng oras. Ngunit dahil sa mga aplikasyon ng analytics lalo na - ngunit ang mga ito ay hindi lamang ang mga aplikasyon - nakakuha kami ng isang tunay na magandang dahilan upang kumonekta sa lahat ng data na ito, kaya kami ay natigil sa isang mahirap na lugar, kami ay natigil sa isang mundo ng nabuong data, at mayroong pagkakataon sa data habang tinawag ito ni Dez, ang bagong langis.

Tungkol sa data, mahusay, ginamit ito upang mabuhay sa spinning disk, alinman sa mga file system o mga database. Ngayon nakatira ito sa isang mas iba't ibang kapaligiran, naninirahan ito sa mga file system ngunit nakatira din ito sa mga pangyayari sa Hadoop sa kasalukuyan, o kahit na mga Spark instances. Nakatira ito sa maraming mga species ng database. Hindi pa katagal ang nakalipas, kami ay uri ng pamantayan sa ilang database ng pamanggit, alam mo na lumabas sa window sa nakaraang limang taon, dahil mayroong pangangailangan para sa mga database ng dokumento, at mayroong pangangailangan para sa mga database ng graph, kaya alam mo, ang laro ay nagbago. Kaya nanirahan ito sa spinning disk, ngunit nakatira ito ngayon sa SSD. Ang pinakabagong halaga ng SSD - siguradong ang pinakabagong yunit ng SSD ay lumalabas mula sa Samsung - dalawampu't gigabytes, na napakalaki. Ngayon naninirahan ito sa memorya, sa kamalayan na ang punong kopya ng data ay maaaring maging memorya, sa halip na sa disk, hindi namin ginamit upang bumuo ng mga system tulad na; ginagawa natin ngayon. At nakatira ito sa ulap. Na nangangahulugang maaari itong manirahan sa alinman sa mga bagay na ito, sa ulap, hindi mo malalaman kung nasaan ito sa isang ulap, magkakaroon ka lamang ng address nito.

Lamang sa ram home ang punto, Hadoop ay sa ngayon, nabigo bilang isang extensible data store. Inaasahan namin na ito ay magiging isang extensible scale-out data store, at ito ay magiging isang file system lamang para sa lahat, at mangyayari - ang mga rainbows ay lilitaw sa kalangitan, talaga, at mga unicorn ay sumayaw sa paligid, at wala sa nangyari. Na nangangahulugang nagtatapos kami sa isang problema ng data transportasyon, at walang pangangailangan para sa transportasyon ng data, kung minsan, ngunit nahihirapan din ito. Ang data ay talagang mayroong gravity sa ngayon, sa sandaling nakakuha ka ng mga multi-terabytes ng data, kinuha ito at ibinabato ito, uri ng mga kadahilanan na lumitaw sa iyong network, o upang lumitaw sa iba't ibang mga lugar. Kung nais mong magdala ng data sa paligid, ang tiyempo ay isang kadahilanan. Mayroong halos palaging, ngayon, ang ilang mga limitasyon sa kung gaano karaming oras ang nakuha mo upang makakuha ng isang bagay, isang data mula sa isang lugar patungo sa ibang lugar. Dati ay kung ano ang dati nating iniisip bilang mga bintana ng batch, kapag ang makina ay uri ng pag-idle, at kahit gaano karaming data ang mayroon ka, maaari mo lamang itapon ito sa paligid at ito ay gumana. Na wala na, nakatira kami sa isang mas real-time na mundo. Samakatuwid ang tiyempo ay isang kadahilanan. Sa lalong madaling nais mong ilipat ang data, kaya kung ang data ay may gravity, marahil hindi mo ito mailipat.

Ang pamamahala ng data ay isang kadahilanan sa kamalayan na talagang nakuha mong pamahalaan ang lahat ng data na ito, hindi mo makuha ito nang libre, at maaaring kailanganin ng pagtitiklop upang talagang makuha ang data upang gawin ang trabaho na kailangang gawin, dahil maaaring hindi ito saanman inilagay mo. Maaaring hindi ito magkaroon ng sapat na mapagkukunan upang gawin ang normal na pagproseso ng data. Kaya ang data ay makakakuha ng pagtitiklop, at ang data ay makakakuha ng pagtitiklop ng higit sa iyong maisip. Sa palagay ko ay isang tao ang sinabi sa akin ng isang mahabang panahon ang nakalipas na ang average na piraso ng data ay ginagaya ng hindi bababa sa dalawa at kalahating beses. Ang mga ESB o Kafka ay nagpapakita ng isang pagpipilian para sa daloy ng data, ngunit sa ngayon hinihingi nito ang arkitektura. Sa ngayon kailangan mo talagang mag-isip sa isang paraan o sa iba pa, tungkol sa kung ano talaga ang ibig sabihin nito upang itapon ang data. Samakatuwid, upang ma-access ang data kung nasaan ito, kadalasan ay kanais-nais, hangga't, siyempre, maaari mong makuha ang pagganap na kailangan mo kapag talagang pumunta para sa data at nakasalalay sa konteksto. Kaya ito ay isang mahirap na sitwasyon, gayon pa man. Sa mga tuntunin ng mga query sa data, ginamit namin upang mag-isip sa mga tuntunin ng SQL, dumating kami talaga ngayon, alam mo, iba't ibang anyo ng mga query, SQL oo, ngunit katabi, mga query sa graph, ang Spark ay isa lamang halimbawa ng paggawa ng graph, dahil kailangan din nating gawin ang paghahanap ng teksto, higit pa sa nagawa natin, din ang regex na uri ng mga paghahanap, na talagang kumplikado na mga paghahanap para sa mga pattern, at tunay na pagtutugma ng pattern, ang lahat ng mga bagay na ito ay talagang bumubula. At ang lahat ng mga ito ay kapaki-pakinabang dahil nakuha nila sa iyo ang iyong hinahanap, o makakakuha ka nila ng iyong hinahanap.

Ang mga tanong ngayon ay sumasaklaw sa maraming data, kaya't hindi ito palaging ginagawa, at madalas na nakakakilabot ang pagganap kung gagawin mo iyon. Kaya, nakasalalay ito sa mga pangyayari, ngunit inaasahan ng mga tao na magagawang mag-query ng data mula sa maraming mga mapagkukunan ng data, kaya ang data federation ng isang uri o iba pa ay nagiging mas at kasalukuyang. Ang virtualization ng data, na kung saan ay isang iba't ibang paraan ng paggawa nito, depende sa pagganap, ay pangkaraniwan din. Ang mga query sa data ay talagang isang bahagi ng isang proseso, hindi ang buong proseso. Nararapat lamang na ituro na kung talagang tinitingnan mo ang pagganap ng analytics, ang aktwal na analytics ay maaaring tumagal ng isang kakila-kilabot na mas mahaba kaysa sa pangangalap ng data, dahil nakasalalay sa mga pangyayari, ngunit ang mga query sa data ay isang ganap na pangangailangan kung nais mong gawin ang anumang uri ng analytics sa maraming mga mapagkukunan ng data, at ito lang, kailangan mo talagang magkaroon ng mga kakayahan na sumasaklaw.

Kaya tungkol sa mga katalogo. Ang mga Catalog ay umiiral para sa isang kadahilanan, hindi bababa sa sinasabi namin na, alam mo, ito ay, mayroon kaming mga direktoryo, at mayroon kaming mga scheme sa mga database, at mayroon kaming bawat katalogo at mayroon kaming kahit saan ka man pumunta ay makakahanap ka ng isang lugar at pagkatapos ay tunay na magkakaroon ka malaman na mayroong ilang uri ng katalogo, at ang pinag-isang pandaigdigang katalogo ay tulad ng isang malinaw na magandang ideya. Ngunit napakakaunting mga kumpanya ang may ganitong bagay. Naaalala ko, bumalik sa taon na dalawang libo - sa taon na dalawang libong gulat - naalala ko na ang mga komunista ay hindi maaring ma-pin down kung gaano karaming mga executive ang mayroon sila, hindi alintana kung gaano karaming iba't ibang mga tindahan ng data ang mayroon sila, at marahil ang kaso ngayon, alam mo, na ang karamihan sa mga kumpanya ay hindi aktibong alam sa pandaigdigang kahulugan, kung anong data ang nakuha nila. Ngunit malinaw na nagiging lalong kinakailangan upang talagang magkaroon ng isang pandaigdigang katalogo, o hindi bababa sa pagkakaroon ng isang pandaigdigang larawan ng kung ano ang nangyayari dahil sa paglaki ng mga mapagkukunan ng data, at ang patuloy na paglaki ng mga aplikasyon, at partikular na kinakailangan para sa analytics, dahil ikaw din sa isang paraan, at may iba pang mga isyu dito tulad ng lahi at mga problema sa data, at kinakailangan para sa seguridad, maraming mga aspeto ng pamamahala ng data, kung hindi mo talaga alam kung ano ang data na nakuha mo, ang ideya na iyong pamamahalaan ito ay kamangmangan lamang. Kaya, sa iyon, ang lahat ng data ay nakalista sa ilang paraan ay isang katotohanan lamang. Ang tanong ay kung ang katalogo ay magkakaugnay, at talagang kung ano ang magagawa mo dito. Kaya babalik ako sa Rebecca.

Rebecca Jozwiak: Okay, salamat Robin. Sa susunod na nakuha namin si David Crawford mula sa Alation, David Pupunta ako sa unahan at ipasa ang bola sa iyo, at maaari mong dalhin ito.

David Crawford: Maraming salamat. Pinahahalagahan ko talaga kayong mga lalaki na mayroon ako sa palabas na ito. Sa palagay ko sisimulan ko ito, kaya sa palagay ko ang aking tungkulin dito, ay ang kumuha ng ilan sa teoryang iyon at makita kung paano ito aktwal na inilalapat, at ang mga resulta na magagawa nating magmaneho sa mga tunay na customer at sa gayon ay makikita mo kaunti sa slide, nais kong pag-usapan ang tungkol sa kung anong mga resulta na makikita namin sa analytic na posibleng pagpapabuti. Kaya upang ma-motivate ang talakayan, pag-uusapan natin kung paano sila nakarating doon. Kaya't masuwerte akong makatrabaho nang malapit sa napakaraming matalinong tao, ang mga kostumer na ito, at nais ko lamang na ituro ang iilan na nagagawa talagang sukatin, at pag-usapan kung paano naapektuhan ng pagkakaroon ng isang katalogo ng data ang kanilang analyst daloy ng trabaho. At para lamang manatili sa harapan, sa palagay ko ang isa sa mga bagay na nakikita natin ang pagbabago, na may mga talata ng data na mga talata ng nakaraang mga mediated na solusyon at isa sa mga paraan na talagang iniisip ng mga relasyon tungkol sa mga solusyon na pinagsama namin, ay upang magsimula sa mga analyst at magtrabaho paatras. Upang sabihin, gawin natin ito tungkol sa pagpapagana ng pagiging produktibo ng mga analyst. Bilang kabaligtaran sa pagsunod lamang, o taliwas sa pagkakaroon lamang ng isang imbentaryo, gumagawa kami ng isang tool na ginagawang mas produktibo ang mga analista.

Kaya, kapag nakikipag-usap ako sa isang siyentipiko ng data sa kumpanya ng serbisyo ng pinansiyal na Square, mayroong isang tao, si Nick, na nagsasabi sa amin tungkol sa kung paano ang kanyang, ginamit niya nang ilang oras upang makahanap ng tamang set ng data upang magsimula ng isang ulat, ngayon maaari niyang gawin ito sa loob ng ilang segundo gamit ang paghahanap sa pagbabahagi sa merkado, nakausap namin ang kanilang CTO na hinila ang kanyang mga analyst na gumagamit ng Square, humingi ng paumanhin, ay gumagamit ng Alation, upang malaman kung ano ang kanilang, kung ano ang mga pakinabang na nakita, at iniulat nila ang isang 50 porsyento na mapalakas ang produktibo, at na, ang isa sa mga nangungunang tagatingi sa buong mundo, eBay, nakuha nila ang higit sa isang libong mga tao na gumagawa ng pagsusuri sa SQL sa isang regular na batayan, at nagtatrabaho ako nang medyo malapit sa Deb Says doon, sino ang proyekto manager sa kanilang mga tool sa data tool, at natagpuan niya na kapag ang mga querier ay nagpatibay ng Alation, magpatibay ng isang katalogo, nakikita nila ang doble ang bilis ng pagsulat ng mga bagong query laban sa database.

Kaya ang mga ito ay tunay na mga resulta, ito ang mga taong aktwal na nag-aaplay ng katalogo sa kanilang samahan, at nais kong dalhin ka sa kung ano ang kinakailangan upang makapag-set up. Paano naitatag ang isang katalogo sa isang kumpanya, at marahil ang pinakamahalagang bagay na sasabihin, ay marami itong nangyayari nang awtomatiko, kaya't pinag-uusapan ni Dez ang tungkol sa mga sistema, pag-aaral tungkol sa mga system, at iyan mismo ang ginagawa ng isang modernong katalogo ng data. Kaya nag-install sila ng Alation sa kanilang data center at pagkatapos ay ikinonekta nila ito sa iba't ibang mga mapagkukunan ng metadata sa kanilang data environment. Kukunin ko na tumuon nang kaunti sa mga database at ang mga tool sa BI - mula sa parehong mga ito pupunta kami upang kunin ang mga teknikal na metadata, tungkol sa kung ano ang umiiral. Tama, kaya anong mga talahanayan? Ano ang mga ulat? Ano ang mga kahulugan ng ulat? Kaya kinukuha nila ang teknikal na metadata, at isang pahina ng katalogo ay awtomatikong nilikha para sa bawat bagay sa loob ng mga sistemang iyon, at pagkatapos, kumukuha din sila at layer sa tuktok ng teknolohiyang metadata na iyon, pinapatong nila ang tuktok ng data ng paggamit. Iyon ay pangunahing ginawa sa pamamagitan ng pagbabasa ng mga query sa query mula sa database, at ito ay isang talagang kawili-wiling mapagkukunan ng impormasyon. Kaya, sa tuwing nagsusulat ang isang analyst ng isang query, sa tuwing ang isang tool sa pag-uulat, kung sa bahay ay lumaki, o sa istante, kung ang isang tool sa pag-uulat ay nagpapatakbo ng isang query upang mai-update ang dashboard, kapag ang isang application ay nagpapatakbo ng isang query upang magpasok ng data upang mapatakbo sa isang set ng data - lahat ng mga bagay na iyon ay nakuha sa mga query sa query sa database. Kung mayroon kang isang katalogo o hindi, ang mga ito ay nakuha sa query sa pag-login gamit ang database. Ano ang magagawa ng isang katalogo ng data, at lalo na kung ano ang magagawa ng katalogo ng Alation, ay basahin ang mga log na iyon, tanungin ang mga query sa loob ng mga ito, at lumikha ng isang talagang kawili-wiling graph ng paggamit batay sa mga log na iyon, at isinasagawa namin ito upang i-play ang mga gumagamit sa hinaharap ng data tungkol sa kung paano ginamit ito ng mga nakaraang gumagamit ng data.

Kaya, pinagsasama namin ang lahat ng kaalamang iyon sa isang katalogo, at para sa uri lamang na gawin ito, ito ang mga pagsasama na na-deploy na sa mga customer, kaya, nakita natin ang Oracle, Teradata, Redshift, Vertica at isang bungkos ng iba pang mga kaugnay na database. Sa mundo ng Hadoop, mayroong isang saklaw ng SQL sa Hadoop, uri ng pakikipag-ugnay, mga tindahan ng meta sa tuktok ng system ng Hadoop file, Impala, Tez, Presto at Hive, nakita rin natin ang tagumpay sa mga cloud provider na pribado ng Hadoop tulad ng Altiscale, at kami nagawang kumonekta sa mga server ng Tableau, mga server ng MicroStrategy at i-index ang mga dashboard doon, pati na rin ang mga pagsasama sa mga tool sa pag-chart ng science science tulad ng Plotly.

Kaya, kumonekta kami sa lahat ng mga sistemang ito, ikinonekta namin ang mga sistemang ito sa mga customer, nakuha namin sa teknikal na metadata, nakuha namin ang data ng paggamit, at awtomatikong inayos namin ang awtomatikong na-primed ang katalogo ng data, ngunit sa paraang ito, kami isentroyo ang kaalaman, ngunit ang pagsasentro lamang ng mga bagay sa isang katalogo ng data, ay hindi mismo nagbibigay ng mga talagang kamangha-manghang mga pagpapalakas ng pagiging produktibo na pinag-usapan natin sa eBay, Square at pamamahagi ng merkado. Upang magawa iyon, talagang kailangan nating baguhin ang paraan na iniisip natin tungkol sa paghahatid ng kaalaman sa mga analyst. Ang isa sa mga tanong na hinihiling nila upang maghanda para dito, ay "Paano nakakaapekto ang katalogo sa daloy ng trabaho ng isang analista?"

Iyon ang ginugol namin sa buong araw na pag-iisip tungkol sa, at upang pag-usapan ang pagbabagong ito sa pag-iisip, ng isang modelo ng push na isang pull model, nais kong gumawa ng isang mabilis na pagkakatulad sa kung ano ang katulad ng mundo at pagkatapos ng pagbabasa sa isang papagsiklabin. Kaya lamang ito ay isang karanasan na maaaring mayroon ka, kapag nagbasa ka ng isang pisikal na libro, nakatagpo ka ng isang salita, hindi ka sigurado na alam mo na ang kahulugan ng salita ay mahusay, maaari mong hulaan ito mula sa konteksto, hindi na malamang na ikaw ay bumangon mula sa sopa, maglakad sa iyong librong, hanapin ang iyong diksyonaryo, alikabok, at i-flip sa tamang lugar sa alpabetikong listahan ng mga salita upang matiyak na, oo mayroon kang kahulugan na iyon, at alam mo ang mga nuances nito. Kaya hindi ito nangyari. Kaya bumili ka ng isang papagsiklabin app at nagsisimula kang magbasa ng mga libro doon, at nakakita ka ng isang salita na hindi ka lubos sigurado tungkol sa at hawakan mo ang salita. Ang lahat ng biglaang, tama sa parehong screen, ay ang kahulugan ng diksyunaryo ng salita, kasama ang lahat ng mga nuances nito, iba't ibang halimbawa ng paggamit, at mag-swipe ka ng kaunti, at nakakakuha ka ng isang artikulo sa Wikipedia sa paksang iyon, nag-swipe ka muli. nakakakuha ka ng isang tool sa pagsasalin na maaaring isalin ito sa iba pang mga wika o mula sa ibang mga wika, at sa lahat ng biglaang iyong kaalaman sa wika ay mas mayaman, at ito ay nangyayari lamang ng isang kamangha-manghang bilang ng mga beses, kung ihahambing sa kung kailan mo kailangang pumunta at hilahin ang mapagkukunan na iyon para sa iyong sarili.

At kung ano ang sasabihin ko, ay ang daloy ng trabaho para sa isang analyst at ang paraan ng pakikitungo ng isang analyst sa dokumentasyon ng data, ay talagang kapareho sa kung paano makikipag-ugnay ang isang mambabasa sa diksyunaryo, maging isang pisikal, o kahit na Magpaalam, at kung ano ang ating, ang paraan na talagang nakita natin ang pagpapalakas ng pagiging produktibo na ito, ay hindi pag-iwas sa katalogo, ngunit konektado ito sa daloy ng dalubhasa ng analyst, at sa gayon, hiniling nila sa akin na gawin ang isang demo dito, at nais ko upang gawin na ang pokus ng presentasyong ito. Ngunit nais ko lamang i-set up ang konteksto para sa demo. Kung iisipin namin ang tungkol sa pagtulak ng kaalaman ng data sa mga gumagamit kapag kailangan nila ito, sa palagay namin ang tamang lugar na gawin iyon, ang lugar kung saan nila ginugugol ang kanilang oras at kung saan ginagawa nila ang pagsusuri, ay isang tool sa query ng SQL. Isang lugar kung saan mo isinulat at patakbuhin ang mga query sa SQL. At kaya nagtayo kami ng isa, at itinayo namin ito, at ang bagay na talagang naiiba tungkol dito mula sa iba pang mga tool sa query ay ang malalim nitong pagsasama sa katalogo ng data.

Kaya ang aming tool sa query ay tinatawag na Alation Compose. Ito ay isang tool na query na batay sa web at ipapakita ko ito sa iyo sa isang segundo. Ang isang tool na query na batay sa web na gumagana sa lahat ng mga database ng iyong database na iyong nakita sa nakaraang slide. Ano ang susubukan kong i-demo sa partikular ay ang paraan na ang impormasyon ng katalogo ay dumating sa mga gumagamit. At ginagawa ito sa ganitong uri ng tatlong magkakaibang paraan. Ginagawa ito sa pamamagitan ng mga interbensyon, at kung saan ang isang tao na isang gobernador ng data, o isang tagapangasiwa ng data, o uri ng isang tagapangasiwa ng ilang paraan, o isang tagapamahala, ay maaaring sabihin, "Nais kong mag-uri ng interject sa isang tala o isang babala sa ang daloy ng trabaho at tiyaking naihatid ito sa mga gumagamit sa tamang oras. "Kaya't isang interbensyon at ipapakita namin iyon.

Ang mga mungkahi ng Smart ay isang paraan kung saan ginagamit ng tool ang lahat ng pinagsama-samang kaalaman sa katalogo upang magmungkahi ng mga bagay at bahagi ng isang query habang isinusulat mo ito. Ang pinakamahalagang bagay na malaman doon ay talagang sinasamantala nito ang log ng query upang gawin iyon, upang magmungkahi ng mga bagay batay sa paggamit at din upang makahanap ng kahit na mga bahagi ng mga query na isinulat dati. At ipapakita namin iyon.

At pagkatapos ay mga preview. Ang mga preview ay, habang nagta-type ka sa pangalan ng isang bagay, ipinapakita namin sa iyo ang lahat na alam ng katalogo, o hindi bababa sa mga pinaka-nauugnay na bagay na alam ng katalogo tungkol sa bagay na iyon. Kaya ang mga halimbawa ng data, na ginamit ito noon, ang lohikal na pangalan at paglalarawan ng bagay na iyon, ang lahat ay dumating sa iyo habang sinusulat mo ito nang hindi kinakailangang pumunta hilingin ito.

Kaya nang wala nang pinag-uusapan, makakarating ako sa demo, at hihintayin ko lang na lilitaw ito. Ang ipapakita ko sa iyo dito ay ang tool ng query. Ito ay isang nakalaang interface ng pagsulat ng SQL. Ito ay isang hiwalay na interface mula sa katalogo, sa isang tiyak na kahulugan. Sina Dez at Robin ay nag-uusap tungkol sa katalogo, at tumatalon ako nang kaunti sa interface ng katalogo nang diretso sa kung paano ito dinala nang direkta sa serbisyo ng daloy ng trabaho.

Nagpapakita lang ako dito sa isang lugar kung saan maaari kong i-type ang SQL, at sa ibaba makikita mo na pinag-uusapan namin ang ilang impormasyon na lumilitaw tungkol sa mga bagay na tinutukoy namin. Kaya magsisimula na lang akong mag-type ng isang query at titigil ako kapag nakarating ako sa isa sa mga interbensyon na ito. Kaya i-type ko ang "pipiliin", at nais ko ang taon. Gusto ko ang pangalan. At pupunta ako upang maghanap ng ilang data ng suweldo. Kaya ito ay isang set ng data sa edukasyon. Mayroon itong impormasyon tungkol sa mga mas mataas na institusyong pang-edukasyon, at tinitingnan ko ang average na suweldo ng guro na nasa isa sa mga talahanayan na ito.

Kaya't talagang na-type ko ang salitang "suweldo." Hindi ito eksakto sa pangalan ng haligi sa ganoong paraan. Ginagamit namin pareho ang lohikal na metadata at ang pisikal na metadata upang gumawa ng mga mungkahi. At ang nais kong ituro dito ay ang dilaw na kahon na lumalabas dito. Sinabi nito na may babala sa haligi na ito. Hindi ko hinahanap iyon, hindi ako kumuha ng isang klase sa kung paano gamitin nang maayos ang data na ito. Dumating ito sa akin, at nangyari ito bilang isang babala tungkol sa isang kasunduan sa kumpidensyal na may kinalaman sa data na ito. Kaya mayroong ilang mga patakaran sa pagsisiwalat. Kung tatanungin ko ang data na ito, kukuha ako ng data sa talahanayan na ito, dapat akong maging maingat sa kung paano ko ibubunyag ito. Kaya mayroon kang isang patakaran sa pamamahala dito. Mayroong ilang mga hamon sa pagsunod na ginagawang mas madali upang sumunod sa patakarang ito kapag alam ko ang tungkol dito sa oras na tinitingnan ko ang data.

Kaya nakuha ko na ang lalapit sa akin, at pagkatapos ay titignan din ako sa matrikula. At narito nakita namin ang mga preview na nilalaro. Sa haligi ng matrikula na ito, nakikita ko - mayroong isang haligi ng matrikula sa talahanayan ng institusyon, at nakikita ko ang isang profile nito. Pumunta ang alation at hinila ang data ng sample mula sa mga talahanayan, at sa kasong ito, ipinapakita sa akin ang isang bagay na medyo kawili-wili. Ipinapakita nito sa akin ang pamamahagi ng mga halaga, at ipinapakita sa akin na ang halaga ng zero ay nagpakita ng 45 beses sa sample, at higit sa anumang iba pang halaga. Kaya't nakuha ko ang kahulugan na maaaring mawala kami ng ilang data.

Kung ako ay isang advanced na analyst, kung gayon ito ay maaaring maging bahagi ng aking daloy ng trabaho. Lalo na kung ako ay isang partikular na masinop, kung saan gagawin ko ang isang bungkos ng mga profiling query nang mas maaga. Sa tuwing papalapit ako sa isang bagong piraso ng data, lagi kong iniisip ang tungkol sa kung ano ang aming saklaw ng data. Ngunit kung bago ako sa pagsusuri ng data, kung bago ako sa set ng data na ito, maaari kong isipin na kung mayroong isang haligi, napuno ito sa lahat ng oras. O baka isipin ko na kung hindi ito napunan, hindi ito zero, walang saysay o katulad nito. Ngunit sa kasong ito, marami kaming mga zeroes, at kung gumawa ako ng isang average, malamang sila ay mali, kung ipinagpalagay ko na ang mga zero ay talagang zero sa halip na nawawala ang data.

Ngunit Alation, sa pamamagitan ng pagdadala ng preview na ito sa iyong daloy ng trabaho, uri ng humihiling sa iyo na tingnan ang impormasyong ito at magbibigay kahit isang uri ng mga baguhan na analyst na isang pagkakataon upang makita na mayroong isang bagay na mapapansin dito tungkol sa data na iyon. Kaya mayroon kaming preview na iyon.

Ang susunod na bagay na gagawin ko ay susubukan kong alamin kung anong mga talahanayan upang makuha ang impormasyong ito. Kaya narito nakikita natin ang mga matalinong mungkahi. Ito ay pagpunta sa lahat ng oras, ngunit sa partikular dito, hindi ko kahit na nag-type ng anuman ngunit ito ay magmumungkahi sa akin kung aling mga talahanayan ang nais kong magamit para sa query na ito. At ang pinakamahalagang bagay na dapat malaman tungkol dito ay sinasamantala nito ang mga istatistika ng paggamit. Kaya sa isang kapaligiran tulad, halimbawa, eBay, kung saan mayroon kang daan-daang libong mga talahanayan sa isang solong database, ang pagkakaroon ng isang tool na maaaring uri ng pindutin ang trigo mula sa tahas, at ang paggamit ng mga stats sa paggamit, ay talagang mahalaga para sa paggawa ng mga ito ang mga mungkahi ay nagkakahalaga ng isang bagay.

Kaya iminumungkahi ang talahanayan na ito. Kapag tiningnan ko ang preview, talagang itinampok namin ang tatlo sa mga haligi na nabanggit ko na sa aking query. Kaya alam ko na ito ay nakuha ng tatlo, ngunit wala itong pangalan. Kailangan kong makuha ang pangalan, kaya gagawin ko ang isang pagsali. Kapag gumawa ako ng isang pagsali, ngayon ay mayroon ulit akong mga preview na ito upang matulungan akong mahanap, nasaan ang talahanayan na may pangalan. Kaya nakikita ko na ang isang ito ay may mahusay na na-format, uri ng maayos na malaking titik na pangalan. Tila may isang hilera na may isang pangalan para sa bawat institusyon, kaya kukunin ko na, at ngayon kailangan ko ng isang kondisyon ng pagsali.

At kaya, narito ang ginagawa ng Alation ay muling tinitingnan ang mga query sa mga query, na nakikita ang mga nakaraang oras na ang dalawang talahanayan na ito ay sumali, at nagmumungkahi ng iba't ibang mga paraan upang sumali sa kanila. Muli, mayroong ilang interbensyon. Kung titingnan ko ang isa sa mga ito, nakakakuha ito ng isang babala na nagpapakita sa akin na dapat lamang itong gamitin para sa pagsusuri ng pinagsama-samang. Ito ay marahil makagawa ng maling bagay kung sinusubukan mong gawin ang isang bagay sa pamamagitan ng institusyon ng institusyon. Sapagkat ang isang ito, kasama ang OPE ID ay itinataguyod bilang wastong paraan ng pagsali sa dalawang talahanayan na ito kung nais mo ang data sa antas ng unibersidad. Kaya ginagawa ko iyon, at ito ay isang maikling query, ngunit isinulat ko ang aking query nang hindi talaga kinakailangang magkaroon ng anumang pananaw sa kung ano ang data. Hindi ko talaga tinignan ang isang diagram ng ER ng set ng data na ito, ngunit alam ko na ang lubos tungkol sa data na ito dahil ang nauugnay na impormasyon ay darating sa akin.

Kaya ang mga ito ay uri ng tatlong mga paraan na ang isang katalogo ay maaaring, sa pamamagitan ng isang integrated tool na query, direktang nakakaapekto sa daloy ng trabaho habang nagsusulat ka ng mga query. Ngunit ang isa sa iba pang mga pakinabang ng pagkakaroon ng isang tool sa query na isinama sa isang katalogo ay, kapag natapos ko ang aking query at nai-save ko ito, maaari kong maglagay ng isang pamagat tulad ng "Institusyon Tuition at Faculty Salary, " at pagkatapos ay mayroon akong isang pindutan dito nagbibigay-daan sa akin na i-publish lamang ito sa katalogo. Napakadali para sa akin na pakainin ito. Kahit na hindi ko ito nai-publish, ito ay nakuha bilang bahagi ng query log, ngunit kapag nai-publish ko ito, ito ay talagang nagiging bahagi ng paraan na ang sentralisadong lugar kung saan nakatira ang lahat ng kaalaman ng data.

Kaya kung mai-click ko ang Paghahanap para sa lahat ng mga query sa Alation, Dadalhin ako - at narito makikita mo ang ilan pa sa interface ng katalogo - Dinala ako sa isang dedikadong paghahanap sa query na nagpapakita sa akin ng isang paraan upang makahanap ng mga query sa buong ang buong samahan. At nakikita mo na ang aking bagong nai-publish na query ay nasa tuktok. At maaaring mapansin ng ilan dito, habang kinukuha namin ang mga query, kinukuha din namin ang mga may-akda, at inayos namin ang pagtatatag ng ugnayang ito sa pagitan ko bilang isang may-akda at ang mga bagay na data na alam ko ngayon. At itinatag ako bilang isang dalubhasa sa query na ito at sa mga bagay na data. Tunay na kapaki-pakinabang kapag kailangan ng mga tao na malaman ang tungkol sa data, pagkatapos ay maaari silang makahanap ng tamang tao na puntahan. At kung ako ay talagang bago sa data, kung ako ay isang advanced na analyst - bilang isang advanced na analyst, maaari ko itong tingnan at makita ang isang grupo ng mga halimbawa na magsisimula sa akin sa isang bagong set ng data. Bilang isang taong hindi nakakaramdam ng sobrang savvy na may SQL, makakahanap ako ng paunang mga query na mga ulat na maaari kong samantalahin.

Narito ang isa sa pamamagitan ng Phil Mazanett tungkol sa mga medikal na marka ng SAT. Mag-click dito, at nakakakuha ako ng uri ng isang pahina ng katalogo para sa mismong query. Pinag-uusapan nito ang tungkol sa isang artikulo na isinulat na sumangguni sa query na ito, kaya mayroong ilang dokumentasyon para sa akin basahin kung nais kong malaman kung paano gamitin ito. At mabubuksan ko ito sa tool ng query sa pamamagitan ng pag-click sa pindutan ng Compose, at maaari ko lamang itong patakbuhin ang aking sarili dito nang hindi kahit na i-edit ito. At sa totoo lang, makikita mo ang kaunting aming mga kakayahan sa pag-uulat, kung saan, kapag nagsusulat ka ng isang query, maaari kang mag-drop sa isang variable na template tulad nito at lumilikha ito ng isang simpleng paraan upang lumikha ng isang form upang maisagawa ang isang query batay sa isang pares ng mga parameter.

Kaya iyon ang mayroon ako para sa demo. Babalik ako sa mga slide. Lamang sa uri ng pagbabalik, ipinakita namin kung paano ang isang tagapangasiwa, isang gobernador ng data, ay maaaring makagambala sa pamamagitan ng paglalagay ng mga babala sa mga bagay na lumilitaw sa tool ng query, kung paano ginagamit ang Alation ng kaalaman nito sa paggamit ng mga bagay na data upang gumawa ng mga matalinong mungkahi, kung paano ito nagdadala sa pag-profile at iba pang mga tip upang mapagbuti ang mga daloy ng trabaho ng mga analyst kapag nakayakap sila sa mga partikular na bagay, at kung paano ang lahat ng uri ng mga feed ay bumalik sa katalogo kapag nakasulat ang mga bagong query.

Malinaw na ako ay isang tagapagsalita sa ngalan ng kumpanya. Sasabihin ko ang mga magagandang bagay tungkol sa mga katalogo ng data. Kung nais mong marinig nang direkta mula sa isa sa aming mga customer, si Kristie Allen sa Safeway ay nagpapatakbo ng isang koponan ng mga analyst at mayroong isang talagang cool na kwento tungkol sa isang oras na kailangan niya talagang talunin ang orasan upang makapaghatid ng isang eksperimento sa pagmemerkado, at kung paano siya buo Ginamit ng koponan ang Alation upang makipagtulungan at umikot talagang mabilis sa proyektong iyon. Kaya maaari mong sundin ang link na ito bit.ly upang suriin ang kwento na iyon, o kung nais mong marinig nang kaunti tungkol sa kung paano magdala ng Alation ng isang katalogo ng data sa iyong samahan, masaya kami na mag-set up ng isang isinapersonal na demo. Maraming salamat.

Rebecca Jozwiak: Maraming salamat, David. Sigurado ako na may ilang mga katanungan sina Dez at Robin bago ko i-turn over sa madla ang Q&A. Dez, gusto mo bang mauna?

Dez Blanchfield: Ganap. Gustung-gusto ko ang ideya ng konsepto na ito ng nai-publish na mga query at mai-link ito pabalik sa pinagmulan ng authoring. Matagal na akong kampeon ng ideyang ito ng isang in-house app store at sa palagay ko ito ay isang napakahusay na pundasyon upang mabuo iyon.

Dumating ako sa ilang uri ng pag-unawa sa ilan sa mga samahan na nakikita mong ginagawa ito, at ang ilan sa mga kwentong tagumpay na maaaring mayroon sila sa buong paglalakbay na ito hindi lamang sa pag-gamit ng iyong tool at platform upang matuklasan ang data, ngunit pagkatapos ay ibahin ang anyo ng kanilang panloob na mga katangian ng kultura at pag-uugali sa paligid. Ngayon ang pagkakaroon ng ganitong uri ng in-house app store kung saan ka-uri-download lamang, ang konsepto kung saan hindi lamang nila ito mahahanap, ngunit maaari talaga nilang simulan ang pagbuo ng mga maliit na komunidad sa mga tagabantay ng kaalamang iyon.

David Crawford: Oo, sa palagay ko ay nagulat kami. Naniniwala kami sa halaga ng pagbabahagi ng mga query, mula sa aking nakaraan bilang isang tagapamahala ng produkto sa Adtech at mula sa lahat ng mga customer na nakausap namin, ngunit nagulat pa rin ako sa kung gaano kadalas ito ang isa sa mga unang bagay na mga customer pag-usapan ang bilang ng halaga na makukuha nila sa Alation.

Nagsasagawa ako ng ilang pagsubok sa gumagamit ng tool sa query sa isa sa aming mga customer na tinawag na Invoice2go, at mayroon silang isang tagapamahala ng produkto na medyo bago, at sinabi nila - sinabi niya talaga sa akin, na hindi nagagawad sa pagsubok ng gumagamit, "Talagang hindi ko gagawin isulat ang SQL kahit na malabo na madali itong gawin ng Alation. "At siyempre, bilang PM, mabait ako, " Ano ang ibig mong sabihin, paano natin ginawa iyon? "At sinabi niya, " Well, talagang ito ay dahil maaari akong mag-log in at makikita ko ang lahat ng umiiral na mga query na ito. "Simula sa isang blangko na slate kasama ang SQL ay isang hindi kapani-paniwalang mahirap gawin, ngunit ang pagbabago ng isang umiiral na query kung saan makikita mo ang resulta na nalalabas at masasabi mo, "Oh, kailangan ko lang ito ng dagdag na haligi, " o, "Kailangan kong i-filter ito sa isang partikular na hanay ng mga petsa, " iyan ay mas madaling gawin.

Nakita namin ang uri ng mga nakatutuwang papel na ito, tulad ng mga tagapamahala ng produkto, marahil ang mga tao sa mga ops sa benta, na nagsisimulang pumili, at na laging nais na matuto ng SQL at simulang sundin ito sa pamamagitan ng paggamit ng katalogo na ito. Nakita din namin na maraming mga kumpanya ang sinubukan na gumawa ng uri ng bukas na mapagkukunan. Sinubukan kong bumuo ng mga uri ng mga bagay na panloob, kung saan sinusubaybayan nila ang mga query at ginawang magagamit, at mayroong ilang talagang uri ng mga mapaghamong mga hamon sa disenyo upang gawing kapaki-pakinabang ang mga ito. Ang Facebook ay nagkaroon ng isang panloob na tool na tinawag nilang HiPal na uri ng nakunan ang lahat ng mga query na isinulat sa Hive, ngunit kung ano ang nalaman mo ay, na kung hindi ka uri ng pag-akit ng mga gumagamit sa tamang paraan, nagtatapos ka lamang sa isang napakahabang listahan ng mga piling pahayag. At bilang isang gumagamit na sinusubukan upang malaman kung ang isang query ay kapaki-pakinabang sa akin o kung ito ay anumang mabuti, kung titingnan ko lang ang isang mahabang listahan ng mga piling pahayag, mas matagal akong magagawa upang makakuha ng isang bagay na walang halaga kaysa sa simula sa simula. Maingat kaming naisip tungkol sa kung paano gumawa ng isang query sa query na nagdadala ng tamang mga bagay sa harap at nagbibigay ito sa isang kapaki-pakinabang na paraan.

Dez Blanchfield: Sa palagay ko lahat tayo ay dumadaan sa paglalakbay na ito mula sa murang edad, hanggang sa pagiging matanda, sa maraming paraan. Isang bungkos ng mga teknolohiya. Ako, sa sarili ko, nakaranas ako ng parehong parehong tunay na bagay, tulad ng, pag-aaral na gupitin ang code. Dumadaan ako sa mga magasin at pagkatapos ay mga libro, at mag-aaral ako sa isang tiyak na antas, at pagkatapos ay kailangan kong pumunta at talagang makakuha ng karagdagang pagsasanay at edukasyon tungkol dito.

Ngunit hindi sinasadya natagpuan ko na kahit na ako ay mula sa pagtuturo sa aking sarili at pagbabasa ng mga magasin at pagbabasa ng mga libro at pagpuputol ng mga programa ng ibang tao at ang pagpunta sa mga kurso tungkol dito, natapos ko pa rin ang pag-aaral ng marami mula sa paggawa ng mga kurso tulad ng ginawa ko lamang sa iba mga taong may ilang karanasan. At sa palagay ko ito ay isang kagiliw-giliw na pagtuklas na, ngayon na dalhin mo iyon sa mga analytics ng data, kami ay karaniwang nakakakita ng parehong pagkakatulad, na ang mga tao ay walang paltos na matalino.

Ang iba pang bagay na gusto kong maunawaan ay, sa napakataas na antas, maraming mga samahan ang magtanong, "Gaano katagal kinakailangan upang makarating sa puntong iyon?" Ano ang tipping point time-frame-matalino kapag nakuha ng mga tao naka-install ang iyong platform at sinimulan nilang matuklasan ang mga uri ng mga tool? Gaano kabilis ang uri ng mga tao na makita ang bagay na ito ay naging isang agad-agad na "a-ha" sandali kung saan napagtanto nila na hindi na nila nababahala pa ang ROI dahil narito, ngunit ngayon ay talagang binabago nila ang paraan ng kanilang negosyo ? At natuklasan nila ang isang nawala na sining at inaasahan nilang makakagawa sila ng isang bagay talaga, talagang masaya dito.

David Crawford: Oo, maaari kong hawakan nang kaunti. Sa palagay ko, kapag na-install namin, na ang isa sa mga magagandang bagay, isa sa mga bagay na gusto ng mga tao tungkol sa isang katalogo na direktang konektado sa mga sistema ng data, ay hindi ka magsisimulang blangko kung saan kailangan mong uri ng punan ito pahina sa pahina. At ito ay uri ng mga naunang mga solusyon sa data kung saan magsisimula ka sa isang walang laman na tool at kailangan mong simulan ang paglikha ng isang pahina para sa lahat ng nais mong i-dokumento.

Dahil awtomatiko naming idokumento ang maraming bagay sa pamamagitan ng pagkuha ng metadata, mahalagang sa loob ng ilang araw ng pag-install ng software, maaari kang magkaroon ng larawan ng iyong data na kapaligiran na hindi bababa sa 80 porsyento doon sa tool. At sa palagay ko sa sandaling magsimula ang mga tao sa pagsusulat ng mga query gamit ang tool, awtomatikong nai-save ang mga ito sa catalog, at sa gayon ay magsisimula rin silang magpakita.

Ayaw kong maging labis na sabik sa pagsasabi nito. Sa palagay ko ang dalawang linggo ay isang medyo mahusay na pagtatantya ng konserbatibong, sa isang buwan. Dalawang linggo hanggang isang buwan, ang pagtatantya ng konserbatibo ng talagang pag-on at pakiramdam na nakakakuha ka ng halaga mula rito, tulad ng nagsisimula kang magbahagi ng ilang kaalaman at makakapunta doon at malaman ang mga bagay tungkol sa iyong data.

Dez Blanchfield: Talagang nakakagulat, talaga, kapag iniisip mo ito. Ang katotohanan na ang ilan sa mga malalaking platform ng data na epektibong pag-index at pag-index ay kukuha minsan paminsan-minsan upang ipatupad at i-deploy at maayos na tumayo.

Ang huling tanong na nakuha ko para sa iyo bago ako sumuko kay Robin Bloor, ay mga konektor. Ang isa sa mga bagay na agad na tumalon sa akin ay malinaw na nakuha mo ang buong hamon na pinagsama. Kaya mayroong isang katanungan ng mag-asawa na talagang mabilis. Isa, kung gaano kabilis na maipapatupad ang mga konektor? Malinaw na magsisimula ka sa pinakamalaking platform, tulad ng Orakulo at Teradatas at iba pa at mga DB2. Ngunit gaano ka regular na nakikita ang mga bagong konektor na dumaraan, at anong oras ng pag-ikot na kanilang kinukuha? Akala ko mayroon kang isang karaniwang balangkas para sa kanila. At kung gaano kalalim ang napasok mo sa mga iyon? Halimbawa, ang Oracles at IBM ng mundo, at maging ang Tereadata, at pagkatapos ang ilan sa mga mas tanyag na huli na mga open-source platform. Sigurado silang nagtatrabaho nang direkta sa iyo? Natuklasan mo ba ito? Kailangan mo bang magkaroon ng kaalaman sa loob ng mga platform na iyon?

Ano ang hitsura ng uri ng pagbuo ng isang konektor, at kung gaano kalalim ang makikisali mo sa mga pakikipagsosyo upang matiyak na natuklasan ng mga konektor ang lahat ng maaari mong gawin?

David Crawford: Oo, sigurado, ito ay isang mahusay na katanungan. Sa palagay ko, para sa karamihan, maaari naming bumuo ng mga konektor. Tiyak na nagawa namin noong kami ay mas bata pa sa pagsisimula at walang mga customer. Maaari naming bumuo ng mga koneksyon tiyak na hindi nangangailangan ng anumang panloob na pag-access. Hindi kami nakakakuha ng anumang espesyal na pag-access sa mga sistema ng data na hindi magagamit ng publiko, at madalas nang hindi nangangailangan ng anumang impormasyon sa loob. Sinamantala namin ang mga serbisyo ng metadata na magagamit ng mga sistema ng data mismo. Kadalasan ang mga maaaring maging medyo kumplikado at mahirap makatrabaho. Alam kong partikular ang SQL Server, ang paraan na pinamamahalaan nila ang query sa query, mayroong maraming magkakaibang mga pagsasaayos at ito ay isang bagay na kailangan mo talagang magtrabaho. Kailangan mong maunawaan ang mga nuances at ang mga knobs at dayal sa ito upang mai-set up ito nang maayos, at iyon ay isang bagay na nakikipagtulungan kami sa mga customer mula nang ginawa namin ito nang maraming beses bago.

Ngunit sa isang tiyak na lawak, ito ay uri ng mga pampublikong API na magagamit o mga pampublikong interface na magagamit na ginagamit namin. Mayroon kaming mga pakikipagsosyo sa ilan sa mga kumpanyang ito, na karamihan ay isang batayan para sa sertipikasyon, upang maging komportable silang sabihin na nagtatrabaho kami at maaari din silang magbigay sa amin ng mga mapagkukunan para sa pagsubok, kung minsan maagang pag-access marahil sa isang platform na lalabas upang matiyak na nagtatrabaho kami sa mga bagong bersyon.

Upang lumingon sa isang bagong koneksyon, sasabihin ko ulit, sinusubukan na maging konserbatibo, sabihin nating anim na linggo hanggang dalawang buwan. Ito ay depende sa kung gaano ito kahawig. Kaya ang ilan sa mga Postgre ay gumagana uri ng hitsura na katulad ng Redshift. Ang Redshift at Vertica ay nagbabahagi ng maraming mga detalye. Kaya maaari nating samantalahin ang mga bagay na iyon. Ngunit oo, anim na linggo hanggang dalawang buwan ay magiging patas.

Mayroon din kaming mga API, kaya't - iniisip namin ang Alation bilang isang metadata platform din, kaya kung ang anumang bagay na hindi magagamit para sa amin upang maabot at awtomatikong sunggaban, may mga paraan na maaari mong isulat ang iyong konektor sa iyong sarili at itulak ito sa aming system kaya na ang lahat ay nakakakuha pa rin ng sentralisado sa isang solong search engine.

Dez Blanchfield: Napakaganda. Pinahahalagahan ko iyon. Kaya ihahatid namin ito kay Robin, dahil sigurado akong mayroon din siyang maraming uri ng mga katanungan. Robin?

Rebecca Jozwiak: Maaaring maging mute si Robin.

Dez Blanchfield: Naging pipi ka.

Robin Bloor: Oo, tama. Paumanhin, pinapalo ko ang aking sarili. Kapag ipinatupad mo ito, ano ang proseso? Ako ay uri ng mausisa dahil maaaring magkaroon ng maraming data sa maraming mga lugar. Kaya paano ito gumagana?

David Crawford: Oo, sigurado. Pumasok kami, una ito ay uri ng isang proseso ng IT upang matiyak na inilalaan ang aming server, tinitiyak na magagamit ang mga koneksyon sa network, na bukas ang mga port upang maaari nating ma-access ang mga system. Alam nilang lahat kung aling mga system ang nais nilang magsimula. Ang pag-alam sa loob ng isang sistema ng data, na - at kung minsan ay talagang tutulungan natin sila. Tutulungan namin silang pumunta gawin ang isang paunang pagtingin sa kanilang query log upang maunawaan kung sino ang gumagamit ng kung ano at kung gaano karaming mga gumagamit ang mayroon sila sa isang system. Kaya tutulungan namin malaman kung saan - madalas sila, kung mayroon silang daan-daang o libu-libong mga tao na maaaring mag-log in sa mga database, hindi nila talaga alam kung saan sila naka-log in, upang malaman namin mula sa query sa pag-log kung gaano karaming mga natatanging account ng gumagamit ang mayroon ka talagang pag-log in at pagpapatupad ng mga query dito sa isang buwan o higit pa.

Kaya maaari nating samantalahin iyon, ngunit madalas lamang sa mga pinakamahalaga. Kami ay mag-set up sa kanila at pagkatapos ay mayroong isang proseso ng pagsasabi, "Unahin natin." Mayroong isang hanay ng mga aktibidad na maaaring mangyari nang magkatulad. Magtutuon ako sa pagsasanay para sa paggamit ng tool sa query. Kapag sinimulan ng mga tao ang paggamit ng tool sa query, una sa lahat, maraming tao ang nagmamahal sa katotohanan na ito ay isang solong interface lamang sa lahat ng kanilang iba't ibang mga system. Gustung-gusto din nila ang katotohanan na batay sa web, ay hindi kasangkot sa anumang pag-install kung hindi nila nais. Mula sa isang paninindigan ng seguridad, gusto nila ang pagkakaroon ng isang uri ng isang punto ng pagpasok, mula sa isang punto sa network, sa pagitan ng isang uri ng isang network ng corp IT at ang sentro ng data kung saan nakatira ang mga mapagkukunan ng data. At sa gayon, i-set up nila ang Alation bilang isang tool sa query at simulang gamitin ang Gumawa bilang isang punto ng pag-access para sa lahat ng mga sistemang ito.

Kaya't sa sandaling mangyari ito, kung ano ang nakatuon kami doon sa pagsasanay, ay nauunawaan kung ano ang ilan sa mga pagkakaiba sa pagitan ng isang web-based o isang tool na query na batay sa server kumpara sa isang nais mo sa iyong desktop, at ilan sa mga nuances ng paggamit na. At sa parehong oras kung ano ang susubukan naming gawin ay kilalanin ang pinakamahalagang data, muli na sinasamantala ang impormasyon sa pag-log sa query, at sinasabi, "Uy, baka gusto mong pumasok at tulungan ang mga tao na maunawaan ito. Simulan natin ang pag-publish ng mga query sa kinatawan sa mga talahanayan na ito. "Kung minsan ay ang pinaka-epektibong paraan upang mabilis na makuha ang mga tao. Tingnan natin ang iyong sariling kasaysayan ng query, mai-publish ang mga bagay na ito upang ipakita ang mga ito bilang ang unang mga query. Kung titingnan ng mga tao ang isang pahina ng talahanayan, makikita nila ang lahat ng mga query na humipo sa talahanayan na iyon, at maaari silang magsimula mula doon. At pagkatapos ay simulan natin ang pagdaragdag ng mga pamagat at paglalarawan sa mga bagay na ito upang mas madaling maghanap at maghanap, upang malaman mo ang ilan sa mga nuances ng kung paano gamitin ito.

Tiyakin na nakakakuha kami ng masusing pagtingin sa log ng query upang makabuo kami ng linya. Ang isa sa mga bagay na ginagawa namin ay tinitingnan namin ang log ng query sa mga oras na lumilipat ang data mula sa isang talahanayan sa isa pa, at pinapayagan kaming ilagay ang isa sa mga madalas na itanong tungkol sa isang talahanayan ng data ay, saan nagmula? Paano ko ito pinagkakatiwalaan? At kung ano ang maaari nating ipakita ay hindi lamang kung aling iba pang mga talahanayan na ito nagmula, ngunit kung paano ito binago sa daan. Muli, ito ay uri ng pinapagana ng query log.

Kaya tinitiyak namin na ang mga bagay na iyon ay naka-set up at na nakakakuha kami ng linya sa system, at ina-target namin ang pinakamahalaga at ang pinaka mataas na leveraged na mga piraso ng metadata na maaari naming maitatag sa mga pahina ng talahanayan, kaya't kapag naghanap ka, nakahanap ka ng isang kapaki-pakinabang.

Robin Bloor: Okay. Ang iba pang tanong - mayroong maraming mga katanungan mula sa madla, kaya hindi ko nais na kumuha ng masyadong maraming oras dito - ang iba pang tanong na ang isipan ay, ang mga puntos lamang sa sakit. Maraming binili ng software dahil ang mga tao, sa isang paraan o sa iba pa, nahihirapan sa isang bagay. Kaya ano ang karaniwang punto ng sakit na humahantong sa mga tao sa Alasyon?

David Crawford: Oo. Sa palagay ko may iilan, ngunit sa palagay ko ang isa sa mga naririnig nating medyo madalas ay analyst onboarding. "Kailangan kong umarkila ng 10, 20, 30 mga tao sa malapit na termino na magkakaroon upang makagawa ng mga bagong pananaw mula sa data na ito, kung paano sila makakakuha ng bilis upang mabilis?" Kaya ang analyst onboarding ay isang bagay na tiyak natin tapakan. Mayroon ding relieving ng mga senior analyst mula sa paggastos ng lahat ng kanilang oras sa pagsagot sa mga katanungan mula sa ibang tao tungkol sa data. Iyon ay isang madalas na isa rin. At pareho sa mga ito ay mahalagang problema sa edukasyon.

At pagkatapos ay sasabihin ko ang isa pang lugar na nakikita namin ang mga taong nag-aampon ng Alation ay kapag nais nilang mag-set up ng isang bagong tatak ng data para sa isang tao na nais nilang mag-anunsyo at ipagbibili ito sa loob para magamit ng mga tao. Pagkatapos ang paggawa ng Alation na pangunguna sa bagong bagong analytic na kapaligiran ay talagang nakakaakit. Nakuha nito ang dokumentasyon, nakakakuha ito ng isang solong punto ng pagpapakilala sa - isang solong punto ng pag-access sa mga system, at sa gayon ay isa pang lugar kung saan darating ang tao sa amin.

Robin Bloor: O sige, ipapasa kita sa Rebecca dahil sinusubukan ng madla na makarating sa iyo.

Rebecca Jozwiak: Oo, marami tayong magagandang tanong sa madla dito. At David, ang isang ito ay partikular na naitala sa iyo. Ito ay mula sa isang tao na tila may ilang karanasan sa mga tao na uri ng maling paggamit ng mga query, at sinabi niya na mas maraming nagbibigay kapangyarihan sa mga gumagamit, mas mahirap na pamamahala ng responsableng paggamit ng mga mapagkukunang compute. Kaya maaari mong ipagtanggol laban sa pagpapalaganap ng mga maling akala ngunit karaniwang mga parirala sa query?

David Crawford: Oo, nakikita ko ang katanungang ito. Ito ay isang mahusay na katanungan - ang isa ay nakakakuha tayo ng medyo madalas. Nakita ko ang sakit sa aking sarili sa mga nakaraang kumpanya, kung saan kailangan mong sanayin ang mga gumagamit. Halimbawa, "Ito ay isang talahanayan ng log, nakakakuha ito ng mga troso nang maraming taon. Kung magsusulat ka ng isang query sa talahanayan na ito, kailangan mong limitahan sa oras. "Kaya, halimbawa, isang pagsasanay na napasa ko sa isang nakaraang kumpanya bago ako binigyan ng access sa database.

Mayroon kaming ilang mga paraan na sinubukan naming tugunan ito. Sasabihin ko na sa palagay ko ang data ng log ng query ay talagang katangi-tanging mahalaga upang matugunan ito. Nagbibigay ito ng isa pang pananaw kumpara sa kung ano ang ginagawa ng database sa loob ng tagaplano ng query. At ang ginagawa natin ay, isa sa mga interbensyon - mayroon kaming manu-manong mga interbensyon na ipinakita ko, at kapaki-pakinabang, di ba? Kaya sa isang partikular na pagsali, halimbawa, maaari mong sabihin, "Alisin natin ito." Magkakaroon ito ng isang malaking pulang bandila kapag nagpapakita ito sa matalinong iminumungkahi. Kaya iyon ang isang paraan ng pagsisikap na makarating sa mga tao.

Ang isa pang bagay na ginagawa namin ay, awtomatiko sa mga interbensyon sa oras ng pagpapatupad. Iyon ay gagamitin talaga ang punungkahoy ng parse ng query bago natin ito patunayan, kasama ba dito ang isang tiyak na filter o isang pares ng iba pang mga bagay na ginagawa natin doon. Ngunit isa sa mga pinakamahalaga at ang pinakasimpleng ipaliwanag ay, kasama ba ito ng isang filter? Kaya tulad ng halimbawa na ibinigay ko lamang, ang talahanayan ng log na ito, kung tatanungin mo ito, kailangang magkaroon ng isang saklaw ng petsa, maaari mong tukuyin sa pahina ng talahanayan doon na ipinag-utos mo ang filter na hanay ng petsa na mailalapat. Kung ang isang tao ay sumusubok na magpatakbo ng isang query na hindi kasama ang filter na iyon, talagang ihihinto ito sa kanila ng isang malaking babala, at sasabihin nito, "Dapat mong magdagdag ng ilang SQL na ganito ang hitsura sa iyong query." Maaari silang magpatuloy kung gusto nila. Kami ay hindi talagang pagpunta sa ganap na pagbawalan ang mga ito mula sa paggamit nito - ito ay isang query din, narating na, sa pagtatapos ng araw, magpatakbo ng mga query. Ngunit naglalagay kami ng isang malaking malaking hadlang sa harap nila at binigyan namin sila ng mungkahi, isang konkretong naaangkop na mungkahi upang baguhin ang query upang mapabuti ang kanilang pagganap.

Gawin din namin iyon awtomatiko sa ilang mga kaso, muli sa pamamagitan ng pag-obserba ng query sa pag-log. Kung nakita namin na ang ilang talagang malaking porsyento ng mga query sa talahanayan na ito ay nagsasamantala sa isang partikular na filter o isang partikular na sugnay na sumali, pagkatapos ay pop-pop talaga namin. Isusulong namin iyon sa isang interbensyon. Sa totoo lang, nangyari ito sa akin sa isang set ng panloob na data. Mayroon kaming data ng customer at mayroon kaming mga ID ng gumagamit, ngunit ang set ng gumagamit ng ID, dahil uri ito - mayroon kaming mga ID ng gumagamit sa bawat customer. Hindi ito natatangi, kaya kailangan mong ipares ito sa isang client ID upang makakuha ng isang natatanging key key. At nagsusulat ako ng isang query at sinubukan kong pag-aralan ang isang bagay at nag-pop up ito at sinabi, "Uy, ang lahat ay tila sumali sa mga talahanayan na ito kapwa ang kliyente ng ID at ang ID ng gumagamit. Sigurado ka bang hindi mo nais na gawin iyon? "At talagang pinigilan ako mula sa paggawa ng hindi tamang pagsusuri. Kaya gumagana ito para sa parehong katumpakan ng pagsusuri pati na rin ang pagganap. Kaya ganyan ang uri ng kung paano namin kinukuha ang problemang iyon.

Rebecca Jozwiak: Mukhang magiging epektibo ito. Sinabi mo na hindi mo kailangang hadlangan ang mga tao mula sa pag-hog up ng mga mapagkukunan, ngunit uri ng turuan sila na ang kanilang ginagawa ay maaaring hindi maging pinakamahusay, di ba?

David Crawford: Palagi naming ipinapalagay na ang mga gumagamit ay hindi nakakahamak - bigyan sila ng pinakamahusay na hangarin - at sinubukan naming maging medyo bukas sa ganoong paraan.

Rebecca Jozwiak: Okay. Narito ang isa pang tanong: "Ano ang pagkakaiba sa pagitan ng isang tagapamahala ng katalogo, tulad ng iyong solusyon, at isang tool ng MDM? O talagang nakasalalay sa isang iba't ibang punong-guro sa pamamagitan ng pagpapalawak ng pagpili ng mga talahanayan ng query, samantalang gagawin ito ng MDM, ngunit sa parehong pinagbabatayan ng punong-guro ng pagkolekta ng metadata. "

David Crawford: Oo, sa palagay ko na kapag tiningnan ko ang tradisyonal na mga solusyon sa MDM, ang pangunahing pagkakaiba ay isang pilosopikal. Ito ay tungkol sa kung sino ang gumagamit. Uri ng tulad ng sinabi ko sa simula ng aking pagtatanghal, Alation, sa palagay ko, kapag naitatag kami, itinatag kami na may layunin na paganahin ang mga analista na makagawa ng mas maraming pananaw, upang makabuo ng mas mabilis, upang maging mas tumpak sa mga pananaw na sila gumawa. Sa palagay ko ay hindi kailanman naging layunin ng isang tradisyonal na solusyon sa MDM. Ang mga solusyon na iyon ay may posibilidad na ma-target sa mga tao na kailangang gumawa ng mga ulat ng kung ano ang data ay nakuha sa SCC o panloob para sa ilang iba pang uri ng pag-awdit. Maaari itong paganahin ang mga analyst, ngunit mas madalas, kung mapapagana ang isang practitioner sa kanilang trabaho, mas malamang na paganahin ang isang arkitektura ng data tulad ng isang DBA.

Kung iisipin mo ang tungkol sa mga bagay mula sa pananaw ng isang analyst, iyon ay kapag nagsimula kang bumuo ng isang tool sa query na hindi gagawin ng isang tool ng MDM. Iyon ay kapag nagsisimula kang mag-isip tungkol sa pagganap pati na rin ang kawastuhan, pati na rin ang pag-unawa sa kung ano ang data na nauugnay sa aking pangangailangan sa negosyo. Ang lahat ng mga bagay na ito ay mga bagay na uri ng pop sa ating isipan kapag dinisenyo namin ang tool. Pumasok ito sa aming mga algorithm sa paghahanap, napunta ito sa layout ng mga pahina ng katalogo at ang kakayahang magbigay ng kaalaman mula sa lahat sa paligid ng samahan. Napunta ito sa katotohanan na itinayo namin ang tool ng query at itinayo namin nang direkta ang katalogo nito, kaya sa palagay ko nagmula talaga iyon. Anong gumagamit ang nasa isip mo muna?

Rebecca Jozwiak: Okay, mabuti. Nakatulong talaga iyon sa pagpapaliwanag nito. na naghihingalo upang makakuha ng hawakan ng mga archive dahil kailangan niyang umalis, ngunit gusto niya talagang sumagot ang kanyang tanong. Sinabi niya na nabanggit sa simula na maraming mga wika, ngunit ang SQL ba ang nag-iisang wika na isinusulat sa loob ng sangkap na Compose?

David Crawford: Oo, totoo iyon. At isa sa mga bagay na napansin ko, tulad ng nasaksihan ko ang pagsabog ng iba't ibang uri ng mga database, ng mga database ng dokumento, ng mga database ng mga graph, ng mga pangunahing halaga ng tindahan, ay talagang malakas sila para sa mga pagpapaunlad ng aplikasyon. Maaari silang maglingkod ng mga partikular na pangangailangan doon nang maayos, sa mas mahusay na mga paraan kaysa sa mga nakabatay sa mga database ng relational.

Ngunit kung ibabalik mo ito sa pagsusuri ng data, kung ibabalik mo ito - kung nais mong ibigay ang impormasyong iyon sa mga tao na magsasagawa ng pag-uulat ng ad hoc o paghuhukay ng ad hoc sa data, na lagi silang bumalik sa isang relasyong, hindi bababa sa, interface para sa mga tao. Bahagi lamang iyon dahil ang SQL ay ang lingua franca ng data analysis, kaya nangangahulugan ito, para sa mga tao, ito rin ay para sa mga tool na nagsasama. Sa palagay ko ito ang dahilan na ang SQL sa Hadoop ay napakapopular at maraming mga pagtatangka sa paglutas nito, ay dahil sa pagtatapos ng araw, iyon ang alam ng mga tao. Marahil ay milyun-milyong mga tao na nakakaalam kung paano sumulat ng SQL, at nais ko na hindi minilyun-milyon na nakakaalam kung paano sumulat ng isang query ng query ng pipeline ng Mongo. At iyon ay isang pamantayang wika na ginagamit para sa pagsasama sa isang talagang malawak na iba't ibang mga platform. Kaya lahat ng sinasabi, bihira kaming hiniling na pumunta sa labas nito dahil ito ang interface na ginagamit ng karamihan sa mga analyst, at ito ay isang lugar kung saan nakatuon kami, lalo na sa Compose, na nakatuon kami sa pagsulat ng SQL.

Gusto kong sabihin ang data science ay ang lugar kung saan sila ay nakikipagsapalaran sa labas ng karamihan, at sa gayon nakakakuha kami ng paminsan-minsang mga katanungan tungkol sa paggamit ng Baboy o SAS. Ito ang mga bagay na tiyak na hindi namin hawakan sa Compose, at nais naming makunan sa katalogo. At nakikita ko rin sina R at Python. Mayroon kaming ilang mga paraan na nakagawa kami ng mga interface na maaari mong gamitin ang mga query na nakasulat sa Alation sa loob ng mga script ng R at Python, kaya, dahil madalas kapag ikaw ay isang scientist ng data at nagtatrabaho ka sa isang wika ng script, ang iyong ang data ng mapagkukunan ay nasa isang relational database. Magsimula ka sa isang query sa SQL at pagkatapos ay iproseso mo ito nang higit pa at lumikha ng mga graph sa loob ng R at Python. At gumawa kami ng mga pakete na maaari mong i-import sa mga script na hilahin ang mga query o ang mga resulta ng query mula sa Alation upang maaari kang uri ng isang pinaghalong daloy ng daloy ng trabaho doon.

Rebecca Jozwiak: Okay, mahusay. Alam kong medyo tumatakbo kami nang kaunti sa tuktok ng oras, magtatanong lang ako ng isa o dalawa pang katanungan. Alam kong napag-usapan mo ang lahat ng mga iba't ibang mga system na maaari mong kumonekta, ngunit hanggang sa panlabas na naka-host na data at internal na naka-host na data, maaari bang sabay-sabay itong hahanapin sa iyong solong pagtingin, sa iyong isang platform?

David Crawford: Oo naman. Mayroong ilang mga paraan upang gawin iyon. Ibig kong sabihin, nai-host sa labas, iisipin ko, sinusubukan kong isipin ang eksaktong ibig sabihin nito. Ito ay maaaring mangahulugan ng isang database na ang isang tao ay nagho-host sa AWS para sa iyo. Ito ay maaaring mangahulugan ng isang pampublikong mapagkukunan ng data mula sa data.gov. Kumokonekta kami nang direkta sa mga database sa pamamagitan ng pag-log in tulad ng isa pang application na may, na may isang database ng account, at iyon ay kung paano namin makuha ang metadata. Kaya't kung mayroon kaming account at mayroon kaming isang network port na nakabukas, makakakuha kami nito. At pagkatapos kapag wala kaming mga bagay na iyon, mayroon kaming isang bagay na tinatawag na isang virtual na mapagkukunan ng data, na nagbibigay-daan sa iyo upang mahalagang itulak ang dokumentasyon, awtomatiko, sa pamamagitan ng pagsulat ng iyong sariling konektor, o sa pamamagitan ng pagpuno nito sa pamamagitan ng paggawa ng kahit na tulad ng isang pag-upload ng CSV, upang idokumento ang data sa tabi ng iyong panloob na data. Iyon ay makakakuha ng lahat na inilagay sa search engine. Ito ay nagiging sanggunian sa loob ng mga artikulo at iba pang dokumentasyon at pag-uusap sa loob ng system. Kaya't kung paano namin hawakan kapag hindi kami direktang kumonekta sa isang sistema.

Rebecca Jozwiak: Okay, that may katuturan. Kukunin ko lang ang isa pang tanong sa iyo. Isang dadalo ay nagtanong, "Paano dapat mai-validate, ma-verify o mapanatili ang nilalaman ng isang katalogo ng data, dahil na-update ang data ng mapagkukunan, dahil binago ang data ng mapagkukunan, atbp."

David Crawford: Oo, ito ay isang katanungan na marami kaming nakuha, at sa palagay ko ang isa sa mga bagay na namin - isa sa aming mga pilosopiya, tulad ng sinabi ko, hindi kami naniniwala na ang mga gumagamit ay nakakahamak. Ipinapalagay namin na sinusubukan nilang magbigay ng pinakamahusay na kaalaman. Hindi sila papasok at sadyang linlangin ang mga tao tungkol sa data. Kung may problema kana sa iyong samahan, marahil hindi ang tamang tool para sa iyo ni Alation. Ngunit kung ipinapalagay mo ang mga mabuting hangarin ng mga gumagamit, kung gayon, iniisip namin ang tungkol dito bilang isang bagay kung saan, ang mga pag-update ay pumasok, at pagkatapos ay karaniwang kung ano ang ginagawa namin ay naglalagay kami ng isang katiwala na namamahala sa bawat bagay ng data o bawat seksyon ng data. At hindi namin maaalam ang mga katiwala kapag ang mga pagbabago sa metadata ay ginawa at maaari nilang hawakan ito sa paraang iyon. Nakikita nilang pumapasok ang mga update, napatunayan nila ang mga ito. Kung hindi sila tama, maaari silang bumalik at baguhin ang mga ito at ipaalam, at inaasahan kahit na maabot ang gumagamit na nag-ambag ng impormasyon at tulungan silang matuto.

Kaya iyon ang pangunahing paraan na iniisip natin tungkol sa paggawa nito. Ang ganitong uri ng mungkahi ng karamihan at pamamahala ng mga katiwala, kaya mayroon kaming ilang mga kakayahan sa paligid na iyon.

Rebecca Jozwiak: Okay, mabuti. At kung maaari mo lamang ipaalam sa mga tao kung paano nila magagawang masimulan ang Alation, at kung saan maaari silang pumunta partikular upang makakuha ng karagdagang impormasyon. Alam kong ibinahagi mo na ang isang bit.ly. Iyon ba ang pinakamagandang lugar?

David Crawford: Alation.com/learnmore sa palagay ko ay isang mahusay na paraan upang pumunta. Upang pumunta mag-sign up para sa isang demo ang site ng Alation.com ay maraming magagaling na mapagkukunan, mga puting papel ng customer, at balita tungkol sa aming solusyon. Kaya sa tingin ko iyon ay isang magandang lugar upang magsimula. Maaari ka ring mag-email.

Rebecca Jozwiak: Okay, mahusay. At alam ko, mga dadalo, paumanhin kung hindi ako nakarating sa lahat ng mga katanungan ngayon, ngunit kung hindi, ipapasa sila kay David o sa kanyang koponan sa pagbebenta o isang tao sa Alasyon, kaya maaari silang makatulong na sagutin ang iyong mga katanungan at makakatulong na maunawaan kung ano ang ginagawa ng Alation o kung ano ang pinakamahusay nilang ginagawa.

At kasama iyon, mga tao, sige na ako at pipirma tayo. Maaari mong laging mahanap ang mga archive sa InsideAnalysis.com. Maaari mo ring mahanap ito sa Techopedia.com. May posibilidad silang mag-update nang kaunti nang mas mabilis, kaya siguradong suriin iyon. At maraming salamat kina David Crawford, Dez Blanchfield at Robin Boor ngayon. Ito ay naging isang mahusay na webcast. At kasama iyon, i-bid ko sa iyo ang paalam. Salamat, mga tao. Paalam.

David Crawford: Salamat.

Ang kapangyarihan ng mungkahi: kung paano ang isang katalogo ng data ay nagbibigay kapangyarihan sa mga analyst