Bahay Mga Databases Paggamit ng mga algorithm upang mahulaan ang mga halalan: isang chat na may iginuhit na linzer

Paggamit ng mga algorithm upang mahulaan ang mga halalan: isang chat na may iginuhit na linzer

Anonim

Si Drew ay maghaharap sa Big Data Innovation Summit, Enero 30 at 31 sa Las Vegas: http://analytics.theiegroup.com/bigdata-lasvegas, kasabay ng mga nagsasalita mula sa Obama para sa America, Best Buy, LinkedIn, The New York Times, Nokia, Bitly, Barnes & Nobles, Walmart Labs at marami pa.


Link sa Pagparehistro: http://bit.ly/Zs3wms


Ang panayam na ito ay isinagawa ni George Hill at inilathala sa Big Data Innovation Magazine.


Anong uri ng reaksyon ang mayroon sa iyong mga hula?


Karamihan sa mga reaksyon ay nakatuon sa pagkakaiba-iba ng kawastuhan sa pagitan ng sa amin na nag-aral ng mga botohan sa palagay sa publiko, at ang mga hula ng "gat feeling" ng mga tanyag na pundya at komentarista. Sa Araw ng Eleksyon, ang mga analyst ng data tulad ko, Nate Silver (New York Times FiveThirtyEight blog), Simon Jackman (Stanford University at Huffington Post), at Sam Wang (Princeton Election Consortium) lahat ay naglagay ng mga pagkakataon sa reelection ni Obama nang higit sa 90%, at tama nang nakita ang tama 332 mga halalan sa elektoral para kay Obama bilang pinaka-malamang na kinalabasan. Samantala, sinabi ng mga pangkat tulad ng Karl Rove, George Will, at Steve Forbes na si Romney ay mananalo - at sa ilang mga kaso, madali. Ito ay humantong sa pag-uusap ng isang "tagumpay para sa mga quant" na inaasahan kong madadala sa darating na halalan.


Paano mo masuri ang algorithm na ginamit sa iyong mga hula?


Tinatantya ng aking modelo ng pagtataya ang mga kinalabasan ng boto ng estado at ang pangwakas na boto sa halalan, sa bawat araw ng kampanya, simula sa Hunyo. Nais kong ang pagtatasa ng mga pagtataya na ito ay maging patas at layunin hangga't maaari - at hindi ako iwan sa anumang silid na wiggle kung sila ay mali. Kaya, mga isang buwan bago ang halalan, nai-post ko sa aking website ang isang set ng walong pamantayan sa pagsusuri na gagamitin ko sa sandaling alam na ang mga resulta. Bilang ito ay naka-on, perpektong nagtrabaho ang modelo. Nahulaan ito sa tag-araw na si Obama ay mananalo sa lahat ng kanyang mga estado ng 2008 na minus ang Indiana at North Carolina, at bahagya na namula mula sa prediksyon na iyon kahit na matapos ang suporta para kay Obama na napataas sa Setyembre, at pagkatapos ay naiisip pagkatapos ng unang debate sa pagkapangulo.


Ang dami ng data na ginamit sa buong kampanyang ito kapwa ng mga independiyenteng analyst at mga koponan sa kampanya ay napakalaki, anong uri ng mga implikasyon ang mayroon nito para sa paggamit ng data sa 2016?


Napatunayan ng kampanya sa 2012 na maraming, magkakaibang mapagkukunan ng dami ng impormasyon ay maaaring pinamamahalaang, mapagkakatiwalaan, at mailapat matagumpay sa iba't ibang mga pagtatapos. Namin ang mga tagalabas na mahuhulaan ang kahihinatnan ng halalan nang maaga. Sa loob ng mga kampanya, maraming mga pagsisikap na ginawa sa pagta-target ng botante, pagsubaybay sa opinyon, pangangalap ng pondo, at pagboto ng botante. Ngayon alam namin na ang mga pamamaraan na ito ay maaaring gumana, sa palagay ko ay hindi na babalik. Inaasahan ko ang mga reporter at komentarista sa kampanya na kumuha ng pagsasama-sama ng survey nang mas seryoso noong 2016. At kahit na ang Obama at ang mga Demokratiko ay kasalukuyang lilitaw upang magkaroon ng kalamangan sa teknolohiya ng kampanya, magugulat ako kung hindi mabilis na naabutan ng mga Republikano.


Sa palagay mo ba, ang tagumpay ng kampanya na hinihimok ng data ay nangangahulugan na ang mga tagapamahala ng kampanya ay kailangan na maging isang analyst pati na rin isang estratehiko?


Ang mga tagapamahala ng kampanya ay maaaring hindi na kailangang maging mga analista sa kanilang sarili, ngunit dapat silang magkaroon ng mas higit na pagpapahalaga sa kung paano maaaring mapakinabangan ang kanilang data at teknolohiya. Ang mga kampanya ay palaging gumagamit ng pagsaliksik sa survey upang makabuo ng diskarte at masukat ang sentimento ng botante. Ngunit ngayon mayroong isang hanay ng iba pang mga makapangyarihang tool na magagamit: mga website ng social networking, mga database ng botante, mobile smartphone, at email marketing, upang pangalanan lamang ang ilan. At iyon ay bilang karagdagan sa mga kamakailang pagsulong sa mga pamamaraan ng botohan at pagmomolde ng opinyon ng istatistika. Maraming pagbabago ang nangyayari sa politika sa kampanya ng Amerika ngayon.


Pinamamahalaang mong hulaan ang mga resulta ng halalan ng 6 na buwan bago, ano sa palagay mo ang makatotohanang maximum na oras ng oras upang tumpak na mahulaan ang isang resulta gamit ang iyong mga diskarte sa analytics?


Halos apat o limang buwan ay malapit nang bumalik hangga't pinapayagan tayo ng agham ngayon; at kahit na itulak ito ng kaunti. Bago iyon, ang mga botohan ay hindi sapat na nakapagtuturo tungkol sa kalalabasan ng kalaunan: napakaraming tao ang alinman sa hindi natukoy o hindi pa nagsimulang magbayad ng pansin sa kampanya. Ang makasaysayang pang-ekonomiyang at pampulitikang mga kadahilanan na ipinakita upang makipag-ugnay sa mga kinalabasan ng halalan ay nagsisimula ring mawala ang kanilang mahuhulaan na kapangyarihan sa sandaling makuha natin ang halos 4 na buwan na saklaw. Sa kabutihang palad, nagbibigay pa rin ito ng mga kampanya ng maraming oras upang magplano ng diskarte at gumawa ng mga pagpapasya tungkol sa kung paano ilalaan ang kanilang mga mapagkukunan.

Paggamit ng mga algorithm upang mahulaan ang mga halalan: isang chat na may iginuhit na linzer