Bahay Audio Naririnig ko ang mga patay na tao? gumagawa ng natural na tech na wika ang nabuhay ng mga nakaraan at kasalukuyang mga boses

Naririnig ko ang mga patay na tao? gumagawa ng natural na tech na wika ang nabuhay ng mga nakaraan at kasalukuyang mga boses

Talaan ng mga Nilalaman:

Anonim

Sa mga araw na ito, ang karamihan sa mga tinig ng computer ay passé. Marahil ay hindi ka masyadong nakakakuha ng labis na tungkol sa mga cyborg at mga robot kapag naririnig mo ang "droid" sa iyong telepono na tumutulong sa iyo sa pagbabayad ng bayarin o tatanungin ka kung anong kagawaran ang nais mo. Ngunit paano kung bigla mong narinig si Kurt Cobain na nagpapalabas sa iyo para sa impormasyon sa card? O sinabi sa iyo ni John F. Kennedy tungkol sa mga kababalaghan ng maagang pagboto? O kaya nakuha ni Elvis ang iyong pangalan at address bago mag-break sa "isang hunk, isang hunk ng nasusunog na pag-ibig?"


Ang lahat ng ito ay magiging … kakatwa, ngunit kung ano ang mas kamangha-manghang ay ang teknolohiya ay karaniwang narito na. Isang dekada lamang o nakaraan, nagtaka kami sa kakayahan ng isang computer na kahit na makipag-usap sa lahat. Ngayon, malapit na kaming ilalagay sa pamamagitan ng libreng ranging, mga boses na nabuo sa computer na tunog tulad ng mga tao na alam natin.

Malaking Pagbabago sa NLP

Kung binibigyan mo ng pansin ang larangan ng natural na pagproseso ng wika (NLP), marahil ay narinig mo ang tungkol sa ilang mga kamakailang pagsulong na lumalampas sa mga uri ng mga naka-kahong virtual na tinig na tinig na naririnig natin ngayon sa aming mga pandaigdigang posisyon sa system (GPS) at awtomatikong negosyo linya ng telepono.


Ang simula ng NLP ay nangangailangan ng maraming pananaliksik sa pangkalahatang mekanika ng pagsasalita ng tao. Kailangang kilalanin ng mga mananaliksik at inhinyero ang mga indibidwal na ponograpiya, itiklop ang mga ito sa higit na mga algorithm para sa pagbuo ng mga parirala at pangungusap, at pagkatapos ay subukang pamahalaan ang lahat ng ito sa isang antas ng meta-upang makabuo ng isang bagay na tunog ng tunay. Sa paglipas ng panahon, pinuno ito ng mga pinuno ng NLP at sinimulan ang pagbuo ng mga advanced na algorithm upang maunawaan ang sinasabi ng mga tao. Pinagsasama-sama ang dalawang ito, ang mga kumpanya ay dumating sa mga driver para sa mga virtual na katulong ngayon at ganap na digital na mga bayarin na nagbabayad ng bayarin, na ang mga pamamaraan - habang nakakainis - ay kamangha-mangha kapag huminto ka upang isipin ang tungkol sa gawaing nagpunta sa kanila.


Ngayon, ang ilang mga kumpanya ay lalampas sa pangkaraniwang virtual na boses upang magkasama ng isang mas tiyak na isinapersonal na resulta. Ito ay nangangailangan ng pagdaan sa lexicon ng isang partikular na tao at pagkolekta ng maraming mga natatanging boses na video, pagkatapos ay ilapat ang archive na ito sa mga kumplikadong ritmo para sa ponograpiya, pagbibigay diin, kadahilanan at lahat ng iba pang maliliit na mga pahiwatig na madalas na pangkat ng mga lingguwista sa ilalim ng malawak na banner ng "prosody."


Ang lumalabas ay isang tinig na iniisip ng mga tagapakinig bilang "pag-aari" ng isang partikular na tao - alinman sa isang tao na kilala at nakausap nila, o isang tao na ang tinig na kinikilala nila ay bunga ng katanyagan ng tao.


Mula sa Elvis hanggang Martin Luther King, ang tinig ng sinuman ay maaari na ngayong "cloning" sa ganitong paraan - kung mayroong isang malaking rekord na prerecorded ng kanilang pagsasalita. Sa pamamagitan ng pag-apply ng mas detalyadong pagsusuri at pagmamanipula sa mga indibidwal na maliit na tunog, ang mga kumpanya ay makagawa ng isang virtual na kopya ng carbon ng boses ng isang tao na maraming tunog tulad ng tunay na bagay.

Nakatutuwang "Text to Voice" na nilikha sa VivoText

Halimbawa, ang VivoText, ay isang kumpanya na nagtatrabaho upang baguhin ang paggamit ng mga artipisyal na tinig ng tao para sa lahat ng uri ng mga kampanya, mula sa mga audioobook hanggang interactive na tugon ng boses (IVR). Sa VivoText, ang mga koponan ng pananaliksik at produksiyon ay nagtatrabaho sa mga proseso na, sa teoryang, ay maaaring partikular na mag-kopya ng mga tinig ng namatay na mga kilalang tao, tulad ng Ol 'Blue Mata.


"Upang mai-clone ang tinig ni Frank Sinatra, talagang pupunta kami sa kanyang naitala na pamana, " sabi ng VivoText CEO na si Gershon Silbert, pinag-uusapan kung paano maaaring gumana ang ganitong uri ng teknolohiya.


Sa ngayon, ang VivoText ay nagtatrabaho sa pag-archive ng mga tinig ng mga taong kasama pa natin, tulad ng NPR correspondent na si Neal Conan, na nag-sign up bilang isang modelo para sa ganitong uri ng proyektong pangunguna sa IT. Ipinapakita ng isang promosyonal na video ang mga manggagawa ng VivoText na walang tigil na lumikha ng mga module ng phonetic code na gumagamit ng ibinigay na input ng boses mula sa Conan. Pagkatapos ay nililikha nila ang mga modelo para sa teksto sa mga kasangkapan sa pagsasalita (TTS) na pumupukaw ng isang kapansin-pansing resulta ng tao at pagkatao.


Ayon kay Ben Feibleman, bise presidente ng diskarte at pag-unlad ng negosyo sa VivoText, ang computer ay gumagana sa isang antas ng ponema (gamit ang pinakamaliit na natatanging bahagi ng pagsasalita) upang umayon sa isang modelo ng prosodic para sa isang indibidwal na tinig ng tao.


"Alam nito kung paano pinag-uusapan ang tinig, " sabi ni Feibleman, pagdaragdag na sa pamamagitan ng paggamit ng "pagpili ng yunit, " pinipili ng computer ang isang bilang ng mga piraso upang pagsamahin ang isang solong maikling salita, tulad ng kung saan ang salitang "Biyernes" ay binibigyan ng limang sangkap na makakatulong sa pagbuo isang partikular na diin at resulta ng tonal.

Artipisyal na boses sa Marketing

Kaya, paano ito gumagana sa marketing? Ang mga produkto ng VivoText ay maaaring maging kapaki-pakinabang sa paglikha ng mga produkto, tulad ng mga audiobook, na maaaring maabot ang mga target na madla. Halimbawa, gaano kahusay ang magiging isang tinig ng Elvis kung ihahambing sa isa sa mga pangkaraniwan, deadpan, awtomatikong tinig kung ginamit ito upang ibenta ang mga produktong may kaugnayan sa libangan?


O, paano naman sa politika? Ang Feibleman ay nagtatrabaho sa iba't ibang mga ideya para sa paggamit ng mga proyekto tulad nito upang mapahusay ang marketing para sa mga kumpanya o iba pang mga partido na nangangailangan ng mas mabisang pagmemensahe.


"Kung alam mo ang anumang mga pulitiko na tumatakbo para sa pangulo, maaari itong magkaroon ng 10 milyong mga botante ng swing-state na makakuha ng isang personal na tawag mula sa isang kandidato, nagpapasalamat sa kanilang suporta, sinabi sa kanila kung saan kailangan nilang pumunta upang bumoto, ang panahon at lahat ng mga pag-aayos ng gabi bago ang halalan, "sabi ni Feibleman.

Ang iyong Voice Live

May isa pang malinaw na aplikasyon sa lahat ng teknolohiyang ito. Ang mga natural na kumpanya ng wika tulad ng VivoText ay maaaring lumikha ng isang personal na serbisyo na mai-upload ang lahat ng data ng boses ng isang customer sa isang produkto na magpapahintulot sa taong iyon na "magsalita magpakailanman."


Ang praktikal na pagpapatupad ay malamang na magtaas ng maraming mga katanungan tungkol sa kung paano natin naririnig at isinasagawa ang mga tinig na tinig. Halimbawa, ano ang kinakailangan upang makagawa ng isang tunog ng tunog stream na eksaktong katulad ng isang tao? Gaano tayo kahusay na makilala ang isang tao na makilala ang isang partikular na tinig? At, kawili-wili, ano ang mangyayari kung ang isang likas na serbisyo sa wika ay gumagawa ng isang cric caricature, sa halip na isang nakakahimok na mimicry?


Ang pagsusuri ng mga resulta, sabi ni Feibleman, ay madalas na nakasalalay sa pagsasaalang-alang sa konteksto. Halimbawa, sinabi niya na ang mga bata ay karaniwang hindi nagtatanong tungkol sa kung sino ang nagsasalita kapag nakikinig sila sa isang kuwento. Mas gusto lang nila. Ngunit gayon din, maraming mga may sapat na gulang ang maaaring hindi mag-isip tungkol sa kung sino ang nakikipag-usap sa kanila, binigyan ng isang partikular na senaryo, tulad ng isang passive broadcast o mensahe ng telepono. Gayundin, mas madaling ma-tanga sa pamamagitan ng isang computer sa telepono dahil ang muffled na tunog ay maaaring mask ng mga glitches o iba pang mga pagkakaiba sa pagitan ng mga resulta ng computer at isang tinig ng tao.


"Hindi ito nangyayari sa iyo upang hamunin ang pagiging tunay ng boses, " sabi ni Feibleman.

Sa Taon 2525

Habang sumusulong ang mga kumpanya sa pagbuo ng mga produkto at serbisyo at pagsagot sa mga katanungang ito, maaaring isulong tayo ng mga "teknolohiyang" buhay na pagsasalita "patungo sa pagsasama-sama ng teknolohiya at pag-iisip ng tao, na klasikal na tinawag na artipisyal na katalinuhan (AI).


Kung ang mga computer ay maaaring magsalita tulad namin, maaari nilang linlangin ang iba pang mga gumagamit sa pag-iisip na sa tingin nila ay tulad namin, na nagpapakain sa mas malaking prinsipyo ng pagkakapareho, bilang dinala sa aming lexicon ni John von Neumann, isang taong dekada noong 1950 na nagpapangaral sa ebanghel at mga nag-iisip tulad ni Ray Kurzweil. Ang 2005 na libro ni Kurzweil, "The Singularity Is Near, " ay nagpapasigla sa ilan at tinatakot ang iba. Inihula ni Kurzweil na sa pamamagitan ng 2045, ang "katalinuhan" bilang isang kababalaghan ay magiging labis na hindi nalalayo mula sa utak ng tao at lumipat sa teknolohiya, sumabog ang mga linya sa pagitan ng mga makina at kanilang mga panginoon.


Walang kamatayan sa mga lyrics ng Zager & Evans '"Sa Taon 2525" (walang sinuman ang nakakakilabot na sci-fi ballads tulad ng mga ito) …


Sa taong 4545

Hindi mo kakailanganin ang iyong mga ngipin, hindi kakailanganin

iyong mga mata

Hindi ka makakahanap ng isang bagay na ngumunguya

Walang tumingin sa iyo


Sa taong 5555

Ang iyong mga bisig na hangin ay limpo sa iyong panig

Ang iyong mga binti ay nakuha ng nothin 'na gawin

Ang doin 'ng ilang machine para sa iyo


Ang mga tinig ba ng computer ay isang hakbang sa direksyon na ito? Bilang isang bagong paraan upang mai-outsource ang ilan sa mga pag-andar ng katawan ng tao (o mas madalas, upang gayahin ang mga ito), ang ganitong uri ng pag-unlad ng tech ay isa sa mga pinakamalaking - at marahil ay na-underreport - pagsulong sa abot-tanaw habang tinitingnan namin ang isang isahan na hinaharap . (tungkol sa "pagkakapareho" sa Will Computers na Magagawang Makisaya sa Pag-iisip ng Tao?)

Naririnig ko ang mga patay na tao? gumagawa ng natural na tech na wika ang nabuhay ng mga nakaraan at kasalukuyang mga boses