Bahay Audio Kung bakit ang hadoop ay isang perpektong tugma para sa pagkakasunud-sunod ng genome

Kung bakit ang hadoop ay isang perpektong tugma para sa pagkakasunud-sunod ng genome

Talaan ng mga Nilalaman:

Anonim

Ang klinikal na genomics ay isang kamangha-manghang paksa, kung saan ang mga tao ay nagtatrabaho sa mga teknolohiyang paggupit upang maproseso ang mabilis at tumpak na mga resulta. Mayroong maraming mga genome sequencers na magagamit sa merkado, at gumagawa sila ng mga petabytes ng data ng pagkakasunud-sunod, at ang paglaki sa pagkakasunud-sunod ay makagawa ng mga exabytes ng data sa malapit na hinaharap. Dito, ang Hadoop ay ang perpektong platform para sa pagproseso ng kumplikadong daloy ng trabaho ng genomics. Ang Hadoop ay maaaring mag-imbak at mag-uri ng napakalaking dami ng impormasyon at maaari ring magbigay ng makabuluhang pagsusuri. (Upang makakuha ng isang ideya ng kung gaano karaming data ang talagang sumasama, basahin ang Pag-unawa sa Mga Bits, Byte at Kanilang Mga Multiple.)

Ang Kasalukuyan at Hinaharap ng Genomics

Sa ngayon, ang pag-mapa ng genome ay umabot sa rurok ng pag-unlad nito. Maraming mga taong nauugnay sa industriya ng genomics ang sumasabog sa pag-usisa, at habang ang mga bagong pagkakataon ay nagpapakita ng kanilang sarili, ang mas mahusay na teknolohiya ay ang pangangailangan ng oras. Ang pagkakasunud-sunod ng genome ay isang paulit-ulit na gawain at masinsinang mapagkukunan. Noong 2013 lamang, mga 15 petabytes ng data ang ginawa, at sa pamamagitan lamang ng 2, 000 mga sunud-sunod. Ang halaga ng pagbagsak ng panga na ito ay kasama ang 300 KB ng sunud-sunod na data ng genome ng tao. Sa rate na ito ng paggawa ng data, matatantiya na sa 2018, tungkol sa isang exabyte ng data ang gagawin. Ito ay dahil sa paglaki ng mga magkakasunod, na makagawa ng higit pa at mas maraming data sa bawat pagtakbo. Ang isa pang kadahilanan ay ang pagdating ng labis na makapangyarihan at murang mga pagkakasunud-sunod na makina ng pagkakasunod-sunod. Mula noong 2008, ang presyo ng mga makina ay patuloy na bumababa. Ito ay dahil sa makapangyarihang mga susunod na henerasyon na makina na naipalabas sa merkado.

Ang Pangangailangan ng Genome Mapping Industry

Ang mga kumplikadong algorithm ay ginagamit para sa pagproseso ng data na kinokolekta mula sa genome ng tao. Pagkatapos, ang impormasyong ito ay kailangang maimbak. Maaari itong suriin sa hinaharap para sa paghahambing sa orihinal na data. Ang gawain ng pagproseso at pag-iimbak ng 100 GB ng data ay hindi masyadong mahirap, lalo na kung ginagawa mo ito sa mga makapangyarihang makina na nagtatrabaho sa mga sentro ng pagkakasunud-sunod. Ipinapakita ng mga pag-aaral na ang halagang ito ng data ay maaaring maiproseso sa halos 1, 000 na oras ng CPU, kaya napakadali. Sa rate na ito ng pagsulong ng teknikal, makikita na ang industriya ng genome ay malapit nang iproseso ang libu-libong mga gigabytes sa loob lamang ng ilang segundo.

Kung bakit ang hadoop ay isang perpektong tugma para sa pagkakasunud-sunod ng genome