T:
Bakit bumababa ang pagkakaiba-iba ng bagging sa pag-aaral ng machine?
A:Ang pagsasama ng Bootstrap, o "bagging, " sa pag-aaral ng makina ay bumabawas ng pagkakaiba-iba sa pamamagitan ng pagbuo ng mas advanced na mga modelo ng mga kumplikadong hanay ng data. Partikular, ang diskarte sa pag-bagging ay lumilikha ng mga subset na madalas na magkakapatong sa modelo ng data sa isang mas kasangkot na paraan.
Ang isang kawili-wili at prangka na ideya ng kung paano mag-aplay ng pag-bag ay ang pagkuha ng isang hanay ng mga random na sample at kunin ang simpleng kahulugan. Pagkatapos, gamit ang parehong hanay ng mga sample, lumikha ng dose-dosenang mga subset na binuo bilang mga puno ng desisyon upang manipulahin ang mga resulta sa wakas. Ang pangalawang kahulugan ay dapat magpakita ng isang truer na larawan kung paano nauugnay ang bawat indibidwal na mga halimbawa sa bawat isa sa mga tuntunin ng halaga. Ang parehong ideya ay maaaring mailapat sa anumang pag-aari ng anumang hanay ng mga puntos ng data.
Libreng Pag-download: Pag- aaral ng Machine at Bakit Mahalaga ito |
Dahil ang pamamaraang ito ay nagkukumpuni ng pagtuklas sa mas tinukoy na mga hangganan, binabawasan nito ang pagkakaiba-iba at nakakatulong sa sobrang pag-aayos. Mag-isip ng isang wildplot na may medyo ipinamamahaging mga puntos ng data; sa pamamagitan ng paggamit ng isang paraan ng pag-bag, ang mga inhinyero ay "pag-urong" ang pagiging kumplikado at mga linya ng pagtuklas ng orient upang mas mahusay ang mga parameter.
Ang ilan ay pinag-uusapan ang halaga ng pag-bagging bilang "hatiin at lupigin" o isang uri ng "tinulungan na heuristik." Ang ideya ay sa pamamagitan ng pagmomolde ng ensemble, tulad ng paggamit ng mga random na kagubatan, ang mga gumagamit ng pag-bagging bilang isang pamamaraan ay maaaring makakuha ng mga resulta ng data na mas mababa sa pagkakaiba-iba. Sa mga tuntunin ng pagbawas ng pagiging kumplikado, ang pag-pack ay maaari ring makatulong sa labis na pagkarga. Mag-isip ng isang modelo na may napakaraming mga puntos ng data: sabihin, isang kumonekta-the-tuldok na may 100 na hindi naka -ignign na tuldok. Ang nagresultang linya ng data ng visual ay mai-jagged, dynamic, pabagu-bago ng isip. Pagkatapos ay "iron out" ang pagkakaiba-iba sa pamamagitan ng pagsasama-sama ng mga hanay ng mga pagsusuri. Sa pag-aaral ng ensemble, madalas itong naisip na sumali sa ilang mga "mahina aaral" upang magbigay ng isang "malakas na pagkatuto" na resulta ng pakikipagtulungan. Ang resulta ay isang makinis, mas maraming contoured na linya ng data, at hindi gaanong ligaw na pagkakaiba-iba sa modelo.
Madali itong makita kung paano mailalapat ang ideya ng pag-bagting sa mga sistema ng IT ng negosyo. Ang mga pinuno ng negosyo ay madalas na nais ng isang "view ng mata ng ibon" ng kung ano ang nangyayari sa mga produkto, mga customer, atbp Ang isang overfitted na modelo ay maaaring bumalik ng mas kaunting natutunaw na data, at higit pang mga "nakakalat" na mga resulta, kung saan maaaring "mai-stablilisize" ang isang bag at gawing mas kapaki-pakinabang upang tapusin ang mga gumagamit.
