Talaan ng mga Nilalaman:
Kahulugan - Ano ang ibig sabihin ng Tokenization?
Ang Tokenization ay ang pagkilos ng paghiwalay ng isang pagkakasunod-sunod ng mga string ng mga piraso tulad ng mga salita, keyword, parirala, simbolo at iba pang mga elemento na tinatawag na mga token. Ang mga token ay maaaring indibidwal na mga salita, parirala o kahit na buong pangungusap. Sa proseso ng tokenization, ang ilang mga character tulad ng mga bantas na marka ay itinapon. Ang mga token ay nagiging input para sa isa pang proseso tulad ng pag-parse at pagmimina ng teksto.
Ang tokenization ay ginagamit sa agham ng computer, kung saan ito ay gumaganap ng isang malaking bahagi sa proseso ng lexical analysis.
Ipinapaliwanag ng Techopedia ang Tokenization
Ang Tokenization ay nakasalalay sa karamihan sa simpleng heuristik upang paghiwalayin ang mga token sa pamamagitan ng pagsunod sa ilang mga hakbang:
- Ang mga token o salita ay pinaghihiwalay ng whitespace, mga marka ng bantas o mga linya ng linya
- Ang mga puting puwang o bantas na marka ay maaaring o hindi kasama depende sa pangangailangan
- Ang lahat ng mga character sa loob ng magkakasalungat na mga string ay bahagi ng token. Ang mga token ay maaaring binubuo ng lahat ng mga alpha character, alphanumeric character o numeric character lamang.
Ang mga token mismo ay maaari ring maging mga separator. Halimbawa, sa karamihan ng mga wika ng programming, maaaring mailagay ang mga identifier kasama ang mga operator ng aritmetika nang walang mga puting puwang. Kahit na tila ito ay lilitaw bilang isang solong salita o token, ang grammar ng wika ay aktwal na isinasaalang-alang ang matematiko operator (isang token) bilang isang separator, kaya kahit na maraming mga token ay bunched up nang magkasama, maaari pa rin silang ihiwalay sa pamamagitan ng matematika operator.