Kata Istilah |
Kata Sasar |
Kata Takrif |
tagset | set tanda | Kumpulan kod yang digunakan dalam pengekodan atau skema penandaan untuk menganotasi korpora berdasarkan teori bahasa, iaitu kategori nahu (penandaan golongan kata) atau kategori semantik. |
granularity | darjah pemerincian/granulariti | Tahap pemerincian kategori dalam skema anotasi yang digunakan. |
parsing | penghuraian | Proses menghuraikan dan menandai struktur sintaksis teks mengikut kategori seperti frasa nama, frasa kerja dan klausa. |
part-of-speech tagging (POS) | penandaan golongan kata (POS) | Proses anotasi kategori tatabahasa pada perkataan, morfem atau frasa, biasanya melalui penanda automatik seperti penanda CLAWS dan TAGGIT. |
parts-of-speech tags (POS tags) | tanda golongan kata (POS tags) | Kod yang diberikan pada setiap perkataan dalam korpus untuk menunjukkan kategori tatabahasa perkataan itu contohnya kata nama, kata kerja, kata adjektif dan sebagainya. |
morphological richness | kekayaan morfologi | Sifat bahasa yang merujuk kepada kepelbagaian perubahan dalam bentuk kata. Bahasa seperti bahasa Arab atau Latin mempunyai kekayaan morfologi yang tinggi kerana terdapat banyak bentuk infleksi bagi pelbagai kategori nahu bahasa. |