Kata Istilah |
Kata Sasar |
Kata Takrif |
duplication | penduaan/duplikasi | Beberapa teks yang mempunyai kandungan sama ditemui dalam korpus yang sama. Penduaan ini harus dielakkan dalam pembinaan data korpus. |
ditto tags | tanda ditto | Tanda yang sama digunakan untuk menandai setiap unsur dalam sesuatu frasa atau rangkai kata. Misalnya dalam ayat Asmiah sering kali membantu mereka, sering kali berfungsi sebagai penerang kepada kata kerja. Tanda yang sama KS digunakan untuk sering_KS |
homograph | homograf | Bentuk kata yang mempunyai ejaan yang sama tetapi maksud yang berbeza. |
parallel corpus | korpus selari | Himpunan data dua bahasa berbeza yang disejajarkan, sama ada ayat demi ayat atau perenggan demi perenggan atau teks demi teks. |
synchronic corpus | korpus sinkronik | Korpus yang mengandungi himpunan teks yang dihasilkan dalam tempoh sama bagi menggambarkan penggunaan bahasa pada masa tersebut. Banding diachronic corpus. |
disambiguation | penyahtaksaan | Peleraian ketaksaan dalam bahasa. Proses ini berlaku dengan adanya penandaan korpus sama ada secara manual atau automatik. |
co-occurrence | kejadian bersama | Kebarangkalian dua kata yang hadir secara bergandingan atau berdekatan antara satu sama lain. Lihat juga collocation, colligation. |
cluster | gugusan | 1. Satu kelompok rangkai kata. 2. Satu kelompok teks dengan ciri linguistik yang sama. |
comparability | kebolehbandingan | Tahap penyeragaman struktur, saiz dan komposisi teks yang membolehkan dua korpora dibandingkan antara satu sama lain. |
semantic preference | keutamaan semantik | Kecenderungan sesuatu kata digandingkan dengan satu himpunan kata dalam medan semantik yang hampir sama atau seperangkat. |