Kata Istilah |
Kata Sasar |
Kata Takrif |
tagging | penandaan | Proses melakukan anotasi tambahan pada data korpus. |
standardisation | pemiawaian | Proses menyeragamkan kekerapan senarai kata dengan menyatakan kekerapannya dalam bentuk per seratus, per seribu atau per sejuta kata mengikut penormalan yang sesuai. |
segmentation | segmentasi | Proses memenggal atau memisahkan ungkapan teks kepada unit yang lebih kecil seperti ayat atau perkataan (atau juga morfem). Segmentasi biasanya dilakukan secara automatik oleh perisian yang direka khas. |
parsing | penghuraian | Proses menghuraikan dan menandai struktur sintaksis teks mengikut kategori seperti frasa nama, frasa kerja dan klausa. |
normalization | penormalan | Proses menyetarakan dua atau lebih korpora yang berlainan saiz dengan menggunakan frekuensi yang dinormalkan kepada asas sepunya (per sejuta perkataan atau per seribu perkataan). Penormalan ini adalah untuk membandingkan data kajian. |
lemmatisation | pelemaan | Proses anotasi automatik yang mengumpulkan kata-kata dalam korpus mengikut lema. Pelemaan kata lari, berlari, melarikan, pelari, pelarian dan sebagainya dikenal pasti dan ditandakan lemanya sebagai LARI. |
encoding | pengekodan | Proses menandai unsur dalam korpus seperti jeda perenggan, batas ucapan dan sebagainya sehingga dapat dikenali dengan mudah oleh perisian komputer dan pengguna korpus. |
proofreading | pembacaan pruf | Proses menyemak teks secara manual pada peringkat akhir dalam pembinaan korpus. |
design | reka bentuk | Proses pertama dalam pembinaan korpus. Reka bentuk korpus bergantung pada tujuan dan kegunaannya bagi menentukan jenis, kandungan, struktur, saiz teks dan sebagainya. |
compilation | penyusunan/kompilasi | Proses membina korpus berdasarkan reka bentuk, perancangan sistem penstoran, keizinan hak cipta, penangkapan teks dan sebagainya. |
|
|