Kata Istilah |
Kata Sasar |
Kata Takrif |
homogeneity | kehomogenan | Konsep dalam reka bentuk korpus, iaitu teks hanya diambil dari satu sumber atau sumber yang setara. |
European Language Resources Association (ELRA) | Persatuan Sumber Bahasa Eropah (ELRA) | Persatuan di Eropah yang mempromosikan dan mengawasi pengeluaran dan pengedaran sumber bahasa untuk digunakan dalam pemprosesan bahasa tabii (NLP), dan penilaian teknologi NLP. |
Consortium for Lexical Research (CLR) | Konsortium Penyelidikan Leksikal (CLR) | Gabungan penyelidikan untuk membangunkan arkib sumber bahasa tabii yang dapat diguna sama oleh semua penyelidik. |
distribution | taburan | 1. Faktor dalam mereka bentuk korpus. Taburan teks mengambil kira kadar dari segi sumber, saiz dan jenis teks bagi memastikan keterwakilan sesebuah korpus. 2. Kaedah analisis data korpus. Taburan kekerapan sesuatu kata mengikut genre teks. |
ethics | etika | Prinsip dan nilai yang perlu dipatuhi dalam pengumpulan korpus seperti mendapatkan kebenaran hak cipta, persetujuan untuk dirakam daripada sumber data bagi korpus lisan/pertuturan serta tidak mengubah ketulenan teks. |
Linguistic Data Consortium (LDC) | Konsortium Data Linguistik (LDC) | Gabungan terbuka universiti, syarikat dan makmal penyelidikan bagi mengumpulkan, menghasilkan dan menyebarkan data lisan dan teks, leksikon serta sumber linguistik lain bagi penyelidikan dan pembangunan. |
|
|