
好词典

源自拉丁语'corpus'(身体)的复数形式,18世纪进入英语学术用语,指'文本的集合体'。
❶ corpus的复数形式,指大量文本或语言数据的集合,常用于语言学研究或计算机自然语言处理领域。
“Linguists analyze corpora to study language patterns.”
(语言学家通过分析语料库来研究语言模式。)
“This research uses corpora from 19th century newspapers.”
(这项研究使用了19世纪报纸的语料库。)
text corpora — 特指由书面文本组成的语料集合,区别于语音或其他形式的语言数据。
“The project focuses on analyzing historical text corpora.”
(该项目专注于分析历史文本语料库。)
parallel corpora — 指包含两种或多种语言对应文本的语料库,常用于机器翻译研究。
“The bilingual dictionary was created using parallel corpora.”
(这本双语词典是利用平行语料库创建的。)