好词典

corpora

UK /ˈkɔː.pər.ə/US /ˈkɔːr.pɚ.ə/

词源

源自拉丁语'corpus'(身体)的复数形式,18世纪进入英语学术用语,指'文本的集合体'。

noun

❶ corpus的复数形式,指大量文本或语言数据的集合,常用于语言学研究或计算机自然语言处理领域。

“Linguists analyze corpora to study language patterns.”

(语言学家通过分析语料库来研究语言模式。)

“This research uses corpora from 19th century newspapers.”

(这项研究使用了19世纪报纸的语料库。)

同义词:collections, databases, archives

常见短语

text corpora — 特指由书面文本组成的语料集合,区别于语音或其他形式的语言数据。

“The project focuses on analyzing historical text corpora.”

(该项目专注于分析历史文本语料库。)

parallel corpora — 指包含两种或多种语言对应文本的语料库,常用于机器翻译研究。

“The bilingual dictionary was created using parallel corpora.”

(这本双语词典是利用平行语料库创建的。)