必威电竞|足球世界杯竞猜平台

語料庫
來源:互聯網

語料庫是指通過科學抽樣和加工而形成的大規模電子文本庫,其內容來源于實際使用中真實出現過的語言材料。語料庫作為基礎資源,可用于語言理論及應用研究,包括詞典編纂、語言教學、傳統語言研究以及自然語言處理中基于統計或實例的研究等領域。語料庫的發展經歷了多個階段,其中第三代語料庫是一種動態流通的語料庫,它不僅記錄了語言的歷史演變,還反映了當前語言的使用情況。

基本概念

名稱由來

語料庫(corpus,復數corpora)一詞源于拉丁語,指的是大規模的電子文本集合,這些文本經過科學抽樣和加工,可供研究人員利用計算機工具進行語言研究。

庫內資料

語料庫由語言使用者在實際語言環境中產生的真實語言材料構成,經加工處理后形成語言資源。其內容通常包含三部分信息:原始數據(如書面文本、口頭文本)、元數據(關于文本的非語言信息)、標注信息(如手動或自動標注的語言學信息)。語料庫的質量與規模會對自然語言處理等技術的性能及應用效果產生影響。語料庫不僅是語料庫語言學研究的基礎資源,也是經驗主義語言研究方法的主要資源。

類型劃分

語料庫的種類多樣,主要依據其研究目的和用途進行區分,這一點往往能夠在語料采集的原則和方式上有所體現。常見的分類包括異質語料庫(沒有特定的語料收集原則,廣泛收集并原樣存儲各種語料)、同質語料庫(只收集同一類內容的語料)、系統語料庫(根據預先確定的原則和比例收集語料,使語料具有平衡性和系統性,能夠代表某一范圍內的語言事實)和專用語料庫(只收集用于某一特定用途的語料)。此外,還可按語種分為單語的(Monolingual)、雙語的(Bilingual)和多語的(Multilingual)語料庫,以及按采集單位分為語篇、語句和短語語料庫。雙語和多語語料庫還可細分為平行語料庫和比較語料庫。

主要特征

語料庫具備三個顯著特征:其一,語料庫收錄的是真實的語言材料;其二,它是承載語言知識的基礎資源而非語言知識本身;其三,真實語料需要經過加工處理才能成為有效的資源。

發展歷程

語料庫的發展經歷了早期、第一代、第二代至第三代的過程。第三代語料庫被稱為動態流通語料庫,它是一種歷時性的語料庫,通過對語言文字的使用進行動態追蹤,實現對語言發展變化的監測。

動態流通語料庫

定義

動態流通語料庫是第三代語料庫的一種,它基于大規模真實文本,對語言的文字使用情況進行動態追蹤,旨在監測語言的發展變化。

特色

這種語料庫有兩個突出特點:一是語料的動態性,即語料庫不斷更新擴充;二是語料的流通性,即語料庫新增了一種具有量化屬性值的“流通度”屬性。

特點

動態流通語料庫的特點在于其動態性和流通性。它們不受固定庫容量、時間跨度、文本選擇范圍或抽樣對象的限制,而是根據大眾媒體的傳播情況動態抽取語料。同時,它們也能夠觀察和測量流通度的變化情況,并反映語言成分的產生、成長和消亡過程。

雙語或多語語料庫

雙語和多語語料庫按照語料的組織形式,還可以分為平行語料庫和對照語料庫。前者中的文本互為譯文,多用于機器翻譯、雙語詞典編撰等應用領域;后者將表述同樣內容的不同語言文本收集到一起但不構成對譯關系,主要用于語言對比研究。在中國,對于雙語語料庫的應用研究較為普遍,但對于其設計、采集、編碼和管理方面的研究尚待深入。目前,國內最大的語料交換平臺是Tmxmall語料商城。

研究機構

語料庫研究在全球范圍內受到重視,多家研究機構致力于相關領域的研究,其中包括中國的上海外國語大學語料庫研究院和日本的國立國語研究所等。

參考資料 >

科研方法 | 超實用!37個國內常用語料庫集錦,建議收藏.個人圖書館.2024-08-15

三分鐘科普|語料庫初探(一).翻譯學習共同體.2024-08-15

人工智能語料庫技術是什么?來看科普!.百家號.2024-08-15

生活家百科家居網