jcseg是一款由Java開發的開源中文分詞器,采用mmseg算法實現。它作為一款獨立的分詞組件,不僅適用于Lucene,還提供有相應的分詞接口。jcseg遵循Apache授權協議,以Java語言編寫,可在不同操作系統上運行。
功能特色
jcseg具有多種獨特的功能特性,包括:
1. mmseg四種過濾算法,分詞準確率達到98.41%。
2. 支持自定義詞庫,在jcseg源碼中的lexicon文件夾下,用戶可以自由地添加、刪除或修改詞庫及其內容,并對詞庫進行分類管理。
3. 詞庫集成了《現代漢語詞典》和cc-cedict辭典中的詞條,并根據cc-cedict詞典為詞條標注拼音,同時根據《中華同義詞詞典》為詞條標注同義詞(未完成)。通過修改jcseg.properties配置文件,用戶可以選擇在分詞過程中包含拼音和同義詞。
4. 中文數字和中文分數識別,能夠將文本中的中文數字和分數自動轉換為阿拉伯數字并加入分詞結果中。
5. 支持中英混合詞的識別,如"B超", "x射線"等。
6. 更好的英文支持,能夠識別電子郵件、網址、小數、分數、百分數以及字母和標點符號組成的詞匯,如"C++", "c#"等。
7. 支持阿拉伯/中文數字基本單字單位的識別,如"2012年", "五折"等,并能自動轉換為"5折"的形式。
8. 自動處理圓角/半角字符和大小寫字母的轉換。
9. 特殊字母識別,如"Ⅰ", "Ⅱ"等。
10. 特殊數字識別,如"①", "⑩"等。
11. 提取配對標點內容,如"《java編程思想》", "'暢想杯黑客技術大賽'"等。
12. 智能中文人名識別,識別正確率超過94%,并通過維護相關詞庫文件提升準確性。
分詞速度
在特定的測試環境下,jcseg的分詞速度表現出色,具體數據如下:
Simple模式:1366058字/秒,3774.5KB/秒。
Complex模式:479338字/秒,1324.4KB/秒。
配置信息
jcseg提供了豐富的配置選項,允許用戶根據實際需求調整分詞行為。這些配置選項記錄在jcseg.properties文件中,涵蓋了詞性的加載、拼音和同義詞的支持、中文人名識別等多個方面。
參考資料 >
java開源中文分詞-jcseg.51CTO博客.2024-10-29
中文分詞器 jcseg 和 IK Analyzer.騰訊云.2024-10-29
切詞框架jcseg,入門.CSDN博客.2024-10-29