Skip to content

基于4-tag标注好的2019中文维基语料库,使用hanlp进行标注

Notifications You must be signed in to change notification settings

fastcws/tagged-wiki2019zh

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 

Repository files navigation

进行了分词标注的2019中文维基语料库

基于经过清洗和切分的2019年中文wiki语料库wiki2019zh.zip,使用hanlp中的COARSE_ELECTRA_SMALL_ZH模型进行了分词。

分词结果采用4-tag BMES标注法进行了序列标注,格式如下:

假设被分词的语料是:你好Tom。我喜欢吃羊肉串。,标注结果为:

你 B
好 E
T B
o M
m E
。 S
SENTENCE END
我 S
喜 B
欢 E
吃 S
羊 B
肉 M
串 E
。 S
SENTENCE END
TEXT END

使用中可能需要注意嵌入(embeddings)和标点符号的处理方式,以及语句和语料结束的标志SENTENCE ENDTEXT END

分词使用的脚本是process_wiki_data.py

运行此脚本需要花费大量的时间:

  • CPU型号:Intel Xeon(Cascade Lake) Platinum 8269CY
  • CPU主频:2.5Ghz/3.2Ghz
  • 花费时间:7天11小时2分钟