简介 | 分句 | 用户词典 | NER | 新词识别 | 模型/算法 | 开源 | |
---|---|---|---|---|---|---|---|
结巴分词 | 开源 | ||||||
哈工大LTP | 根据中文标点里的句号、问号、感叹号、分号、省略号。 | C++ | |||||
中科院NLPIR | |||||||
计算所ICTCLAS | CHMM(层叠形马尔可夫模型)。进行原子切分,然后在此基础上进行N-最短路径粗切分,找出前N个最符合的切分结果,生成二元分词表,然后生成分词结果,接着进行词性标注并完成主要分词步骤 | C/C++ | |||||
IKAnalyzer | 轻量级 | 结合词典分词和文法分析算法 | java |
参考
https://www.zhihu.com/question/19578687