前文链接: 如何把一个单词分解成词根+词缀的组合?
项目 GitHub,项目测试地址:Find root-affixes🍂 of word。
经过一个礼拜的努力,整理出了词根词缀表,以及单词其他形式表,根据自己编写的查找规则,已经可以初步查找出一个单词的词根词缀组合了。
当然也有不少问题,如:
- 缺少必要的词根词缀,导致部分单词查找不到组合,比如
wolf,strong -
不准确
- 查找规则可能导致部分正确组合被过滤了
- 问题 1 的延伸
- 两个单词的组合词,比如
honeyguide
-
多组合
- 依然有可能返回多种词根词缀组合,比如
agitation
- 依然有可能返回多种词根词缀组合,比如
目前的改进思路,希望加入词干提取器,先提取出词干,再进行分解,但词干提取器似乎也存在不准确的情况,需要多验证。
先不说了,大家自己看哈。
欢迎找错,欢迎多提建议和 Issues ,谢谢