原帖由 輶轩使者 於 2009-11-16 08:05 發表
另外涉及一个问题,多读的词,是否按照使用频率排序呢?比如uann-tshuân排在an-tshuân之前? ... 可以,但不在这一round的scope里面,这一次只专注排除。当所有的排除以后,才会去关注词频问题。
因为在排除的结果里面可能80%以上的词都是单音词,不存在多音使用频率的问题。我们只需要对为数不多的存在多音的词设计出便捷的工具来解决词频排序。
事实上现在cover的只是第一步,整个工序会是这样的:
1. 排除非法注音。
2. 排除的过程其实也是对Mogher字库的检验,比如说缺音现象。可以根据检验的结果来修正字库。
3. Review,包括对另外20000多个本来就只有一个注音,不需要排除的词。
4. 针对多音词的注音进行优先排序。
5. 将每个祠与字库的definition关联。以前都是没有释义的,一个字不同含义的各个音都在收在一个选项里面,目前对本土字汇正在逐步区分。词与义的matching将会导致对释义的细分,至少是对本土字汇的释义的细分。
以上除第4步以外都需要一定的effort.
[ 本帖最後由 Bodhisatua 於 2009-11-16 11:58 編輯 ] |