建立普通话词汇潮州音词库的倡议(2500 done,暂停)
Mogher正在建立注音词库。
词库将包含以下两部分:
1. 普通话词汇,其中大部分是书面语词汇;
2. 本土词汇。
为书面语词汇标注潮州音,有下面的理由:
1. 大量普通话词汇也经常应用在潮州话的口语或书面语中,汉语的共同词汇,比如成语等。
2. 对于多音字,可以清晰地让用户知道哪个音该用于哪个场合。
3. 为后面的输入法制作提供数据。
我已经开始为普通话词汇注音,词库采用http://pkucn.com/viewthread.php?tid=246869的数据。
其中有近百个由于Mogher数据的缺漏而无法自动注音;
近一半词汇由Mogher的数据自动注音;
另有一半的词(27013个)汇需要人工排除多音的情况。这大概需要35 man*hour的时间。
在这里希望大家有空的话可以帮忙排除。
word romanisation v1.1.rar (1014.06 KB)(右键另存为,手动重命名)
文件的格式如下:
Column 1, ID: 内部使用,请勿改动。
Column 2, R Count: 不同注音的个数。
Column 3, Confused: 如果对该词有任何疑问,比如不清楚发音、注音有误等。请用“1”或其他数字标示。
Column 4, Word: 该词
From column 5 on: 各种注音可能性,一格代表一种可能性。
如何操作:
1. 打开文件,选择“激活Macro”。
2. 对于每个词,从第5列开始,把有效的注音标志成蓝色,无效的保留白底,但无需删除。
3. 标注蓝色的方法是:把光标移至该格,然后按"Ctrl + A",该格自动变成蓝色。这样就可以通过四个方向键加上Ctrl+A就可以完成所有操作,操作比较方便。
如“安定”an1 tia~7, ua~1 tia~7皆有效, 在第5, 7列。则需要把第5、第7列标志成蓝色。
我已经开始处理2-2000行的词汇。
Completed
2-2500 (ID<=4988)
In Progress
2001-3000 (ID<=6057) Bodhi
[ 本帖最後由 Bodhisatua 於 2009-11-20 09:27 編輯 ] |