William词典数字化(90% proofreaded, 90% double checked)

【项目简述】
本项目所涉及之William词典,通称“卓威廉词典”,原名English-Chinese Vocabulary of the Vernacular or Spoken Language of Swatow,汉译《英华对照潮州方言词典》,亦可译作《英潮词典》《英汉潮汕方言词典》《英汉汕头土白词典》《英华潮腔语汇》《英潮语汇》《英汕语汇》等。

本词典初稿为清末道光、咸丰年间来华南传教的德国巴色会(崇真会)牧师黎力基(Rudolph Lechler)根据美国著名汉学家卫三畏(S. W. Williams)的手稿初步编定。黎力基于清道光二十八年(1848)从香港到南澳后宅、潮安龙湖等地布道,未被当地官府所容,翌年2月转到澄海盐灶沿海一带布道,同年设立盐灶教堂,这是基督教传入潮汕之肇始。1850年6月先后为8名信徒施洗,这是基督教在潮汕的首批教徒。至咸丰二年(1852)已有13名信徒受礼。但为官府所禁止,黎也被潮州府尹驱逐返港。
将这本词典最终整理编成付梓者,系英伦长老会牧师William Duffus(汉名卓威廉、卓为廉),所以本坛多简称此字典卓威廉字典。这是当年用潮州话白话字编著的重要词典之一。据游汝杰先生的《<圣经>方言译本书目考录》,潮语圣经诸译者中就有这位W. Duffus先生的名字,潮语《圣经》的《创世纪》《路加福音》《约拿书》《雅各书》《哈该书》《玛拉基书》《哥林多后书》等篇均有Duffus先生手笔。

本词典于1883年由English Presbyterian Mission Press(英华书局)出版。正文302页,收录潮语词汇非常丰富,颇为全面地反映了清末潮州方言的基本面貌。在潮语的罗马字典中,除去斐姑娘(Fielde)的600多页《汕头方言音义词典》外,应该算卓威廉这一本收词为多了。

百余年沧桑变幻,潮汕方言如今已然和当年有了不少差异,然而词典中很多地道鲜活的表达,至今读来,却还能挑动记忆中童年的心弦。如今潮语和众多的方言一样,在面对官话文化大规模影响的形势下,都在思考如何保持自身的文化-语言身份。承载着母体文化的母语——潮汕方言在近些年的报道中频频告急,年轻一代的母语能力如何才能承继下去?各界同仁都在思考应对之道。
我们认为,重温乃至复苏那些已经或即将被普通话词汇强势覆盖的潮汕本土语词,对于提升新一代潮人母语能力无疑将大有裨益。
再者,前贤有言:“观今宜鉴古,无古不成今。”了解我们伟大母语及其文化的过去,有助于我们更深刻得理解潮汕文化和语言的现状,从而为潮汕文化未来的合理规划提供一个支撑点。

这是我们团队决定将十九世纪的一批罗马字文献进行数位化/信息化的初衷,而卓威廉字典正是我们庞大计划中的第一步。

我们的计划需要海内外广大热爱母语的潮汕同乡以及各界友人之协助,如您略有空闲,愿意一起为母语出一份力,欢迎随时与我们联系。

【词典序言】
这同时也是识别后经整理的结果。
Preface.rar (38.23 KB)(右键另存为,手动重命名)


【流程】
1. 对William词典实施OCR。
2. 将识别后的数据以Word格式分文件保存。
3. 对识别结果进行校对、更正,结果要求严格和原文一致。(由所有志愿者完成) < 正在进行中
4. 将数据导入Excel,进行normalization,以便后期的统计、检索、分析处理。
5. 对校对结果进行复查。
6. 更正原文的错误,但保留原文。
7. 在Mogher中提供全文检索功能。

以下Optional:
8. 对所有潮州词汇设置一标志位,标志该词在今天在府城是否仍在使用。也可以设置更复杂的标志位。
9. 对所有词汇又Mogher生成词汇汉字候选列表。
10. 对7的结果进行人工筛选。


【志愿者的工作】
现阶段志愿者的工作是对已经OCR的初始文稿进行第一次校对,即上述的第3点。有意参与的志愿者请通过邮件[email protected]与我们联系,我们将会将您负责校对的该部分初稿以及相对应的字典页面jpg发送给您。操作方法请参考下面的【操作说明及要求】。

【操作说明及要求】
下面是针对流程中第3步地说明和要求:

操作说明
1. 打开为每个志愿者独立发送的word文档,如有安全提示,请选择“激活宏“。
2. 每个词条(即每一个粗体的英语单词)都另起一行。确保:
(1)每个词条条目的那个英语单词的背景色都是浅灰色
(2)词条中的英语语句的字体是浅蓝色,但括号内的英语则不需要标志成蓝色;
(3)除上述两者之外,其他正文没有背景色或者字体颜色。
默认的背景色和字体颜色已经设置好,但如果有错误请更正。

Capture.JPG



3. 保持原来的字体、大小、粗细不变。
4. 校对内容中的所有字符要与原文严格一致。而空格的多寡保留识别的结果即可。另外确保表示“轻声”的两个连字符“--“之间不要有空格。单词、拼音内部也不要有空格。
5. 原文的所有字符包括:26个英文字母,若干标点符号,标示鼻化韵的ⁿ,以及(用来表示“鱼”、“居”、“此”等字的韵母)和各种表示不同声调的调符。
6. 一共有8个调,其中第1、4调不需要标记调符,而其他调需要标记,具体如下(以a为例):
调序235678
调符

7. 以上的ⁿ、ṳ以及带调符的字符比较难输入,在校对的时候,当需要更正的内容包含这些字符时,ⁿ可以用~代替。对于ṳ,如果ṳ有调符的话,ṳ本身可以用小写的v代替,如果没有调符,则用v1代替。对于带调符的字母,可用该字母本身后面跟一个调号来表示,如ha̍p(第8调)可ha8p用表示,kṳ̃n(第6调)可用kv6n表示,kuâⁿ可用kua5~表示。注意不要包含空格
8. 在校对完成后,请按Ctrl+O,所有在第7步中输入的临时字符将自动转换为正式的字符,并标以浅蓝色背景。

COLUMN120117.jpg




【参考样本】
下面是原文正文第1-5页的校对结果,供参考:
Sample Result.rar (26.05 KB)(右键另存为,手动重命名)


【任务分配与进度】
以原文页码为依据。
PageStatusProofreadDouble Check
By (Date)HoursBy (Date)Hours
1-5Double Checked2009/12/11.82009/12/51.0
6-20Double Checked    
21-35Double Checked2009/12/5 N/A2009/12/6 N/A
36-50Double Checked2009/12/21 2010/1/20 
51-65Being Proofreaded    
66-75Double Checked2009/12/52.02009/12/81.7
76-90Being Proofreaded   
91-105Double Checked2009/12/29 2010/1/20 
106-120Double Checked2009/12/830.02009/12/10 
121-135Double Checked2009/12/9 2009/12/12 
136-150Double Checked2009/12/63.02009/12/82.0
151-165Double Checked    
166-180Double Checked2009/12/95.22009/12/15 
181-195Double Checked2009/12/22 2010/1/222.5
196-210Double Checked  2010/1/26 
211-225Double Checked2010/1/17   
226-240Double Checked2010/1/11   
241-255Double Checked2010/1/17   
256-270Double Checked2010/1/17 2010/1/27 
271-285Double Checked2010/1/17   
286-302Double Checked2010/1/17 2010/1/31 



[ 本帖最後由 Bodhisatua 於 2010-1-31 20:51 編輯 ]
功德无量。
ṳ用v替寫…不好,今後用「替換」程序復原的時候,會發生誤替。建議改成雙寫的vv.
最愛還是閩東語(Eastern Ming Language)..., 欲罷不能.

 平上去入
上1234
下5678

回復 #1 Bodhisatua 的帖子

建议按现论坛的旧式潮罗甚至其变体来处理,这样方便查询与沟通。
至于不能打调号,可以参考一些常规做法,譬如:
「近」标「kwn6」;「合」标「hap8」;「敢」标「kaN2」等。
最后采用程序处理这部分字符。

或许所有的识别后结果均按该处理方式,
届时最终显示再转换,可减少后续工作量。
建议按现论坛的旧式潮罗甚至其变体来处理,这样方便查询与沟通。
校对的时候跟原文一样能让校对者比较容易适应,特别是对于不熟悉POJ的。后期处理都会转换为Mogher的Internal Romanisation,继而可以转为各种其他的scheme。[流程]第5点将处理这个问题。
至于不能打调号,可以参考一些常规做法,譬如:
「近」标「kwn6」;「合」标「hap8」;「敢」标「kaN2」等。
最后采用程序处理这部分字符。
可参考[操作说明]第8点。

回復 #3 Nguang 的帖子

对,缺陷 ,后来我在实践中碰到了这个问题。

已改用v1代替,因为词典中不存在数字,用v1肯定不会有他用。
我今天check了几页,一小时能check 3页,当然前提是我对POJ很熟悉。

按照这样算,100个小时就可以全部解决。考虑到某些人不是很熟,那么整个第3步的effort大概在100-250hours左右。

处理后样本展示

以下是重新生成的结果,即在流程4完成后重新生成的,页码与原文保持一致的文档。

Generated Doc Sample.rar (11.36 KB)(右键另存为,手动重命名)

[ 本帖最後由 Bodhisatua 於 2009-12-3 21:22 編輯 ]

支持

只能精神加油。

回復 #9 柴头 的帖子

柴头兄为何不能物质或体能一把
Tshṳ̂-pui Avalokiteśvara Phŏ-sat pó-hō tshuân-ke-nâng jît-jît phêng-an!
蹉跎莫遣韶光老 人生唯有讀書好 學須靜也  才須學也

--------------------------------------------
潮州话八调代表字:
1胎tho 2讨thó 3退thò 4托thoh
5逃tô 6在tŏ 7袋tō 8夺tôh
潮罗特殊变体:[ɯ]=ṳ=ur;[ã]=aⁿ=an;
[aʔ8]=âh=a̍h;[ts]=ts=ch;[tsʰ]=tsh=chh