|
|
 |
繁简转换的难点
繁简互转,如果需要做到 100% 精确,实际上是一个非常复杂的工作。根据转换的精确性等级,大概可以分成 4 个等级:
1. 字符码表一对一映射。
2. 对于一对多单字,根据词语识别进行转换。
3. 对词语表达方式差异的转换。
4. 根据上下文的词汇翻译。
|
|
|
 |
转换等级一
内码映射
其转换机制是按照内码字符映射表,在繁简转换时,用 BIG5 的内码把 GB 的内码替换掉,在繁简转换的时候就反过来。例如,GB
2312-80 0xB9FA 代表简体字国, 繁简转换的时候就把它替换成 0xB0EA 对应繁体 BIG5
码的国字。根据我们实践证明,如果按照字符的转错几率来统计,对一般性质的文本,该处理方式可以达到 98%
的准确率。但其弱点是由于简繁字体并非一对一的关系,因此忽略掉一些其他较不常用的字。 以下是一个一对一字符内码映射表的例子:
|
繁体目标 |
BIG |
简体源 |
内码 GB (EUC) |
其他可能性 |
|
出 |
A558 |
出 |
B3F6 |
出 |
|
发 |
B56F |
发 |
B7A2 |
发 |
|
干 |
A47A |
干 |
B8C9 |
乾 干 干 |
|
暗 |
B774 |
暗 |
B0B5 |
闇 |
|
里 |
B8CC |
里 |
C0EF |
里 里 |
|
征 |
BC78 |
征 |
D5F7 |
征 |
|
门 |
AAF9 |
门 |
C3C5 |
|
|
汤 |
B4F6 |
汤 |
CCC0 |
|
|
|

|
转换等级二
一对多关系的字根据词语识别转换
对于一个单字应该翻译成在当前有可能的异种内码中的哪 里一个,我们可以根据该字所在的词汇来决定。比如下表:
|
繁体词语 |
简体词语 |
拼音 |
英文 |
|
头发 |
头发 |
tou2fa0 |
hair |
|
特征 |
特征 |
te4zheng1 |
characteristic |
|
出发 |
出发 |
chu1fa1 |
start off |
|
干燥 |
干燥 |
gan1zao4 |
dry |
|
暗里 |
暗里 |
an4li3 |
secretly |
|
千里 |
千里 |
qian1li3 |
long distance |
|
秋千 |
秋千 |
qiu1qian1 |
a swing |
在上表中,头发与出发的“发”字在简体中是同一字型的,但繁体中却不一样。这样就可以根据“发”字所在的词汇来对该字进行准确的转换。如果是头发就翻译成“头发”,如果是出发就翻译成“出发”。
|
|
 |
转换等级三
繁简词汇表达方式不同之转换
有一些词,在繁体与简体用户有不同的表达方式,下表显示了一些词汇表达方式差异的例子:
|
英文 |
繁体表达
方式 |
汉语拼音 |
简体表达
方式 |
汉语拼音 |
|
bit |
位元 |
wei4yuan2 |
位 |
wei4 |
|
byte |
位元组 |
wei4yuan2zu3 |
字节 |
zi4jie2 |
|
CD-ROM |
光碟 |
guang1die2 |
光盘 |
guang1pan2 |
|
computer |
电脑 |
dian4nao3 |
计算机 |
ji4suan4ji1 |
|
database |
资料库 |
zi1liao4ku4 |
数据库 |
shu4ju4ku4 |
|
file |
档案 |
dang4'an4 |
文件 |
wen2jian4 |
|
information |
资讯 |
zi1xun4 |
信息 |
xin1xi4 |
|
Internet |
网际网络 |
wang3ji4-wang3lu4 |
因特网 |
yin1te4wang3 |
|
software |
软件 |
ruan3ti3 |
软件 |
ruan3jian4 |
|
week |
礼拜 |
li3bai4 |
星期 |
xing1qi1 |
能够实现以上表达方式转换,就是在本文中所提到的第三级转换功能。
|
|
 |
转换等级四
根据上下文对词汇翻译
有一些词,是需要根据上下文才能够准确地决定如何翻译的。比如在中国大陆的语言习惯中,“文件”可以是通常意义上的“文件”,也可以表达电脑磁片中存取的“文件”(document)。但是,在繁体用户的语言习惯中,这两个东西就是分别用两个词来表达,通常意义上的“文件”和在电脑磁片中保存的“档案”。
该层次的翻译需要根据上下文的意思对文章进行断句,分析。因此,是属于繁简互译中最难做的,而且消耗的系统资源也最大。
|