网址:

 

 公司名称:

 

 联络人:

 

 电话:

 

 电邮:

 

 

 
 

 


繁简转换的难点
繁简互转,如果需要做到 100% 精确,实际上是一个非常复杂的工作。根据转换的精确性等级,大概可以分成 4 个等级:

1. 字符码表一对一映射。
2. 对于一对多单字,根据词语识别进行转换。
3. 对词语表达方式差异的转换。
4. 根据上下文的词汇翻译。
 

 

转换等级一
内码映射
其转换机制是按照内码字符映射表,在繁简转换时,用 BIG5 的内码把 GB 的内码替换掉,在繁简转换的时候就反过来。例如,GB 2312-80 0xB9FA 代表简体字国, 繁简转换的时候就把它替换成 0xB0EA 对应繁体 BIG5 码的国字。根据我们实践证明,如果按照字符的转错几率来统计,对一般性质的文本,该处理方式可以达到 98% 的准确率。但其弱点是由于简繁字体并非一对一的关系,因此忽略掉一些其他较不常用的字。 以下是一个一对一字符内码映射表的例子:
 

繁体目标

BIG

简体源

内码 GB (EUC)

其他可能性

A558

B3F6

B56F

B7A2

A47A

B8C9

乾 干 干

B774

B0B5

B8CC

C0EF

里 里

BC78

D5F7

AAF9

C3C5

 

B4F6

CCC0

 



转换等级二
一对多关系的字根据词语识别转换
对于一个单字应该翻译成在当前有可能的异种内码中的哪 里一个,我们可以根据该字所在的词汇来决定。比如下表:
 

繁体词语

简体词语

拼音

英文

头发

头发

tou2fa0

hair

特征

特征

te4zheng1

characteristic

出发

出发

chu1fa1

start off

干燥

干燥

gan1zao4

dry

暗里

暗里

an4li3

secretly

千里

千里

qian1li3

long distance

秋千

秋千

qiu1qian1

a swing

在上表中,头发与出发的“发”字在简体中是同一字型的,但繁体中却不一样。这样就可以根据“发”字所在的词汇来对该字进行准确的转换。如果是头发就翻译成“头发”,如果是出发就翻译成“出发”。
 

转换等级三
繁简词汇表达方式不同之转换
有一些词,在繁体与简体用户有不同的表达方式,下表显示了一些词汇表达方式差异的例子:
 

英文

繁体表达
方式

汉语拼音

简体表达
方式

汉语拼音

bit

位元

wei4yuan2

wei4

byte

位元组

wei4yuan2zu3

字节

zi4jie2

CD-ROM

光碟

guang1die2

光盘

guang1pan2

computer

电脑

dian4nao3

计算机

ji4suan4ji1

database

资料库

zi1liao4ku4

数据库

shu4ju4ku4

file

档案

dang4'an4

文件

wen2jian4

information

资讯

zi1xun4

信息

xin1xi4

Internet

网际网络

wang3ji4-wang3lu4

因特网

yin1te4wang3

software

软件

ruan3ti3

软件

ruan3jian4

week

礼拜

li3bai4

星期

xing1qi1

能够实现以上表达方式转换,就是在本文中所提到的第三级转换功能。
 

转换等级四
根据上下文对词汇翻译
有一些词,是需要根据上下文才能够准确地决定如何翻译的。比如在中国大陆的语言习惯中,“文件”可以是通常意义上的“文件”,也可以表达电脑磁片中存取的“文件”(document)。但是,在繁体用户的语言习惯中,这两个东西就是分别用两个词来表达,通常意义上的“文件”和在电脑磁片中保存的“档案”。
该层次的翻译需要根据上下文的意思对文章进行断句,分析。因此,是属于繁简互译中最难做的,而且消耗的系统资源也最大。
 


大势所趋
繁简文字的差异
繁简转换的难点
网络沟通无障碍
关于您的网站

 
 

 

主页 中文应用软件 多媒体显示方案 互联网应用方案 新闻 客户服务 关于力衡 软件下载 网站地图

Copyright (C) 2008 R&B Computer Systems Ltd. All rights reserved.