繁简转换的难点 繁简互转,如果需要做到100%精确,实际上是一个非常复杂的工作。根据转换的精确性等级,大概可以分成4个等级: 1.字符码表一对一映射。 2.对于一对多单字,根据词语识别进行转换。 3.对词语表达方式差异的转换。 4.根据上下文的词汇翻译。 转换等级一 内码映射 其转换机制是按照内码字符映射表,在简繁转换时,用big5的内码把GB的内码替换掉,在繁简转换的时候就反过来。例如,GB 2312-80 0xB9FA 代表简体字国, 简繁转换的时候就把它替换成0xB0EA 对应繁体BIG5码的國字。根据我们实践证明,如果按照字符的转错几率来统计,对一般性质的文本,该处理方式可以达到98%的准确率。但其弱点是由于简繁字体并非一对一的关系,因此忽略掉一些其他较不常用的字。 以下是一个一对一字符内码映射表的例子: 简体源 内码GB (EUC) 繁体目标 BIG5 其他可能性 出 B3F6 出 A558 齣 发 B7A2 發 B56F 髮 干 B8C9 幹 A47A 乾 干 榦 暗 B0B5 暗 B774 闇 里 C0EF 裡 B8CC 里 裏 征 D5F7 徵 BC78 征 门 C3C5 門 AAF9 汤 CCC0 湯 B4F6 转换等级二 一对多关系的字根据词语识别转换 对于一个单字应该翻译成在当前有可能的异种内码中的哪一个,我们可以根据该字所在的词汇来决定。比如,下表: 简体词语 繁体词语 拼音 英文意义 头发 頭髮 tou2fa0 hair 特征 特徵 te4zheng1 characteristic 出发 出發 chu1fa1 start off 干燥 乾燥 gan1zao4 dry 暗里 暗裡 an4li3 secretly 千里 千里 qian1li3 long distance 秋千 鞦韆 qiu1qian1 a swing 在上表中,头发与出发的“发”字在简体中是同一字型的,但繁体中却不一样。这样就可以根据“发”字所在的词汇来对该字进行准确的转换。如果是头发就翻译成“頭髮”,如果是出发就翻译成“出發”。 转换等级三 繁简词汇表达方式不同之转换 有一些词,在繁体与简体用户有不同的表达方式,下表显示了一些词汇表达方式差异的例子: 英文 简体表达方式 汉语拼音 繁体表达方式 汉语拼音 bit 位 wei4 位元 wei4yuan2 byte 字节 zi4jie2 位元組 wei4yuan2zu3 CD-ROM 光盘 guang1pan2 光碟 guang1die2 computer 计算机 ji4suan4ji1 電腦 dian4nao3 database 数据库 shu4ju4ku4 資料庫 zi1liao4ku4 file 文件 wen2jian4 檔案 dang4'an4 information 信息 xin1xi4 資訊 zi1xun4 Internet 因特网 yin1te4wang3 網際網路 wang3ji4-wang3lu4 software 软件 ruan3jian4 軟體 ruan3ti3 week 星期 xing1qi1 禮拜 li3bai4 能够实现以上表达方式转换,就是在本文中所提到的第三级转换功能。 转换等级四 根据上下文对词汇翻译 有一些词,是需要根据上下文才能够准确地决定如何翻译的。比如在中国大陆的语言习惯中,“文件”可以是通常意义上的“文件”,也可以表达计算机磁盘中存取的“文件”(document)。但是,在繁体用户的语言习惯中,这两个东西就是分别用两个词来表达,通常意义上的“文件”和在电脑磁盘中保存的“档案”。 该层次的翻译需要根据上下文的意思对文章进行断句,分析。因此,是属于繁简互译中最难做的,而且消耗的系统资源也最大。