本系统提供使用者利用字形相关资讯或直接用电脑编码查询到所要需的汉字,进而得到此字体的相关属性以及相关异体字,首先使用者需先对汉字构形以及中文编码有基本的认识,以下是简略的介绍。
【部件与构字式】:汉字可以说是由许许多多的小部件所组成,部件就像是小小的建筑积木,每一个汉字都是由数个部件堆砌而成;根据中央研究院文献处理实验室的统计,所有的基本部件总数为1316个,也就是说,每一个汉字都可以由这些基本部件来组成;当一个汉字用一组部件来表示的时候,这一组部件我们称之为构字式。
【何谓编码】: 若非从事电脑工作的人,一般大众对于中文码,或是编码一类名词都显得相当陌生,行政院主计处电子处理资料中心及中文数位化技术推广基金会于全字库网站上对于「中文码」的定义为-『依照一套固定的规则,针对指定的中文字集内的每一个字或符号,编订相对应的代码,以方便电脑资讯之处理与应用』。于是,讲明白就是在电脑资讯处理上,我们必须针对每一个的汉字给定一组特定的编码,就好比学校将每一个学生编订一组学号,此谓编码,每一个学生都有一组特定的学号来代表本身,就好比每一组中文编码都代表着特定的汉字,如此应该不难理解。
稍微了解电脑资料处理的人都应该知道,在电脑开始使用的时候,所有的字都只用1byte 来储存, 1byte 包含8bits,每个bits 都只能表示on/off, 也就是1byte 只能表示0000 0000 到1111 1111 的编码范围, 只有256 个编码空间,这对中文而言,是不够的。
我们知道中文字在目前常见的电脑上是由两个位元组(two bytes) 所编码组成的。最常见的编码方式有台湾地区所通行的 Big5 编码,及大陆地区所使用的 GB 编码。而且开头的位元组几乎都是大于 128 的数值,也就是所谓 non-ASCII 码的范围(ASCII 是指小于 128 的编码)。
字集(Character Set)是一组符号或文字的组合, 而编码(Encoding)则是将这一组符号或文字以适当的方式编入位元组中, 以便电脑能够表示与储存。目前现有的字集如中文字集、英文字集、日文字集等, 而中文编码则是选取部份或全部字集中的部分或全部字, 给予一个号码,如Big5 包含部分中文字集、英文字集、部分日文字集等。
接下来就是万码奔腾,众多中文编码标准的问题, 目前台湾使用的中文编码存在许多问题,第一是中文编码有数种Big5、CCCII、CNS11643、Big5E、Big5+、ISO 10646、CP950, 每个编码所包含的中文字数不同,编码方式也不相同, 而且大部分都没有标准规格, 第二是常用的Big5 编码字数不足。
虽然常用的Big5 已经使用2bytes 来表示中文字,但是2bytes = 16bits = 2^16 = 65536 个编码空间, 以Big5 的标准而言,为了要和ASCII 能够相容,只能使用两万多字, 现存的中文字最少在七万以上,造成许多字在Big5 的系统下, 无法使用。在加上中文标准繁多,却又没有最后的标准规格, 各家厂商所实做产品也就未必相容。最明显的例子就是日文平假片假名, 在这些中文编码中并不是每个都包含, 当遇到所谓的「Big5日文」时,就会产生许多问题。
为了解决编码字数不足的问题,我们可以使用国际标准ISO/IEC 10646-1: 1993广用多八位元编码字元集(unicode),此为一套用来表示、传输、交换、处理、储存、输入和表达等多用途的全球编码标准。目前因为有Unicode Consortium组织的全力推广与实作介绍,故得到全球各大厂商与资讯界的重视。这套编码字元集,几乎已包括了全球已定义好完整字集的各种语言文字,并且仍在持续扩充中。
其目标为收纳全球所有的语言文字,目前已包含有数十个国家标准及整理完善的字元集,并持续扩充中。字集大且广的优点是,全球所有的字码使用、交换、传输等都完全一致,不需要因为不同国家使用不同的字码集而设计不同的版本,或是靠转码或对照表互换,也不需要担心字码在不同系统或平台而无法显示。但是也有缺点,即所有已使用电脑处理之资讯系统都必需改用此套广用集;另外,Unicode组织在定义字码的时候,决定以字形为基础,将中日韩文使用到的汉字(简称CJK )统一在同一张码表。也就是说,如果两个字的字形(glyph)相同,即使这两个字在不同国家的意义不一致,这两个字就共用同一个字码。例如「机」字,在中文,这个字是「机」字的简写;在日文,这个字却是茶几的意思。然而,如果一个字在各国的字形各不相同,那么,不论二者的差别有多细微,这两个字形的Unicode字码(codepoint)就不同。台湾使用的繁体字和中国通用的简体字就常出现这个状况,更遑论CJK文字混用的状况了。例如「吴」、「说」、「悦」。吴字由于台湾、中国、日本的写法略有差异,因此,共有三个不同的Unicode字码;至于说、悦等字,台湾的兑字上端是正八,中国则惯用倒八,差异虽小,也都有各自的Unicode字码。此外,一些偏旁简化字(例如,「金」字边的「银」字),字形差异不大,对应的繁简体的Unicode字码却也各不相同。
尽管有以上问题存在,但是,使用Unicode编码的文章,具有同时兼容并蓄多国文字的好处。例如,常使用Windows 2000注音法的使用者,可能已经留意到在同音字的选项当中,不只简体字已经在列,日本的汉字也在其中。因此,一般预期Unicode的应用将会越来越普及,实在不容忽视。
网址
学科类别
存取类型
语种
首字母
数据库厂商