汉典笔顺笔画数据献

何远景

(内蒙古图书馆  呼和浩特  010020

    举例说明汉典笔画代码存在缺笔、多笔、误码、笔顺不一、部件顺序不一、部件缺失、单字与部件代码不一、部件笔画有误等情况。

关键词  汉典   代码数据   举例   纠谬

 

将汉字笔画横、竖、撇、捺、折用数字12345表示,为汉字的数字化提供了一个新的方式,也为编制汉字索引提供了一条捷径。给出汉字的笔画代码,可以很方便地让电脑按数值排序。不过为每一个汉字都标出笔顺代码,是一件很费力的事。现在,汉典网将每一个GBK汉字都给出了代码,我们在编制汉字笔画索引时可以参考借鉴它的成果。笔者在汉典网上查询时,发现它的笔画代码数据并非十全十美,其中有百余字的笔画大可存疑。笔画代码数据是编写笔画索引的基础数据,基础数据错了,以此为据的索引就很可能出错。有鉴于此,略举数例,献于各位同仁。

缺笔

汉典笔画44235251521

拟笔画:442352511521

此字中的部件“旬”字中之“日”字的笔画当为2511汉典数据疑缺其末笔,做251,成了“口”字。

多笔

汉典笔画1251112112121511

拟笔画:125111211212511

此字部件“青”之上半部与下半部之间或多一横画。

误码

12345代替横、竖、撇、捺、折,难免出现笔画与代码之间的转换误码,12之间、34之间、45之间常会出错。

汉典笔画53123425234343434

拟笔画:53113425234343434

此字部件“爾”字首笔为横,似当做1,现为2

笔顺不一

汉字书写的笔画顺序,下笔先后,出错频率较高,尤其是一些笔画较多,结构较为复杂的字。

汉典笔画12112544445112321155122

拟笔画:12112544445112321155212

此字右边为“肅”字,肅字的笔画为5112321155212,最后三笔为212,而驌字最后三笔为122

部件顺序不一

汉字笔画书写有前后之分,部件书写也有前后之分。

汉典笔画12213251113425125125125

汉典笔画251251132511134251251

汉典给出的“虈”字部件书写顺序是先“艹”,次“頁”,次“吕”,末“吕”;而“嚻”的笔序为先“吕”,次“頁”,末“吕”。“虈”下半部下笔顺序是先中间后两边,而“嚻”的部件笔序则从左至右。

部件缺失

汉典代码中部件缺失的现象极少见,但也有。

汉典笔画24313512212512134

拟笔画:24313541312212512134

此字笔数应为二十笔,代码却只有十七个,中间少“广”字的代码,成了“黋”字。

单字与部件代码不一

不少字既是单字,也可做部件,与其他部件组成新字、除做部件时空间压缩笔画有所变形外,笔形一样者,代码也有所不同。例如:

汉典笔画354435443544

此字由三个心字组成。汉典“心”字笔画为4544,首笔做4,视为点,而“惢”字每个“心”的首笔则做3,视为撇。应以“心”字为是。

部件笔画存疑

再看一个相反的例子。

汉典笔画425521

很显然,汉典把“字”的第二笔视为竖,所以代码为2GBK中有两个由它做部件组成的字,“茡”、“牸”。茡

汉典笔画122445521

汉典笔画3121445521

“茡”、“牸”中的“字”的第二笔代码为4,很显然,把它当成了点。拙意以为“字”无论作为单字还是作为部件,其第二笔均应视为点,代码作4为是。

GBK中汉字部件代码中问题最大者可能是下例。

汉典笔画5

汉典为其赋值5,把它当做折。再看下字

汉典笔画2344

“尐”字最后一笔与“乀”同,而它的代码却做2344,也就是把最末笔视为捺,代码才为4。“乀”的代码,拙意以为应以4为是。如果把它做5GBK的部件中的4,只有点“丶”,没有捺,捺的笔形就无从表示。汉典对“乀”字的解释为“汉字笔画的一种,从左向右斜下,亦称'' ,解释与代码冲突。它前面的微折,不应视为折,而应视为捺的起笔回锋部分。

GBK有两万多个汉字,存疑者仅有百余字,不到百分之一。汉典网GBK字符标出了笔画代码,做了一件很有益的事。如果能有一部标准的GBK汉字规范问世,汉字的笔画索引将会有一个很大的提高。

 

何远景  内蒙古图书馆副研究馆员。