当前位置: 首页 > news >正文

Unicode中如何表示未收录的生僻字 --浅谈IDS

Unicode中的字符结构表示

Unicode标准是一个全球普遍接受的文字编码标准,它的理想是用一个巨大的字符集来表示世界上所有的字符,这样让全球的文字交流置于同一种体系之下,避免以前出现过的不同国家不同字符集互不统一造成的乱码,极大方便了全球的电子信息交流。

汉字是Unicode标准中内容最为庞大的子字符集,与英语等不同,汉字是每个字符有自己独立的意思,因此占用的字符数量巨大。目前Unicode 17标准中有15万个字符,中日韩统一汉字就占到了10万个以上。

但是即使是收字量如此之大,目前也无法涵盖汉字的所有字符,特别是手书时代有无数种不同的汉字变体或自造字,因此有大量字符是目前没有收录过的。另外还有一些新造的少量字符用于科技领域。这些未收入标准中的字符,就没有规定它们的字形。那这样的字符,应该怎么在电脑或手机等文本中表示它们呢?(文本方式之外,还是有很多办法的,图片,矢量图形,特殊的文件格式表示等等,但文本是最简洁最易交流的方式,使用频繁,甚至连化学结构的表达都有人发明SMILES文本来表达)。

为了在电脑时代表示这些字符,以前用过这样的用法,比如歘字在早期的字体中不存在,为了表示这个字,我们就用文字表示为“左焱右欠”,或者是“焱欠”,这是不得已的情况下变通表示,让读者能够理解的一种无奈的方法。

Unicode中也提供了一种类似的方法,英文叫做Ideographic Description Characters, 中文翻译成 表意文字描述符,通过这些表示结构的字符与汉字部件结合来表示一个字的结构。

首先看标准中提供的表示结构的专用符号

IDS 定义

这种表示法的结构,是先放一个结构符号,后面提供表示结构的部件。

比如前面提到的歘字,用IDS来表示表示,就是 ⿰焱欠,第一个字符表示这个字是左右结构,相当于文本描述的 左X右Y;接着是从左到右(或从上到下)的部件,分别是焱、欠。这样读者就可以明白,这个表示一个组合字, 左右结构,从左到右分别是焱和欠。

当然,有些字形比较复杂,可能由多个部件构成,需要更进一步的拆分才能表达出来,因此用IDS的表示法可以进行嵌套表示。比如焱,如果没有这个字符,这种品字型的结构,可以把它拆分为上下结构,下部继续拆解为左右结构。因此 ⿰焱欠 可以继续写成

⿰⿱火⿰火火欠。

这种结构的解析顺序,从左到右,没有括号来表达优先级。上面这串字符,按从左到右解读,意思是说,整个字是左右结构(⿰);左边是上下结构(⿱),上面部件是火字,左边下面部件是左右组合的结构(⿰火火)。最后,右边是个欠字。

解读时要特别注意表示的结构中有几个部件,后面就要对应消耗几个部件。上例中,左边上部消耗一个火字,下面是左右结构,又消耗两个火字。最后剩下的欠字,对应着左右结构中的右边部件。

这种表示方法开始用时,如果结构比如复杂可能不太好懂,需要多练习一下。为了方便练习,有个网站zi.tools提供了这种表示法的练习工具。有意思的是,这个网站还提供了检索具有特定结构的字符的功能,贴个图大家就很容易明白了,用?代表搜索的部件即可。

通过IDS查询类似结构的汉字

http://www.gsyq.cn/news/138020.html

相关文章:

  • RISC理念在ARM中的体现:通俗解释
  • 智能论文改写工具推荐,8款AI平台助你轻松完成写作
  • 8个AI论文辅助网站对比,提供专业降重与内容生成服务
  • Fmoc保护的双糖基化丝氨酸砌块——复杂糖肽化学合成的精密引擎 CAS号: 878483-09-1
  • 低功耗设备中LCD显示屏串行接口优化方案
  • 2025最新内容整合营销、新媒体广告代运营、达人媒介采买、电商直播、流量投放首要推荐紫龙数科:全域赋能品牌增长,这家服务商实力领跑 - 全局中转站
  • Java毕设选题推荐:基于springboot的篮球管理系统的设计与实现基于springboot的篮球论坛系统设计与实现【附源码、mysql、文档、调试+代码讲解+全bao等】
  • 程序员的伪年薪百万还能持续多久?
  • 畅联云和智能物联中台UCC的关系
  • 深度学习<2>从“看单帧”到“懂故事”:视频模型的帧链推理,藏着机器读懂时间的秘密
  • 基于python的网上商城比价系统(源码+vue+前后端分离)
  • AI论文降重与写作工具推荐:8个热门网站详细对比
  • 饮食饮水代谢检测系统 呼吸能量饮食饮水代谢检测系统 大鼠代谢系统 小鼠代谢系统
  • RISC与CISC思想体现:arm64 amd64原理级对比
  • [技术讨论] 【C语言实战经验6】什么是防御式编程?请看代码
  • paperzz AI:把毕业论文从 “渡劫” 变成 “一键通关”?这届毕业生偷偷用它省了 300 小时
  • 事后诸葛亮会议
  • 基于SpringBoot+Spark+vue的在线广告推荐系统
  • 【国产 OS 顶流实战】KylinOS V10 等保 2.0 三级合规 + MES 系统国产化迁移全案
  • Vue3_计算属性
  • 8款AI论文生成工具横向评测,降重与写作能力全面对比
  • 2025客户管理系统选型指南:14 款国内外CRM厂商产品能力深度对比
  • KylinOS V10 等保 2.0 三级合规 + MES 系统国产化迁移全案
  • Python中的数据结构(容器)之列表(list)
  • openmv与stm32硬件连接图解:一文说清引脚对接
  • 树莓派5首次使用:操作指南与避坑建议
  • PaperzzAI毕业论文写作:不是“代写”,是你的学术“外挂大脑”——让毕业季从“肝论文”变成“赢人生”
  • 2025 AI 视频生成大横评:Sora、可灵、Luma、Runway 谁才是真正的“电影级”导演?
  • I2C读写时序基础:一文说清起始与停止条件
  • Java基于springboot+vue的毕业生离校管理系统的设计与实现