文字设计和视觉文化

字谈字畅 052:Kerning Panic·字谈字串(五)规范化有四样形式,你知道么?

今日「字谈字串」,谈谈如何判断两个 Unicode 字串是否等价,以及其中必不可少的流程——规范化(normalization)。

规范化与其他诸多 Unicode 技术类似,积存着历史问题,渗透于日常应用,虽然不易察觉,却又不可或缺。

参考链接

主播

《内核恐慌》(Kernel Panic)是由 IPN 出品、吴涛和 Rio 做的播客,首播于 2014 年 10 月。号称硬核,可也没什么干货。想听的人听,不想听的人就别听。

欢迎与我们交流或反馈,来信请致 podcast@thetype.com。如果你喜爱本期节目,也欢迎用 PayPal 或支付宝向我们捐赠,账户与联络信箱一致:podcast@thetype.com。

Zhifubao QR code of The Type

订阅地址Apple Podcasts荔枝 FM网易云音乐下载音频

尊重原创:关于转载

我们希望在中文环境中建立一种健康的 TrackBack 和链接机制,保证原创,并不影响传播。因此对于译文和原创文章,我们欢迎您在网站上推荐我们的文章,包括文字和图片片段,但不赞成任何形式的全文转载。
参与讨论或通过 TrackBack 推荐:Trackback URL.

一个 Trackback

  1. By Type is Beautiful » Wǒ ài pīnyīn! on 2017/08/18 at 1:34 pm

    […] 从 Unicode 的角度来说,带调字母由于存在「组合用字符」机制,因此涉及到规范化和等价判断问题,这部分内容也显然超出了本文的范围,对技术细节感兴趣的读者可以参考笔者主持的播客节目「字谈字畅」第 52 期的内容。虽然目前 Unicode 已经定义了大量带调字符,但 Ê̄ê̄、Ê̌ê̌、M̀m̀ 这几个带调字母没有独立码位,需要另外用组合序列来表达。另外,尽管 GB 18030 与先前的 GBK 编码是向后兼容的,但是这两份文件里有 95 个字符的 Unicode 参照码位发生了变化(具体可以参照 GB 18030-2015 的「附录 E」),其中就影响到了 ḿ 和 ǹ,因此会有一些输入法和字体文件根据不同文件的码位定义而无法互相匹配,造成无法正确输入、输出这两个音节。 […]

参与讨论

你的Email地址将不会被发布或透漏。 标记*的项目为必填项目。

*
*

作者 / 译者