代码点与代码单元

网友投稿 272 2022-11-04


代码点与代码单元

代码点可理解为字符。一个代码点就是一个字符

代码单元:不同编码,代码单元长度不一样。

UTF-8 中的代码单元由 8 位组成。UTF-16 中的代码单元由 16 位组成。UTF-32 中的代码单元由 32 位组成。GB18030 中的代码单元由 8 位组成。UTF-8在 UTF-8 中,因为代码单元较小的缘故,每个代码点常常被映射到多个代码单元。代码点将被映射到一个、两个、三个或四个代码单元。UTF-16UTF-16 的代码单元大小是 8 位代码单元的两倍。所以,标量值小于 U+10000 的代码点被编码到单个代码单元中。对于标量值大于或等于 U+10000 的代码点,每个代码点需要两个代码单元。在 UTF-16 中,这些代码单元对有一个独特的术语:“Unicode 代理对”。

注意

下面对 Unicode 代理对的支持进行了讨论。

UTF-32UTF-32 中使用的 32 位代码单元足够大,每个代码点都可编码为单个代码单元。GB18030在 GB18030 中,因为代码单元较小的缘故,每个代码点常常被映射到多个代码单元。代码点将被映射到一个、两个或四个代码单元。

java 采用utf-16编码,因此,通常一个代码点是一个代码单元,但有些辅助字符是2个代码单元。

在.NET里面,通常是用字节来衡量字符长度,但java是用代码单元。


版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:IIS最大并发连接数
下一篇:商标注册查询入口官网API(商标注册查询入口官网大丰合)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~