Java Unicode编码
Unicode是一种通用的国际标准字符编码,能够代表世界上大多数书面语言。
Java语言中统一采用Unicode编码系统。
1 为什么Java使用Unicode编码
在Unicode之前,有许多语言编码标准:
- 美国的ASCII(美国信息交换标准代码)。
- 用于西欧语言的ISO-8859-1。
- KOI-8(俄语)。
- GB18030和BIG-5(中文)等等。
1.1 问题
这些有这么语言编码标准的存在,所以导致了两个问题:
- 不同语言标准的字母所使用的代码值不一致。
- 具有大字符集的语言的编码具有可变的长度。一些常见字符编码为单个字节,其他一些则需要两个或更多字节。
总之,因为语言编码不同,产生了很多地方不统一的情况。
1.2 解决办法
为了解决以上的问题,开发了一种新的语言标准,即Unicode编码。
在Unicode编码中,char字符保留2个字节,因此Java语言继续在char字符数据类型上采用2个字节。
- Unicode的最低值: \u0000
- Unicode的最高值: \uFFFF
热门文章
优秀文章