Encoding System

发表于2024-12-18|更新于2025-05-09|Computer Science

|浏览量:|评论数:

编码系统

以下是对 ASCII、GBK、Unicode 和 UTF-8 的详细总结，结合示例来解释它们的工作原理及特点。

1. ASCII 编码

定义

ASCII （American Standard Code for Information Interchange）是一种基于拉丁字母的编码系统，用于表示现代英语及西欧语言中的基本字符。
ASCII 是最早的字符编码方案之一，由 7 位二进制数字组成，可以表示 128 个字符（0x00 ~ 0x7F）。

范围

控制字符：0x00 - 0x1F 和 0x7F（如换行 \n、回车 \r 等）。
可打印字符：0x20 - 0x7E（如字母、数字、标点符号）。

特点

单字节编码，字节大小为 1 个字节。
向后兼容所有现代编码方案（如 UTF-8）。

示例

字符	十六进制	二进制	十进制
A	0x41	01000001	65
a	0x61	01100001	97
0	0x30	00110000	48
空格	0x20	00100000	32
!	0x21	00100001	33

总结

优点：简单、高效，适用于英文。
缺点：仅适用于英文，无法表示其他语言字符（如中文）。

2. GBK 编码

定义

GBK（国标扩展编码）是专为中文字符设计的编码方案，向后兼容 ASCII。
它是 GB2312 的扩展版本，支持更多汉字及少数民族文字。

范围

单字节部分：0x00 - 0x7F，与 ASCII 相同。
双字节部分：
- 高字节范围：0x81 - 0xFE。
- 低字节范围：0x40 - 0xFE（不包括 0x7F）。

特点

变长编码：英文字符占 1 字节，中文字符占 2 字节。
支持简体中文、繁体中文和部分少数民族文字。

示例

字符	GBK 十六进制	二进制（高低字节）
中	0xD6D0	11010110 11010000
文	0xCEC4	11001110 11000100
a	0x61	01100001
空格	0x20	00100000

总结

优点：支持中文且兼容 ASCII，适合中文本地化。
缺点：无法支持多语言，不适合国际化。

3. Unicode 编码

定义

Unicode 是一种字符集，为每个字符分配一个唯一的码点（码位）。
Unicode 本身不是一种编码方案，而是字符集的规范。
Unicode 通过多种编码方案（如 UTF-8、UTF-16、UTF-32）实现存储。

范围

码点范围：0x0000 - 0x10FFFF。
常用字符范围：
- 基本多文种平面（BMP）：0x0000 - 0xFFFF。
- 扩展平面：0x10000 - 0x10FFFF。

特点

能够表示所有语言的字符。
不同的存储方式（如 UTF-16、UTF-8）具有不同的编码规则。

示例

字符	Unicode 码点	十六进制	二进制
中	0x4E2D	4E2D	01001110 00101101
文	0x6587	6587	01100101 10000111
A	0x0041	0041	00000000 01000001

总结

优点：全球通用字符集，统一编码。
缺点：需要结合存储方式（如 UTF-8）才能高效使用。

4. UTF-8 编码

定义

UTF-8 是 Unicode 的一种存储方式，是一种 变长编码。
适用于互联网与国际化应用。

范围

单字节部分：0x00 - 0x7F（与 ASCII 相同）。
多字节部分：
- 2 字节：0x80 - 0x7FF。
- 3 字节：0x800 - 0xFFFF。
- 4 字节：0x10000 - 0x10FFFF。

特点

英文字符占 1 字节，中文字符占 3 字节，生僻字符占 4 字节。
向后兼容 ASCII，适合多语言环境。

编码规则

1 字节：0xxxxxxx（ASCII 范围）。
2 字节：110xxxxx 10xxxxxx。
3 字节：1110xxxx 10xxxxxx 10xxxxxx。
4 字节：11110xxx 10xxxxxx 10xxxxxx 10xxxxxx。

示例

以汉字“严”为例：

Unicode 码点：0x4E25（二进制 100111000100101）。
UTF-8 编码：
11100100 10111000 10100101
E4 B8 A5

字符	UTF-8 十六进制	二进制
严	0xE4B8A5	11100100 10111000 10100101
a	0x61	01100001
空格	0x20	00100000

总结

优点：国际化支持广泛，兼容 ASCII，存储高效。
缺点：中文字符占用空间比 GBK 大（3 字节 vs 2 字节）。

5. ASCII、GBK、Unicode 和 UTF-8 的对比

编码方式	字节数	范围	适用语言	特点
ASCII	1 字节	0x00 - 0x7F	英文	简单高效，但无法表示中文等语言。
GBK	1-2 字节	0x81 - 0xFE	中文	支持中文，兼容 ASCII，不适合多语言环境。
Unicode	2 字节及以上	0x0000 - 0x10FFFF	所有语言	统一字符集，需结合具体存储方案。
UTF-8	1-4 字节	0x0000 - 0x10FFFF	所有语言	国际化支持最佳，变长编码，向后兼容 ASCII。

6. 编码在实际中的应用

ASCII
- 用于存储英文文本，如 .txt 文件。
- 适用于早期的计算机系统和设备。
GBK
- 中文环境下的早期标准，如 Windows 中文操作系统。
- 适配中文软件，如旧版 Word 文档（.doc）。
Unicode
- 内存中的统一字符集。
- 用于跨语言文本显示和处理（如浏览器、数据库）。
UTF-8
- 互联网的通用编码，如网页、API 数据传输。
- Web 开发中指定编码：<meta charset="UTF-8">。

7. 总结

ASCII：历史悠久，简单高效，适用于英文环境。
GBK：中文环境的本地化编码，已逐渐被 Unicode 替代。
Unicode：统一字符集，解决了多语言字符冲突问题。
UTF-8：Unicode 的最佳实现方式，适合互联网与国际化应用。

通过选择合适的编码方式，可以有效避免乱码问题，提升存储与传输效率！

文章作者: Lavoisier

文章链接: http://lavoisier7.github.io/2024/12/18/Encoding_System/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 D！

ASCII GBK Unicode UTF-8

评论

数据加载中