Html 简明教程
HTML - Character Encodings
字符编码是一种将字节转换为字符的方法。为了正确验证或显示 HTML 文档,程序必须选择正确的字符编码。
The ASCII Character Set
计算机上使用最常见的字符集或字符编码为 ASCII (The American Standard Code for Information Interchange) ,这可能是用于以电子方式对文本进行编码的最广泛使用的字符集。ASCII 编码由 128 个字符(0-127)组成。
-
英语字母(A-Z 和 a-z)
-
Numbers(0-9)
-
特殊字符 (@、#、$、% 等)
你可以查看 * Printable ASCII Characters* 的完整集
The ANSI Character Set
ANSI 字符集通常用于 Windows 系统,它也称为 windows-1252。它包括
-
从 0 到 127,ANSI 遵循 ASCII 字符。
-
从 128 到 159 添加了若干额外的特殊字符。
-
从 160 到 255,它与 UTF-8 相同。
The ISO-8859-1 Character Set
ISO-8859-1 是 HTML 4 的默认字符集。此字符集支持 256 个不同的字符代码。
-
前 128 个字符与 ASCII 相同
-
不使用 128 到 159 之间的字符
-
160 到 255 与 ANSI 和 UTF-8 相同
The UTF-8 Character Set
HTML5 规范建议开发人员在网页中使用 UTF-8 编码,因为 UTF-8 涵盖了世界上的所有字符和符号。UTF-8 的字符是。
-
0 到 127 个字符与 ASCII 相同
-
128 到 159 个字符为空
-
160 到 255 使用与 ANSI 和 8859-1 相同的字符
-
其他语言的字符使用 256 到 1000 指定
国际标准化组织创建了一系列字符集来处理不同的国家字符。对于英语和大多数其他西欧语言中的文档,使用广泛支持的编码 ISO-8859-1。
ISO Character Sets
世界上使用的字符集列表及其说明。
Character Set |
Description |
ISO-8859-1 |
拉丁字母第 1 部分覆盖北美、西欧、拉丁美洲、加勒比地区、加拿大、非洲 |
ISO-8859-2 |
拉丁字母第 2 部分覆盖东欧 |
ISO-8859-3 |
拉丁字母第 3 部分覆盖东南欧、世界语和其他杂项 |
ISO-8859-4 |
拉丁字母第 4 部分覆盖斯堪的纳维亚/波罗的海地区(以及不在 ISO-8859-1 中的其他地区) |
ISO-8859-5 |
Latin/Cyrillic alphabet part 5 |
ISO-8859-6 |
Latin/Arabic alphabet part 6 |
ISO-8859-7 |
Latin/Greek alphabet part 7 |
ISO-8859-8 |
Latin/Hebrew alphabet part 8 |
ISO-8859-9 |
Latin 5 字母第 9 部分与 ISO-8859-1 相同,但土耳其字符替换了冰岛字符 |
ISO-8859-10 |
拉丁语6拉丁6拉普兰人、北欧人和爱斯基摩人 |
ISO-8859-15 |
与 ISO-8859-1 相同,但添加了更多字符 |
ISO-2022-JP |
Latin/Japanese alphabet part 1 |
ISO-2022-JP-2 |
Latin/Japanese alphabet part 2 |
ISO-2022-KR |
Latin/Korean alphabet part 1 |
然后成立 Unicode Consortium,以设计一种方法来显示不同语言的所有字符,而不必为不同的语言使用这些不同的不兼容字符代码。
因此,如果您想创建使用多个字符集中的字符的文档,您将能够使用单个 Unicode 字符编码来实现。
因此,Unicode 规定了可以用特殊方式处理字符串的编码,以便为其包含的大量字符集留出足够的空间。它们被称为 UTF8、UTF-16 和 UTF-32。
UTF Character Sets
Character Set |
Description |
UTF-8 |
这是一种以 8 位单位表示的 Unicode 翻译格式,也就是说,它以字节表示。UTF8 中的一个字符可以有 1 到 4 个字节长,使 UTF8 可变宽度。 |
UTF-16 |
这是一种以 16 位单位表示的 Unicode 翻译格式,也就是说,它以短表示。它可以是 1 或 2 个短长度,使 UTF16 变量宽度。 |
UTF-32 |
这是一种以 32 位单位表示的 Unicode 翻译格式,也就是说,它以长表示。它是一个定宽格式,长度始终为 1 个“长”。 |
Unicode 字符集的前 256 个字符对应于 ISO-8859-1 的 256 个字符。默认情况下,HTML 4 处理器应该支持 UTF-8,而且 XML 处理器应该支持 UTF-8 和 UTF-16; 因此,所有符合 XHTML 的处理器也应该支持 UTF-16。