Html 简明教程

HTML - Character Encodings

字符编码是一种将字节转换为字符的方法。为了正确验证或显示 HTML 文档,程序必须选择正确的字符编码。

HTML Charset Attribute

元标记的 HTML 字符集属性用于提及网页的字符编码。

<meta charset="UTF-8">

The ASCII Character Set

计算机上使用最常见的字符集或字符编码为 ASCII (The American Standard Code for Information Interchange) ,这可能是用于以电子方式对文本进行编码的最广泛使用的字符集。ASCII 编码由 128 个字符(0-127)组成。

  1. 英语字母(A-Z 和 a-z)

  2. Numbers(0-9)

  3. 特殊字符 (@、#、$、% 等)

你可以查看 * Printable ASCII Characters* 的完整集

The ANSI Character Set

ANSI 字符集通常用于 Windows 系统,它也称为 windows-1252。它包括

  1. 从 0 到 127,ANSI 遵循 ASCII 字符。

  2. 从 128 到 159 添加了若干额外的特殊字符。

  3. 从 160 到 255,它与 UTF-8 相同。

The ISO-8859-1 Character Set

ISO-8859-1 是 HTML 4 的默认字符集。此字符集支持 256 个不同的字符代码。

  1. 前 128 个字符与 ASCII 相同

  2. 不使用 128 到 159 之间的字符

  3. 160 到 255 与 ANSI 和 UTF-8 相同

The UTF-8 Character Set

HTML5 规范建议开发人员在网页中使用 UTF-8 编码,因为 UTF-8 涵盖了世界上的所有字符和符号。UTF-8 的字符是。

  1. 0 到 127 个字符与 ASCII 相同

  2. 128 到 159 个字符为空

  3. 160 到 255 使用与 ANSI 和 8859-1 相同的字符

  4. 其他语言的字符使用 256 到 1000 指定

国际标准化组织创建了一系列字符集来处理不同的国家字符。对于英语和大多数其他西欧语言中的文档,使用广泛支持的编码 ISO-8859-1。

ISO Character Sets

世界上使用的字符集列表及其说明。

Character Set

Description

ISO-8859-1

拉丁字母第 1 部分覆盖北美、西欧、拉丁美洲、加勒比地区、加拿大、非洲

ISO-8859-2

拉丁字母第 2 部分覆盖东欧

ISO-8859-3

拉丁字母第 3 部分覆盖东南欧、世界语和其他杂项

ISO-8859-4

拉丁字母第 4 部分覆盖斯堪的纳维亚/波罗的海地区(以及不在 ISO-8859-1 中的其他地区)

ISO-8859-5

Latin/Cyrillic alphabet part 5

ISO-8859-6

Latin/Arabic alphabet part 6

ISO-8859-7

Latin/Greek alphabet part 7

ISO-8859-8

Latin/Hebrew alphabet part 8

ISO-8859-9

Latin 5 字母第 9 部分与 ISO-8859-1 相同,但土耳其字符替换了冰岛字符

ISO-8859-10

拉丁语6拉丁6拉普兰人、北欧人和爱斯基摩人

ISO-8859-15

与 ISO-8859-1 相同,但添加了更多字符

ISO-2022-JP

Latin/Japanese alphabet part 1

ISO-2022-JP-2

Latin/Japanese alphabet part 2

ISO-2022-KR

Latin/Korean alphabet part 1

然后成立 Unicode Consortium,以设计一种方法来显示不同语言的所有字符,而不必为不同的语言使用这些不同的不兼容字符代码。

因此,如果您想创建使用多个字符集中的字符的文档,您将能够使用单个 Unicode 字符编码来实现。

因此,Unicode 规定了可以用特殊方式处理字符串的编码,以便为其包含的大量字符集留出足够的空间。它们被称为 UTF8、UTF-16 和 UTF-32。

UTF Character Sets

Character Set

Description

UTF-8

这是一种以 8 位单位表示的 Unicode 翻译格式,也就是说,它以字节表示。UTF8 中的一个字符可以有 1 到 4 个字节长,使 UTF8 可变宽度。

UTF-16

这是一种以 16 位单位表示的 Unicode 翻译格式,也就是说,它以短表示。它可以是 1 或 2 个短长度,使 UTF16 变量宽度。

UTF-32

这是一种以 32 位单位表示的 Unicode 翻译格式,也就是说,它以长表示。它是一个定宽格式,长度始终为 1 个“长”。

Unicode 字符集的前 256 个字符对应于 ISO-8859-1 的 256 个字符。默认情况下,HTML 4 处理器应该支持 UTF-8,而且 XML 处理器应该支持 UTF-8 和 UTF-16; 因此,所有符合 XHTML 的处理器也应该支持 UTF-16。