国际标准 ISO 10646 定义了 通用字符集 (Universal Character Set, UCS). UCS 是所有其他字符集标准的一个超集. 它保证与其他字符集是双向兼容的. 就是说, 如果你将任何文本字符串翻译到 UCS格式, 然后再翻译回原编码, 你不会丢失任何信息.
在 Unix 下使用 UCS-2 (或 UCS-4) 会导致非常严重的问题. 用这些编码的字符串会包含一些特殊的字符, 比如 ” 或 ‘/', 它们在 文件名和其他 C 库函数参数里都有特别的含义. 另外, 大多数使用 ASCII 文件的 UNIX 下的工具, 如果不进行重大修改是无法读取 16 位的字符的. 基于这些原因, 在文件名, 文本文件, 环境变量等地方, UCS-2 不适合作为 Unicode 的外部编码.
UCS只是规定如何编码,并没有规定如何传输、保存这个编码。例如“汉”字的UCS编码是6C49,我可以用4个ascii数字来传输、保存这个编码;也可以用utf-8编码:3个连续的字节E6 B1 89来表示它。
UTF-8就是以8位为单元对UCS进行编码。从UCS-2到UTF-8的编码方式如下:
UCS-2编码(16进制) UTF-8 字节流(二进制)
0000 - 007F 0xxxxxxx
0080 - 07FF 110xxxxx 10xxxxxx
0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx
例如“汉”字的Unicode编码是6C49。6C49在0800-FFFF之间,所以肯定要用3字节模板了:1110xxxx 10xxxxxx 10xxxxxx。将6C49写成二进制是:0110 1100 0100 1001, 用这个比特流依次代替模板中的x,得到:11100110 10110001 10001001,即E6 B1 89。
分享到:
相关推荐
ISO_IEC_10646:2020(E) Information technology — Universal coded character set (UCS) - 完整英文电子版(2812页).pdf
ISO IEC 10646:2020 Information technology — Universal coded character set (UCS) - 完整英文电子版(2812页)
UCS的ISO映像或虚拟机映像并设置UCS。 登录到UCS管理系统,然后打开“应用程序中心”并安装。 文档和支持 UCS @ school文档(包括快速入门指南)可在上找到。 如果您需要直接帮助, 论坛提供了很好的社区支持。 ...
ISO-8859-1 UTF8 UTF-8 UTF16 UTF-16 UTF16BE UTF-16BE UTF16LE UTF-16LE UTF32 UTF-32 UTF32BE UTF-32BE UTF32LE UTF-32LE UCS2 UCS-2 UCS-2LE UCS-2BE UCS-2-INTERNAL UCS4 UCS-4 UCS-4LE ...
ISO/IEC 10646-1 [ISO-10646]定义了一种多8比特字节字符集,称作通用字符集(UCS), 它包含了世界上大多数可书写的字符系统。已定义了两种多8比特字节编码,对每一个字符 采用四个8比特字节编码的称为UCS-4,对每一...
X-ISO-10646-UCS-4-3412 x-mac-cyrillic ## Licensing Depend on Mozilla UCSD, Maybe [MPL2.0][3] [1]: https://github.com/siuying/UniversalDetector [2]: ...
ISO 10646=UCS 2.4.1.2. Unicode 和ISO 10646的联系 2.4.1.3. Unicode和ISO 10646的区别 2.4.2. Unicode编码规则 2.4.3. Unicode字符编码所对应的存储和交换标准:UTF-8, UTF-16, UTF-32 2.4.3.1. UTF-8 2.4.3.2. ...
UTF-32BE / UTF-32LE / X-ISO-10646-UCS-4-34121 / X-ISO-10646-UCS-4-21431 阿拉伯 ISO-8859-6 WINDOWS-1256 保加利亚语 ISO-8859-5 WINDOWS-1251 中国人 ISO-2022-CN 大5 EUC-TW GB18030 HZ-GB-2312 ...
ISO_8859_1("ISO-8859-1","ISO 拉丁字母表 No.1,也叫作 ISO-LATIN-1"), UTF_8("UTF-8","8 位 UCS 转换格式"), UTF_16BE("UTF-16BE","16 位 UCS 转换格式,Big Endian(最低地址存放高位字节)字节顺序"), UTF_...
支持标准ISO编码(ISO-8859-x),Windows编码(CP-125x),KOI8-R和Unicode(UCS-4, UCS-2, UTF-7 and UTF-8); 支持MIME编码和解码(包括字符转换); 支持SMTP和ESMTP协议 支持HTTP 0.9、1.0和1.1...
[AZZI资源 必属精品] Unicode相关的最新国际标准,包括UCS、UTF等,共四个文件,7-Zip压缩打包。 [英]Unicode Standard 5.2 [英]ISO/IEC 10646:2003(E) UCS [英]RFC 2781 UTF-16 [英]RFC 3629 UTF-8
目前Unicode是采用16位编码体系,其字符集内容与 ISO10646的BMP(Basic Multilingual Plane)相同。Unicode于1992年6月通过DIS(Draf International Standard),目前版本V2.0于1996公布,内容包含符号6811个,汉字...
术语说明UCS/Unicode在 ISO/IEC 10646 中,字符集部分称作为「UCS」。但是在 Unicode 中,字符集部分被称为「Unicode」。本项目为了保持中立,称字符集部分为「UCS」。GB 与 GB/T部分 GB 强制标准在现在已经降级为了...
该项目的目的是开发一套免费的字体集,涵盖 ISO 10646 UCS(通用字符集)/Unicode 字符集。
exif.encode_unicode = ISO-8859-15 ;exif.decode_unicode_motorola = UCS-2BE ;exif.decode_unicode_intel = UCS-2LE ;exif.encode_jis = ;exif.decode_jis_motorola = JIS ;exif.decode_jis_intel = JIS ...
exif.encode_unicode = ISO-8859-15 ;exif.decode_unicode_motorola = UCS-2BE ;exif.decode_unicode_intel = UCS-2LE ;exif.encode_jis = ;exif.decode_jis_motorola = JIS ;exif.decode_jis_intel = JIS ...
用于将经过MIME典型编码的文本解码为(ISO-8859)8位---的命令行工具,而无需具有或分析相关的MIME类型声明。 解码带引号的可打印序列; 处理UTF-8,UTF-16BE,UTF-16LE; (可选)将DOS或Windows代码页或HP-Roman8中...
支持各种编码(UTF-8,UCS2,ISO-8859-1等) 使用语法高亮打印 发展 此应用程序是使用Lazarus(2.1版)和FreePascal编译器(3.2.0版)构建的。 对于语法突出显示,它使用: 拉扎鲁斯(Lazarus)中包含的Synedit...
ISO/IEC 10646 Information Technology -- Universal Coded Character Set (UCS) GB 32100-2015 法人和其他组织统一社会信用代码编码规则 GB 11714-1997 全国组织机构代码编制规则 GB 11643-1999 公民身份号码 GB/T ...