什么是 UCS 和 ISO 10646? -

sakakokiya

浏览: 488834 次
性别:
来自: 北京

最近访客更多访客>>

x_nam

William丶张

韩与你

weigangcn

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

2010-10 ( 35)
2010-09 ( 1)
2010-08 ( 633)
更多存档...

什么是 UCS 和 ISO 10646?

博客分类：

Web开发 exam

Unix C C++C#

国际标准 ISO 10646 定义了通用字符集 (Universal Character Set, UCS). UCS 是所有其他字符集标准的一个超集. 它保证与其他字符集是双向兼容的. 就是说, 如果你将任何文本字符串翻译到 UCS格式, 然后再翻译回原编码, 你不会丢失任何信息.
在 Unix 下使用 UCS-2 (或 UCS-4) 会导致非常严重的问题. 用这些编码的字符串会包含一些特殊的字符, 比如 ” 或 ‘/', 它们在文件名和其他 C 库函数参数里都有特别的含义. 另外, 大多数使用 ASCII 文件的 UNIX 下的工具, 如果不进行重大修改是无法读取 16 位的字符的. 基于这些原因, 在文件名, 文本文件, 环境变量等地方, UCS-2 不适合作为 Unicode 的外部编码.
UCS只是规定如何编码，并没有规定如何传输、保存这个编码。例如“汉”字的UCS编码是6C49，我可以用4个ascii数字来传输、保存这个编码；也可以用utf-8编码:3个连续的字节E6 B1 89来表示它。
UTF-8就是以8位为单元对UCS进行编码。从UCS-2到UTF-8的编码方式如下：
UCS-2编码(16进制) UTF-8 字节流(二进制)
0000 - 007F 0xxxxxxx
0080 - 07FF 110xxxxx 10xxxxxx
0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx
例如“汉”字的Unicode编码是6C49。6C49在0800-FFFF之间，所以肯定要用3字节模板了：1110xxxx 10xxxxxx 10xxxxxx。将6C49写成二进制是：0110 1100 0100 1001，用这个比特流依次代替模板中的x，得到：11100110 10110001 10001001，即E6 B1 89。

分享到：

广州互诺科技面试要求 Web开发网站制作 | Some Apache Specific Questions

2010-08-12 16:44
浏览 776
评论(0)
分类:企业架构
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

ISO_IEC_10646：2020(E) Information technology — Universal coded character set (UCS) - 完整英文电子版（2812页）.pdf: ISO_IEC_10646：2020(E) Information technology — Universal coded character set (UCS) - 完整英文电子版（2812页）.pdf

ISO IEC 10646: ISO IEC 10646：2020 Information technology — Universal coded character set (UCS) - 完整英文电子版（2812页）

ucs-school:UCS @学校: UCS的ISO映像或虚拟机映像并设置UCS。登录到UCS管理系统，然后打开“应用程序中心”并安装。文档和支持 UCS @ school文档（包括快速入门指南）可在上找到。如果您需要直接帮助，论坛提供了很好的社区支持。 ...

SDL_iconv:用于转换字符编码的库。在单个C文件中。支持ASCII US-ASCII 8859-1 ISO-8859-1 UTF8 UTF-8 UTF16 UTF-16 UTF16BE UTF-16BE UTF16LE UTF-16LE UTF32 UTF-32 UTF32BE UTF-32BE UTF32LE UTF-32LE UCS2 UCS-2 UCS-2LE UCS- 2BE UCS-2-INTERNAL UCS4 UCS-4 UCS-4LE UCS-4BE UCS-4-INTERNAL: ISO-8859-1 UTF8 UTF-8 UTF16 UTF-16 UTF16BE UTF-16BE UTF16LE UTF-16LE UTF32 UTF-32 UTF32BE UTF-32BE UTF32LE UTF-32LE UCS2 UCS-2 UCS-2LE UCS-2BE UCS-2-INTERNAL UCS4 UCS-4 UCS-4LE ...

rfc2279utf8协议: ISO/IEC 10646-1 [ISO-10646]定义了一种多8比特字节字符集，称作通用字符集（UCS），它包含了世界上大多数可书写的字符系统。已定义了两种多8比特字节编码，对每一个字符采用四个8比特字节编码的称为UCS-4，对每一...

Universal Character Set Detector: X-ISO-10646-UCS-4-3412 x-mac-cyrillic ## Licensing Depend on Mozilla UCSD, Maybe [MPL2.0][3] [1]: https://github.com/siuying/UniversalDetector [2]: ...

超详细的字符编码教程: ISO 10646=UCS 2.4.1.2. Unicode 和ISO 10646的联系 2.4.1.3. Unicode和ISO 10646的区别 2.4.2. Unicode编码规则 2.4.3. Unicode字符编码所对应的存储和交换标准：UTF-8, UTF-16, UTF-32 2.4.3.1. UTF-8 2.4.3.2. ...

cChardet:通用字符编码检测器: UTF-32BE / UTF-32LE / X-ISO-10646-UCS-4-34121 / X-ISO-10646-UCS-4-21431 阿拉伯 ISO-8859-6 WINDOWS-1256 保加利亚语 ISO-8859-5 WINDOWS-1251 中国人 ISO-2022-CN 大5 EUC-TW GB18030 HZ-GB-2312 ...

CharsetUtils.java: ISO_8859_1("ISO-8859-1","ISO 拉丁字母表 No.1，也叫作 ISO-LATIN-1"), UTF_8("UTF-8","8 位 UCS 转换格式"), UTF_16BE("UTF-16BE","16 位 UCS 转换格式，Big Endian（最低地址存放高位字节）字节顺序"), UTF_...

Synapse TCP/IP Library v24一套通信类和函数库: 支持标准ISO编码（ISO-8859-x），Windows编码（CP-125x），KOI8-R和Unicode（UCS-4, UCS-2, UTF-7 and UTF-8）；支持MIME编码和解码（包括字符转换）；支持SMTP和ESMTP协议支持HTTP 0.9、1.0和1.1...

计算机字符编码之Unicode: [AZZI资源必属精品] Unicode相关的最新国际标准，包括UCS、UTF等，共四个文件，7-Zip压缩打包。 [英]Unicode Standard 5.2 [英]ISO/IEC 10646:2003(E) UCS [英]RFC 2781 UTF-16 [英]RFC 3629 UTF-8

字符编码学习: 目前Unicode是采用16位编码体系，其字符集内容与 ISO10646的BMP（Basic Multilingual Plane）相同。Unicode于1992年6月通过DIS（Draf International Standard），目前版本V2.0于1996公布，内容包含符号6811个，汉字...

IshisashiEncoding:Unicode 和编码的那些事儿: 术语说明UCS/Unicode在 ISO/IEC 10646 中，字符集部分称作为「UCS」。但是在 Unicode 中，字符集部分被称为「Unicode」。本项目为了保持中立，称字符集部分为「UCS」。GB 与 GB/T部分 GB 强制标准在现在已经降级为了...

Free Unicode fonts-开源: 该项目的目的是开发一套免费的字体集，涵盖 ISO 10646 UCS（通用字符集）/Unicode 字符集。

显示照片的EXIF信息插件 for Discuz! 7.2 GBK.rar: exif.encode_unicode = ISO-8859-15 ;exif.decode_unicode_motorola = UCS-2BE ;exif.decode_unicode_intel = UCS-2LE ;exif.encode_jis = ;exif.decode_jis_motorola = JIS ;exif.decode_jis_intel = JIS ...

显示照片的EXIF信息插件 for Discuz！7.0 GBK.rar: exif.encode_unicode = ISO-8859-15 ;exif.decode_unicode_motorola = UCS-2BE ;exif.decode_unicode_intel = UCS-2LE ;exif.encode_jis = ;exif.decode_jis_motorola = JIS ;exif.decode_jis_intel = JIS ...

The `8conv` text encoding converter:将带引号的可打印UTF-8，UTF-16BE，UTF16LE转换为8位。-开源: 用于将经过MIME典型编码的文本解码为（ISO-8859）8位---的命令行工具，而无需具有或分析相关的MIME类型声明。解码带引号的可打印序列；处理UTF-8，UTF-16BE，UTF-16LE; （可选）将DOS或Windows代码页或HP-Roman8中...

ovotext:用Lazarus编写的简单编辑器: 支持各种编码（UTF-8，UCS2，ISO-8859-1等）使用语法高亮打印发展此应用程序是使用Lazarus（2.1版）和FreePascal编译器（3.2.0版）构建的。对于语法突出显示，它使用：拉扎鲁斯（Lazarus）中包含的Synedit...

中国银保监会银行业金融机构监管数据标准化规范（2019版）.xlsx: ISO/IEC 10646 Information Technology -- Universal Coded Character Set (UCS) GB 32100-2015 法人和其他组织统一社会信用代码编码规则 GB 11714-1997 全国组织机构代码编制规则 GB 11643-1999 公民身份号码 GB/T ...

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

什么是 UCS 和 ISO 10646?

评论

发表评论

相关推荐

Unicode的优点是什么？

广州互诺科技面试要求 Web开发 网站制作

Web开发综合笔试题包含C# ASP.net 和JSP

什么是Unicode？

举例说明Javascript如何实现面向对象？

如何设计网站的找回密码功能？

如何让一个页面每20秒钟刷新一次而不用Javascript?

什么是Web 2.0？Web 2.0的特点是什么？

Cookie同Session的关系是什么？

为什么使用Unicode？

Some Apache Specific Questions

Utf-8编码在国外应用普遍，为什么在国内应用却不多呢？

javascript &#038; DHtml部分面试题

什么是UBB代码？

什么是XPATH？介绍以下XPATH

HTML元素的ID和Name属性有什么区别？

如何实现iframe的自适应高度

基本HTTP协议流程是什么？

广州惟易信息科技有限公司 笔试题目

Java如何实现DOM文档操作和XML文件相互转换

最近访客更多访客>>

广州互诺科技面试要求 Web开发网站制作

javascript & DHtml部分面试题

广州惟易信息科技有限公司笔试题目