C++11 Unicode编码转换分享！-计算机技术网

1.char16_t与char32_t

在C++98中，为了支持Unicode字符，使用wchar_t类型来表示“宽字符”，但并没有严格规定位宽，而是让wchar_t的宽度由编译器实现，因此不同的编译器有着不同的实现方式，GNU C++规定wchar_t为32位，Visual C++规定为16位。由于wchar_t宽度没有一个统规定，导致使用wchar_t的代码在不同平台间移植时，可能出现问题。这一状况在C++11中得到了一定的改善，从此Unicode字符的存储有了统一类型：

（1）char16_t：用于存储UTF-16编码的Unicode字符。
（2）char32_t：用于存储UTF-32编码的Unicode字符。

至于UTF-8编码的Unicode数据，C++11还是使用了8bits宽度的char类型数组来表示，而char16_t和char32_t的宽度由其名称可以看出，char16_t为16bits，char32_t为32bits。

2.定义字符串的5种方式

除了使用新类型char16_t与char32_t来表示Unicode字符，此外，C++11还新增了三种前缀来定义不同编码的字符串，新增前缀如下：

（1）u8表示为UTF-8编码；
（2）u表示为UTF-16编码；
（3）U表示为UTF-32编码。

C++98中有两种定义字符串的方式，一是直接使用双引号定义多字节字符串，二是通过前缀“L”表示wchar_t字符串（宽字符串）。至此，C++中共有5种定义字符串的方式。

3.影响字符串正确处理的因素

在使用不同方式定义不同编码的字符串时，我们需要注意影响字符串处理和显示的几个因素有编辑器、编译器和输出环境。

代码编辑器采用何种编码方式决定了字符串最初的编码，比如编辑器如果采用GBK，那么代码文件中的所有字符都是以GBK编码存储。当编译器处理字符串时，可以通过前缀来判断字符串的编码类型，如果目标编码与原编码不同，则编译器会进行转换，比如C++11中的前缀u8表示目标编码为UTF-8的字符，如果代码文件采用的是GBK，编译器按照UTF-8去解析字符串常量，则可能会出现错误。

  //代码文件为GBK编码  #include <iomanip>  #include <iostream>   using namespace std;    int main()  {    const char* sTest = u8"你好";    for(int i=0;sTest[i]!=0;++i)    {      cout<<setiosflags(ios::uppercase)<<hex<<(uint32_t)(uint8_t)sTest[i]<<" ";    }    return 0;  }  //编译选项：g++ -std=c++0x -finput-charset=utf-8 test.cpp

程序输出结果：C4 E3 BA C3。这个码值是GBK的码值，因为“你”的GBK码值是0xC4E3，“好”的GBK码值是0xBAC3。可见，编译器未成功地将GBK编码的“你好”转换为UTF-8的码值“你”（E4 BD A0）“好”（E5 A5 BD），原因是使用编译选项-finput-charset=utf-8指定代码文件编码为UTF-8，而实际上代码文件编码为GBK，导致编译器出现错误的认知。如果使用-finput-charset=gbk，那么编译器在编译时会将GBK编码的“你好”转换为UTF-8编码，正确输出E4 BD A0 E5 A5 BD。

代码编辑器和编译器这两个环节在处理字符串如果没有问题，那么最后就是显示环节。字符串的正确显示依赖于输出环境。C++输出流对象cout能够保证的是将数据以二进制输出到输出设备，但输出设备（比如Linux shell或者Windows console）是否能够支持特定的编码类型的输出，则取决于输出环境。比如Linux虚拟终端XShell，配置终端编码类型为GBK，则无法显示输出的UTF-8编码字符串。

一个字符串从定义到处理再到输出，涉及到编辑器、编译器和输出环境三个因素，正确的处理和显示需要三个因素的共同保障，每一个环节都不能出错。一个字符串的处理流程与因素如下图所示：

当然如果想避开编辑器编码对字符串的影响，可以使用Unicode码值来定义字符串常量，参看如下代码：

  //代码文件为GBK编码  #include <iomanip>  #include <iostream>   using namespace std;    int main()  {    const char* sTest = u8"u4F60u597D";  //你好的Uunicode码值分别是：0x4F60和0x597D    for(int i=0;sTest[i]!=0;++i)    {      cout<<setiosflags(ios::uppercase)<<hex<<(uint32_t)(uint8_t)sTest[i]<<" ";    }    return 0;  }  //编译选项：g++ -std=c++0x -finput-charset=utf-8 test.cpp

程序输出结果：E4 BD A0 E5 A5 BD。可见，即使编译器对代码文件的编码理解有误，仍然可以正确地以UTF-8编码输出“你好”的码值。原因是ASCII字符使用GBK与UTF-8编码码值是相同的，所以直接书写Unicode码值来表示字符串是一种比较保险的做法，缺点就是难以阅读。

4.Unicode的库支持

C++11在标准库中增加了一些Unicode编码转换的函数，开发人员可以使用库中的一些新增编码转换函数来完成各种Unicode编码间的转换，函数原型如下：

  //多字节字符转换为UTF-16编码  size_t mbrtoc16 ( char16_t * pc16, const char * pmb, size_t max, mbstate_t * ps);    //UTF-16字符转换为多字节字符  size_t c16rtomb ( char * pmb, char16_t c16, mbstate_t * ps );    //多字节字符转换为UTF-32编码  size_t mbrtoc32 ( char32_t * pc32, const char * pmb, size_t max, mbstate_t * ps);    //UTF-32字符转换为多字节字符  size_t c32rtomb ( char * pmb, char32_t c32, mbstate_t * ps );

本文来自网络收集，不代表计算机技术网立场，如涉及侵权请联系管理员删除。

ctvol管理联系方式QQ:251552304

本文章地址：https://www.ctvol.com/c-cdevelopment/485144.html

C++11 Unicode编码转换分享！

精彩推荐