C++11 Unicode编码转换分享!

函数名称中mb表示multi-byte(多字节),rto表示convert to(转换为),c16表示char16_t,了解这些,可以根据函数名称直观的理解它们的作用。下面给一下UTF-16字符串转换为多字节字符串(以GBK为例)的例子:

  #include <uchar.h>  #include <string.h>  #include <locale>  #include <iomanip>  #include <iostream>   using namespace std;    int main()  {    const char16_t* utf16 = u"u4F60u597Du554A";    size_t utf16Len=char_traits<char16_t>::length(utf16);      char* gbk =new char[utf16Len*2+1];    memset(gbk,0, utf16Len * 2 + 1);    char* pGbk = gbk;      setlocale(LC_ALL, "zh_CN.gbk");    mbstate_t mbs;            //转换状态    size_t length = 0;    while (*utf16)    {      pGbk += length;      length = c16rtomb(pGbk, *utf16, &mbs);      if (length == 0 || pGbk - gbk>sizeof(gbk))      {        cout << "failed" << endl;        break;           //转换失败      }      ++utf16;    }    for (int i = 0; gbk[i] != 0; ++i)    {      cout << setiosflags(ios::uppercase) << hex << (uint32_t)(uint8_t)gbk[i] << " ";    }    return 0;  }  //编译选项:g++ -std=c++0x test.cpp

程序输出结果:C4 E3 BA C3 B0 A1。可见,使用c16rtomb()完成了将“你好啊”从UTF-16编码到多字节编码(GBK)的转换。上面的转换,我们用到了locale机制。locale表示的是一个地域的特征,包括字符编码、数字时间表示形式、货币符号等。locale串使用“zh_CN.gbk”表示目的多字节字符串使用GBK编码。

上面通过Unicode字符的转换来完成字符串的转换,实际上C++提供了一个类模板codecvt用于完成Unicode字符串与多字节字符串之间的转换,主要分为4种:

  codecvt<char,char,mbstate_t>   //performs no conversion  codecvt<wchar_t,char,mbstate_t> //converts between native wide and narrow character sets  codecvt<char16_t,char,mbstate_t> //converts between UTF16 and UTF8 encodings, since C++11  codecvt<char32_t,char,mbstate_t> //converts between UTF32 and UTF8 encodings,since C++11

上面的codecvt实际上是locale的一个facet,facet可以简单地理解为locale的一些接口。通过codecvt,可以完成当前locale下多字节编码字符串与Unicode字符间的转换,也包括Unicode字符编码间的转换。这里的多字节字符串不仅可以试UTF-8,也可以是GBK或者其它编码,实际依赖于locale所采用的编码方式。每种codecvt负责不同类型编码的转换,但是目前编译器的支持情况并没有那么完整,一种locale并不一定支持所有的codecvt,程序员可以通过has_facet函数模板来查询指定locale下的支持情况。参考代码如下:

  #include <locale>  #include <iostream>   using namespace std;    int main()  {    //定义一个locale并查询该locale是否支持一些facet    locale lc("zh_CN.gbk");    bool can_cvt = has_facet<codecvt<char, char, mbstate_t>>(lc);    if (!can_cvt)      cout<<"do not support char-char facet"<<endl;    can_cvt = has_facet<codecvt<wchar_t, char, mbstate_t>>(lc);    if (!can_cvt)      cout << "do not support wchar_t-char facet" << endl;    can_cvt = has_facet<codecvt<char16_t, char, mbstate_t>>(lc);    if (!can_cvt)      cout << "do not support char16_t-char facet" << endl;    can_cvt = has_facet<codecvt<char32_t, char, mbstate_t>>(lc);    if (!can_cvt)      cout << "do not support char32_t-char facet" << endl;  }  //编译选项:g++ -std=c++11 test.cpp  //g++版本:gcc version 4.8.5 20150623 (Red Hat 4.8.5-4) (GCC)

程序输出结果:

do not support char16_t-char facet
do not support char32_t-char facet

由此可见,从char到char16_t与char32_t转换的两种facet还没有被实验机使用的编译器支持。

假如实验机支持从char与char16_t的转换,可参考如下代码:

  #include <uchar.h>  #include <string.h>  #include <locale>  #include <iomanip>  #include <iostream>   using namespace std;    int main()  {    typedef std::codecvt<char16_t,char,std::mbstate_t> facet_type;    std::locale mylocale("zh_CN.gbk");      try    {      const facet_type& myfacet = std::use_facet<facet_type>(mylocale);        const char16_t* utf16 = u"u4F60u597Du554A";   //你好啊      size_t utf16Len = char_traits<char16_t>::length(utf16);      cout<< utf16Len <<endl;      char* gbk = new char[utf16Len*2+1];      memset(gbk, 0, utf16Len * 2 + 1);      std::mbstate_t mystate;               //转换状态      const char16_t* pwc;                //from_next      char* pc;                      //to_next        facet_type::result myresult = myfacet.out(mystate,utf16,utf16+utf16Len+1,pwc, gbk, gbk + utf16Len * 2+1, pc);        if (myresult == facet_type::ok)      {        std::cout << "Translation successful:" << endl;      }      for (int i = 0; gbk[i] != 0; ++i)      {        cout << setiosflags(ios::uppercase) << hex << (uint32_t)(uint8_t)gbk[i] << " ";      }      delete[] gbk;    }    catch(...)    {      cout<<"do not support char16_t-char facet"<<endl;      return -1;    }    return 0;  }

由于实验环境并不支持char与char16_t相互转换的facet,所以程序输出结果为:do not support char16_t-char facet。

5.u16string与u32string

本文来自网络收集,不代表计算机技术网立场,如涉及侵权请联系管理员删除。

ctvol管理联系方式QQ:251552304

本文章地址:https://www.ctvol.com/c-cdevelopment/485144.html

(0)
上一篇 2020年11月11日
下一篇 2020年11月11日

精彩推荐