Question

0 0

C++正则匹配中文乱码


 #include <iostream>
#include <fstream>
#include <string>
#include <regex>
 using namespace  std;
 void main(){
     string str = "今天是个好日子圣达菲阿斯qweer";
     regex pattern("[\u4e00-\u9fa5]");
     sregex_token_iterator end;  //需要注意一下这里
     for (sregex_token_iterator j(str.begin(), str.end(), pattern); j != end; ++j){
         cout << *j;
     }
     system("pause");
 }

C++在匹配中文的时候，部分文字乱码，不知道大家遇到过这种情况吗

图片描述

中文乱码正则表达式 C++

10 years, 1 month ago

Satilla

share

Satilla 10 years, 1 month ago

Answer 1

0

\u4e00-\u9fa5 是匹配Unicode的汉字
C++对unicode支持不怎么好，如果你是windows下的vs编译的程序，普通字符串编译之后都是ANSI编码也就是GBK， L"" 字符串则是UTF16 LE，在c++11之后，可以尝试使用 u8"" (UTF8) u"" (UTF16) U"" (UTF32)来指定unicode字符串的不同UTF编码形式

看源码regex应该是C++标准库里面的，在stackoverflow上查找问题，一般反应是c++标准库里面的regex库对unicode的支持并不好，
http://stackoverflow.com/questions/11254232/do-c11-regular-expressions...
http://stackoverflow.com/questions/15882991/range-of-utf-8-characters-...
http://stackoverflow.com/questions/17103925/how-well-is-unicode-suppor...

我不知道使用UTF32或者UTF16能不能解决问题，一般推荐的办法是boost::regex + icu
这个例子看上去使用 u"" 可以解决

answered 10 years, 1 month ago

松线小卷蛾

share

松线小卷蛾 answered 10 years, 1 month ago

C++正则匹配中文乱码

Satilla

Answers

松线小卷蛾

Your Answer