我正在寻找一种在C中使用正则表达式通过多个分隔符拆分字符串的方法,但不会丢失输出中的分隔符,保持拆分部分的分隔符顺序,例如:
输入
aaa, bbb.ccc,ddd-eee;
输出
aaa, bbb.ccc,ddd-eee;
我已经找到了一些解决方案,但都在C#或java,寻找一些C解决方案,最好不使用Boost。
您可以在regex_iterator
的示例之上构建解决方案。例如,如果您知道分隔符是逗号、句点、分号和连字符,则可以使用正则表达式来捕获分隔符或一系列非分隔符:
([.,;-]|[^.,;-]+)
将其放入示例代码中,您最终会得到如下内容:
#include <iostream>
#include <string>
#include <regex>
int main ()
{
// the following two lines are edited; the remainder are directly from the reference.
std::string s ("aaa,bbb.ccc,ddd-eee;");
std::regex e ("([.,;-]|[^.,;-]+)"); // matches delimiters or consecutive non-delimiters
std::regex_iterator<std::string::iterator> rit ( s.begin(), s.end(), e );
std::regex_iterator<std::string::iterator> rend;
while (rit!=rend) {
std::cout << rit->str() << std::endl;
++rit;
}
return 0;
}
尝试替换您喜欢的任何其他正则表达式。
对于您的情况,根据单词边界\b
拆分输入字符串,除了第一个字符串将为您提供所需的输出。
(?!^)\b
DEMO
或
(?<=\W)(?!$)|(?!^)(?=\W)
DEMO
>
(?
|
或
(?! ^)(? =\W)
匹配后跟非单词字符的边界,但开头的字符除外。
如有必要,再次转义反斜杠。