摘抄自我爱正则表达式
repr()
函数查看字串的原始格式。这对于写正则表达式有所帮助utf8
下,每个汉字占据3个字符位置,正则式为[\x80-\xff]{3}
unicode
下,汉字的格式如\uXXXX
,只要找到对应的字符集的范围,就能匹配相应的字串,方便从多语言文本中挑出所需要的某种语言的文本。不过,对于像日文这样的粘着语,既有中文字符,又有平假名片假名,或许结果会有所偏差。u"[\u4e00-\u9fa5\u3040-\u309f\u30a0-\u30ff]+"
,来自定义所需要匹配的文本。utf8
,此时你不用额外做什么;如果是unicode
,就需要在正则式之前加上u""
格式unicode
字符串:string=u"我爱正则表达式"
。如果字串不是unicode
的,可以使用unicode()
函数转换之。如果你知道源字串的编码,可以使用newstr=unicode(oldstring, original_coding_name)
的方式转换,例如 linux 下常用unicode(string, "utf8")