贝利信息

Python常见正则错误总结_新手避坑指南【教程】

日期:2025-12-27 00:00 / 作者:冷漠man
绝大多数正则问题源于原始字符串误用、编译标志不当、贪婪模式错误或^/$作用域混淆;务必用r""定义模式,分清match/search/fullmatch,优先使用.*?和否定字符类。

Python 里写错正则,十有八九不是逻辑问题,而是 re 模块行为理解偏差或字符串转义翻车。直接上结论:绝大多数“匹配不到”“多匹配了”“报错 error: bad escape”,都出在原始字符串、编译标志、贪婪模式或 ^/$ 的作用域上。

忘记用 raw string 写正则模式

Python 字符串本身会先处理反斜杠,比如 "\d" 实际传给 re 的是 "d"(因为 \d 不是合法的 Python 转义),结果正则引擎根本没见过 \d

re.match()re.search() 混用导致“匹配失败”

re.match() 只从字符串开头匹配,re.search() 才全局找。新手常以为 match 是“匹配”,结果发现明明有目标内容却返回 None

贪婪匹配 + 错误的边界符号引发“吃太多”

.* 默认是贪婪的,遇到 "a123b456c" 和 pattern r"a.*c",会匹配整个字符串,而不是想要的 "a123b456c" 中最短的 "a123b456c" —— 等等,这例子其实没错?问题常出在更隐蔽的地方,比如 r".*" 匹配 HTML 片段时,会跨标签吞掉中间所有内容。