关于爬虫中正则的一个小用法
在爬虫中我们通常会遇到这样的问题:
<tr>
<td>112.120.5.161</td>
<td>80</td>
<td>高匿代理IP</td>
<td>HTTP</td>
<td>香港</td>
<td>9秒</td>
<td>2022/12/26 3:00:04</td>
</tr>我们需要直接拿到第一个td标签和第二个td标签中的ip和port,
当我们飞别匹配完第一对和第二对td标签后,中间需要使用通配符连接, 但是,这里的两对td之间存在换行, 而恰恰通配符`.`是不能匹配换行的, 所以这里我们需要用到使用[\s\S]或者[\w\W]这样的完全通配模式.
\s: 只要出现空白就匹配\S: 非空白就匹配\w, \W: 与之对应
最后案例的完整正则为:
<td>(\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})</td>[\s\S]*?<td>(\d+)</td>