关于爬虫中正则的一个小用法

在爬虫中我们通常会遇到这样的问题:

<tr>

    <td>112.120.5.161</td>
    
    <td>80</td>
    
    <td>高匿代理IP</td>
    
    <td>HTTP</td>
    
    <td>香港</td>
    
    <td>9秒</td>
    
    <td>2022/12/26 3:00:04</td>

</tr>

我们需要直接拿到第一个td标签和第二个td标签中的ip和port,

当我们飞别匹配完第一对和第二对td标签后,中间需要使用通配符连接, 但是,这里的两对td之间存在换行, 而恰恰通配符`.`是不能匹配换行的, 所以这里我们需要用到使用[\s\S]或者[\w\W]这样的完全通配模式.

  • \s : 只要出现空白就匹配

  • \S: 非空白就匹配

  • \w, \W: 与之对应

最后案例的完整正则为:

<td>(\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})</td>[\s\S]*?<td>(\d+)</td>