互联网应用服务提供商!    全国售前咨询:010-69632027/13241022177怀柔巨优网络
网站备案免费获取解决方案

建站指南

公司新闻

常用资料

怀柔做网站

客户动态

建站指南

行业新闻

公司公告

网络营销

网站优化

售前咨询
致电 010-69632027

售后服务
邮箱:1513239191@qq.com

在线咨询
怀柔巨优网络

当前位置:网站首页>新闻动态 > 建站指南 > 火车头采集器如何过滤掉多余的标签(纯正则替换)

火车头采集器如何过滤掉多余的标签(纯正则替换)

火车采集器几乎所有网页都能采集,用途很广。比如网站采集内容、采集数据挖掘客户、舆情监测、文件批量下载等。我日常主要用于网站日常采集文章,今天分享下如何通过火车采集器得到一个”标准“的内容。


这里所谓的标准,是所采集的文章每一个段落都是,没有多余的HTML标签和与主题无关的字符。这里我们可以通过 纯正则替换 达到我们的目的。


以下为一些常用的 纯正则替换 规则示例:


清除与正文无关的内容

正则<header>[\s\S]*?</header>|<!--.*?-->| |规则4|规则5 

替换空

如文中的广告,注释等。如果发布到一些免费平台,有的HTML特殊字符并不会被转化,只需在末尾加入'|&.*?;'过滤掉最后特殊HTML字符即可。


只保留图片以及常用的块级元素

正则 (?i)<(?!/?h|/?p|/?div|br|img).*?> 

替换空

只保留标题标签 h 分段标签 p、div、br 以及图像标签 img ;前面的(?i)表示不区分大小写


把标签修改为p

正则<(?!img)(/?)\w+.*?> 

替换<$1p>

去掉除了img标签外的所有标签的选择器或样式,并把标签修改为p,如果需要保留其他标签可以参考这样写 <(?!img)(?!h)(?!/h)(/?)\w+.*?> 这里是保留img和h标题标签


改成标准图像代码

正则<img.*?src="(.+?)".*?> 

替换<img src="$1">

把乱七八糟的图像样式,改成标准图像代码


规范段落标签

正则</?p>

替换</p><p>

规范段落标签<p>开始</p>结束,某些站个别文章,</p>结束后没有<p>开始就直接是下个段落的内容


段落去除前后空格

正则 \s*(<\/?p>)\s* 

替换$1

把<p>或</p>前后的空格替换为空


去除多余P标签

正则(<p>){2,}|(</p>){2,}

替换$1$2

把连续2个以上的<p>或</p>替换为1个


去除空段落

内容<p></p> 

替换空

把所有的空段落替换为空,普通替换即可


清理多余标签

正则 ^</p>|<p>$

替换空

由于第五步的关系,文章开头可能是</p>结尾可能是<p>需要清理他们


其他可能用到的

过滤英文正则[a-zA-Z]

过滤两位以上的数字(\d{2,100})


巨优网络微信,巨优网络微博

巨优网络网站建设为怀柔区企业提供网站建设服务,提供怀柔网站建设怀柔网站制作怀柔网站优化服务,为怀柔区各单位提供完善的网站建设解决方案,推动怀柔信息化发展!怀柔做网站,怀柔做网站公司,选巨优网络!咨询热线:010-69632027

  怀柔网站建设优秀提供商-APP建站--微信营销-手机网站

巨优简介|如何合作|提交网站需求|联络方式|有问必答

全国统一咨询服务

010-69632027  13241022177