今天用了一下火车头来测试,拿了一个页面来做采集测试,标题和内容均可正确采集,但在采集网址上出了问题了。

例如,我采集的地址是:http://www.abcde.com/product/231566.html,这个页面的内容采集规则已完成,但是文章最后加上出处,也就是说,这个文章是从这个网址转载来的,需要加上。经过查找,这个网址用以下规则可以正确采集。

^(?<content>.*?)$


正则采集即可。

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注