用火车头采集器采集网址

今天用了一下火车头来测试，拿了一个页面来做采集测试，标题和内容均可正确采集，但在采集网址上出了问题了。

例如，我采集的地址是：http://www.abcde.com/product/231566.html，这个页面的内容采集规则已完成，但是文章最后加上出处，也就是说，这个文章是从这个网址转载来的，需要加上。经过查找，这个网址用以下规则可以正确采集。

^(?<content>.*?)$

正则采集即可。

发表回复

发表回复 取消回复