用火车头采集器采集网址

By admin  2011年10月26日 学习笔记 关注度 2,944 添加评论

今天用了一下火车头来测试,拿了一个页面来做采集测试,标题和内容均可正确采集,但在采集网址上出了问题了。

例如,我采集的地址是:http://www.abcde.com/product/231566.html,这个页面的内容采集规则已完成,但是文章最后加上出处,也就是说,这个文章是从这个网址转载来的,需要加上。经过查找,这个网址用以下规则可以正确采集。

^(?<content>.*?)$


正则采集即可。

发表评论