采集的信息一般存储在临时的栏目,临时栏目里面信息经过人工筛选或分拣后再推送到真实的栏目。采集主要分为3个步骤:
A.基本信息配置-定义采集项目的名称、网址、数量等信息。
B.列表页规则配置-设置列表页匹配的规则,用来获取采集的地址。
C.内容页规则配置-设置内容页匹配的规则,是需要采集的具体信息。
以下介绍信息如何采集
(1)基本配置
单击添加采集项目,进入基本设置。基本设置项说明:
A项目名称:自定义采集项目名称,如:广州新闻-本地新闻
B入库栏目:采集信息存放的栏目,推荐先放到一个临时栏目,人工筛选或分拣后再推送到真实栏目。
C采集网站:被采集网站的名称,如:广州新闻网
D列表页URL:是采集的入口地址,列表页的第一页。
E分页规则:观察前三页地址的变化,设置变化的参数为{$page}如:
第一页http://www.gznews.gov.cn/more_2011.shtml?nodeid=1824
第二页http://www.gznews.gov.cn/more_2011.shtml?nodeid=1824&p=2
第三页http://www.gznews.gov.cn/more_2011.shtml?nodeid=1824&p=3
第一页地址末尾默认隐藏了p=1,第二页地址末尾p=2,第三页地址末尾p=3,
分页规则为:http://www.gznews.gov.cn/more_2011.shtml?nodeid=1824&p={$page}
F列表页数:设置要采集的列表页数。如果设置为2则采集第一页和第二页的数据。
G采集顺序:从列表第一条还是最后一条开始。
H下载图片到本地:是否下载图片
I项目说明:项目的介绍
(2)列表页规则配置
基本设置弄完后,单击下一步,进入列表页规则配置。
A列表页开始和列表页结束:找到列表内容开始的标记和结束标记,可以在被采集网站用浏览器右键的审查元素查看,如:
B标题开始代码和结束代码
C链接开始代码和结束代码
(3)内容页规则配置
列表页规则配置完,单击下一步,进入内容页规则配置。选择左边可以设置字段默认值,选择右边可以使用采集规则通过采集来给字段赋值。一般标题和内容都是需要通过采集规则获取,其他字段根据需要进行选择。
分别设置标题和内容采集规则
注意:文档仅供参考,每个网站的采集规则需要根据不同的网站来进行设置。规则设置需要具备一定的Html知识。