定向采集教程

前序

采集规则编写对入门有一定难度，只要多尝试上手了后期使用起来会很方便，对今后使用其他采集软件也是多多受益

域名建站系统定向采集工具在网站后台的内容管理里

操作路径：内容管理 > 采集管理 > 规则采集

设置采集列表网址

列表网址就是您要采集的网站的栏目列表地址

如果只是单纯采集列表页的第一页，直接输入该列表URL就行，采集第一页的内容的好处就是可以不用采集老旧的新闻，而且有新更新也可以及时采集到。如果需要采集该栏目的所有内容，那也可以通过设置通配符的方式，匹配所有列表URL规则。

匹配URL规则的方法也很简单，你只需要查看列表分页的不同，加个通配符即可，以人民网科技频道为例：

第一页的URL是：http://scitech.people.com.cn/index1.html

第二页的URL是：http://scitech.people.com.cn/index2.html

第三页的URL是：http://scitech.people.com.cn/index3.html

通过观察列表URL的变化，可以看出第一页就是index1.shtml，第二页就是index2.shtml，第三页就是index3.shtml，变换的就是页码而已，列表页的URL通配符是 [开始页-结束页] ，假如你要采集栏目前10页的，那么列表URL规则就是：http://scitech.people.com.cn/index[1-10].html ，看到其中的区别了吧，就是在变换的部分加入通配符，从开始页到结束页即可。

设置文章网址区域

上面我们已经设置了要采集的网站列表网址，但是打开这个网址页面有很多内容，程序无法知道哪些才是要采集的文章网址，所以我们这里要设置一个区域规则去告诉它。

如图所示，红色框内才是我们要采集的文章

这个规则怎么写呢，就是你写个规则告诉它文章网址从哪里开始，从哪里结束，最后写成规则就是

开始的地方的代码``[内容]``结束的地方的代码

比如我们打开上面人民网科技频道列表的第一页：

http://scitech.people.com.cn/index1.html

打开后，右键查看源码，通过查看源码找到我们要的那些文章网址的区域

最后我们在前后找到一段唯一的代码做成规则，就是

<div class="headingNews qiehuan1_c">[内容]<div class="page_n clearfix">

设置标题规则

标题规则和文章网址区域规则写法是类似的，打开列表里的任意一篇文章，查看源代码找到页面里含有标题的地方

如文章网址：http://scitech.people.com.cn/n1/2019/0830/c1007-31327011.html，源代码截图如下

标题前后一段唯一的代码做成规则，就是

<title>[内容]--科技--人民网 </title>

设置正文规则

还是在上面的页面里找到正文所在的那个区域，找到正文前后的一段唯一的代码做成规则

如图所示

最后规则可以写成

<div class="box_con" id="rwb_zw">[内容]<div class="zdfy clearfix">

最后点击测试，如果测试成功了点击保存即可采集

定向采集教程

设置 采集列表网址

设置 文章网址区域

设置 标题规则

设置 正文规则

设置采集列表网址

设置文章网址区域

设置标题规则

设置正文规则