火车头采集器如何获得采集页的地址呀

火车头采集器如何获得采集页的地址呀,第1张

“我采集一个网页的地址,起始找的是一个层,终止也找了一个层 这样不行啊如果没有数字的网址怎么采集呢!如某个网址是list_50html 上图 才 ”
----------------------------

有些网站的列表页翻页参数中,第一个参数是无效的,利用数值变化就无法访问列表页的第一页。

我不知道在火车头里面怎样解决这个问题的。在熊猫采集里面是可以忽略这个问题的,只需要鼠标选择列表页中指向下一页的链接,就能翻页访问。因为熊猫使用的是机器训练的采集设置方式。不需要用户手工设置这些。

少数没有下一页的列表页中,遇到这种情况,可以使用参数列表方式解决。你可以在火车采集器里面找找是否有“参数列表”的翻页方式。

有些采集软件中,可以直接同时输入多个列表页地址。这样也就不必去设置翻页参数,也很简单。熊猫中不支持这种方式,不知道火车采集器是否支持。如果支持,你可以直接输入多个列表页地址,换行区分即可。

1
首先讲一讲网站结构,通常网站结构为树形结构,一个网站主要包以下几种页面:首页、栏目页、文章页,其结构如下图。
其次讲一讲火车头采集原理,火车头的运行需要一套规则来指定该如何采集所需数据,即需要编写火车头采集规则,编写采集规则也是新手最头痛的问题。
火车头采集器通常通过网址抓取网站返回的源代码,然后在源代码中提取需要的信息。因此,采集数据需要先采集网址,然后再采集数据。
2
下面开始编写采集规则:
运行LocoyPlatformexe
3
在左侧“任务列表树”选择一个分组点击右键,选择“新建任务” *** 出新建任务对话框。填写任务名,网站编码一般选择自动即可。
添加起始网址
填写“第一步:采集网址规则”这里需要按照网站的树形结构逐级获取下一级结构的网址,直至获取到内容页的网址。先填写起始网址,通常为目标站首页地址。点击“添加”,在单条网址处填上火车头博客的首页地址,然后依次点击“添加” ->“完成”。
编写“多级网址获取”规则
这里需要先在起始地址页面找到所有需要采集的栏目页的代码区域,先查看起始页地址的源码,找到如图所示代码区域:
点击右侧“添加”按钮打开“添加多级网址采集规则”,选择“从页面自动分析得到地址链接”单选按钮,在下面“从该选定区域中提取网址”,“从”(左侧)文本框填上栏目地址代码区域开始之前的标志性代码(要保证其在该页的唯一性),“到”右侧文本框填上栏目地址代码区域结束之后的标志性代码,在“结果网址过滤”的“必须包含”和“不得包含”文本框填上相应代码,如果该区域没有多余的链接不需要过滤,可以不填,这里的栏目页网址必须包含“category-”。然后点击“保存”返回。
现在需要获取内容页的地址。先打开栏目页查看源码,查找内容页地址存在的区域及地址规律。按照上一步的方法先填写内容页所在区域的起始和结束标志性代码,然后分析这个区域中包含的链接与我们说需要的内容页地址链接规律,添加过滤代码。这里起始代码为“<!--显示-->”,结束代码为“<div class="page" style="float:right">”过滤代码为必须包含“read-”不得包含“#”。如图:
需要注意的是这里文章比较多会有很多分页,所以需要填写“列表分页获取”规则。通常只需要指定分页代码的区域,如有必要可以填写“组合生成列表页分页”规则。这里的列表分页规则其实代码为“<li class="pageNumber">”,结束代码为“title="下一页">”。如果勾选“自动识别分页”的话,会自动提取a标签的href属性,如果不勾选自动识别的话,需要填写组合生成列表页分页”规则。
然后保存返回,可以通过“测试网址采集”来测试规则是否正确,不正确可以返回修改规则,正确的话可以开始编写“第二步采集内容规则”。
编写“第二步采集内容规则”
先打开内容页以及内容页的源码,找到需要提取的信息的前后代码特征。以提取标题和内容为例。首先复制文章标题,然后在源码中查看该标题出现的几处地方,找一处前后代码在每一篇文章都一样的地方,该例共出现了3处,第二处的代码没有其他干扰代码。点击“添加”,标签名填“标题”,提取数据方式选择前后截取,前后代码分别为“<h1 class="ContentTitle"><strong>”和“</strong></h1>”。如果采集的内容需要作进一步处理(如替换删除编码转换过滤html等),在下方“数据处理”点击添加填写相应规则。
再添加一个标签,标签名为“内容”,按照上述方法填写内容的前后代码片段,需要注意的是,前后代码片段最好不要出现不完整的标签(如:“<div class="Content-body"” 应该写作“<div class="Content-body">”,一个完整的标签应该是以“<”开始,以“>”结束,如果<>之间的内容在各个内容页有一部分不一样,将不一样的部分用()代替即可),否则提取的内容会包含部分不完整的标签。通常正文包含的HTML会比较多,可以添加HTML过滤功能,建议仅保留段落(p)、(img)、换行(br)等标签。
测试内容采集规则
保存规则后返回采集内容规则页面,在右侧“规则测试”的典型页面文本框填上一个内容页的地址,然后点击测试,如果下面显示到的内容符合预期说明可以了,如果未获取到内容或者获取到内容不正确,返回检查并修改规则。
开始采集
选择要采集的任务规则,勾选“采网址”和“采内容”复选框,点击工具栏“开始”按钮。
后续工作
采集到的数据保存在数据库,可以通过在任务名上点右键,选择“打开DATA下任务文件夹”打开数据库所在位置,该数据库可以通过ACCESS打开和编辑。如果想要重新采集,需要通过右键选择“清空该任务网址库”和“清空任务所有采集数据”。

可以。火车采集器是一个供各大主流文章系统,论坛系统等使用的多线程内容采集发布程序,使用火车采集器,可以瞬间建立一个拥有庞大内容的网站,支持同时创建多个采集任务,每个关键词可以采集多扁文章。

1,火车头是个程序的名称。在比较大型的网站,内容数据比较多,如门户类的、B2B类的等等。为了站长轻松编辑内容,人们就开发了这么一种工具,主要是采集数据用的。
2,普通的火车都是由一个火车头带动后面的车厢行进。现在的动车组是动力分散型,就是带有动力的车厢分散外整个车组里面。
3,“污”的代名词。火车跑起来“呜呜呜呜呜呜”地响。

在网络上,火车头主要指的是火车头采集器,是一种用于采集,抓取网页上内容的爬虫软件。
火车头采集器的作用主要有:
1、采集数据
包括采集网址,采集内容。这个过程是获得数据的过程。我们做规则,在采的过程中也算是对内容做了处理。
2、发布内容
就是将数据发布到自己的论坛,CMS的过程,也是实现数据为已有的过程。可以用WEB在线发布,数据库入库或存为本地文件。

测试能采集到内容的话说明你的内容页面的配置是正确的 运行任务采集不到的话有可能是:
你的第一步,采集网址的配置出问题的话,那么火车头就无法到达内容页面从而无法采集到内容。
如何知道是否是采集网址出错呢,很简单,采集网址第一步有个测试采集网址的功能,点击一下就能看到结果是否正确了。

火车头代理采集很慢的原因是网站比较复杂。根据查询相关资料信息,火车采集器软件是一款网页抓取工具,是用于网站信息采集,网站信息抓取,包括、文字等信息采集处理发布,采集很慢的原因是网站比较复杂的时候,火车头的固定采集模式,使得配置起来并不友好。

火车头采集器一直循环的方法是:首先,在火车头采集器中设置循环模式,使其能够一直循环采集数据。其次,在火车头采集器中设置一定的时间间隔,当采集器采集到某一段数据时,它就会在这个时间间隔之后重新开始采集数据,从而达到循环采集的目的。最后,在火车头采集器中设置采集数据的存储位置,使其能够将采集到的数据存储到指定的文件中,以便于下次采集时可以从上次采集的位置继续采集,从而达到循环采集的效果。


DABAN RP主题是一个优秀的主题,极致后台体验,无插件,集成会员系统
乐在赚 » 火车头采集器如何获得采集页的地址呀

0条评论

发表评论

提供最优质的资源集合

立即查看 了解详情