首页 » 神马SEO » 西青区seo收集优化软件_前嗅ForeSpider采集教程采集安居客列表数据

西青区seo收集优化软件_前嗅ForeSpider采集教程采集安居客列表数据

访客 2024-10-28 0

扫一扫用手机浏览

文章目录 [+]

通过【链接列表】采集网站中的【正文数据】

案例:安居客二手房列表页链接,加翻页

西青区seo收集优化软件_前嗅ForeSpider采集教程采集安居客列表数据 西青区seo收集优化软件_前嗅ForeSpider采集教程采集安居客列表数据 神马SEO

一. 网站内容

西青区seo收集优化软件_前嗅ForeSpider采集教程采集安居客列表数据 西青区seo收集优化软件_前嗅ForeSpider采集教程采集安居客列表数据 神马SEO
(图片来自网络侵删)

1. 网站截图解释

本教程以采集“二手房”列表页链接内的正文数据为例,故链接入口该当为“二手房”板块的网址

Step1:点击官网,找到“二手房”点进进入,如下图红框所示:

Step2: 进入“二手房”复制该链接,如红框所示:

官网-二手房

2. 采集结果截图

链接列表采集预览

二 . 操作方法

1. 新建任务

按图片数字所示,1-2-3完成新建任务的步骤

新建任务

点击“下一步”,须要采集正文数据,以是此处须要勾选【链接列表】和【普通翻页】,如图,末了点击“完成”即可。

新建采集任务

2. 链接抽取配置

Step1:内置浏览器显示搜索页面后,按照提示:ctrl+左键单击文章标题。

Step2:点击【智能过滤】按钮,这时右侧的地址过滤会显示出相应的代码。

Step3:末了点击右上角的【采集预览】查看是有内容,如下图:

3. 翻页配置

采集页内含其它多链接,这时须要将翻页进行配置,以便将该页面内所有链接内容都可抽取出来。

按照图示数据操作:

Step1:点击左侧“链接抽取:普通翻页”

Step2:Ctrl+鼠标左键点击“下一页”

Step3:点击右下角,选择“标题过滤”,过滤规则选择“包含”,手动输入“下一页”即可。

4. 翻页采集预览

接第3步,点击右上角【采集预览】查看是否可天生如下图的链接和数据。

注:下图的预览内含所有下一页包含的链接

天生预览

5. 数据抽取

在【新建任务】中输入的网址只是我们想采集的预览页面,详细采集的正文内容(数据)须要进入详情页面。

按照图示数据操作:

Step1:双击左侧红框位置,可自定义名称,这里我们取“正文”。

Step2:勾选【抽取数据】将对应的层级链接复制粘贴到【示例地址】中,末了点击“下一步”即可完成。

6. 配置表单

如图示点击【数据建表】:

Step1:点击“采集配置”-“数据建表”

Step2:点击“+”,新建表单并自定义名称,这里取“安居客”

根据所需内容,配置表单字段,此处配置了包括主键、房屋信息、房屋编号、发布韶光、文章内容等等。
表单建立如下:

创建主键

主键务必第一个创建,其含义为该表单所属ID

字段名称:hkey

采集内容 选择“主键”

数据类型 选择“长数字”

字段属性 选择 “索引字段”、“健值唯一”、“主键字段”、“全文索引”

末了点击“确定”即可。

创建字段1-所在小区

字段名称:suozaixiaoqu(所在小区 拼音)

采集内容 选择“选区内可见文本”

数据类型 选择“字符串”

数据长度 选择 范围10-20即可,末了点击确定。
(备注可随意)

创建字段2-所在位置

字段名称:suozaiweizhi(所在位置 拼音)

采集内容 选择“选区内可见文本”

数据类型 选择“字符串”

数据长度 选择 范围10-20即可,末了点击确定。
(备注可随意)

表单配置字段自定义即可,如有多需求 可按上述同样操作即可。
终极呈现如下图:

7. 关联数据表

表单配置完毕后,须要进行数据关联,操作如下:

选择所需的表单,点击【创建】按钮

创建表名称可随意填写,需把稳 仅可利用“全英文”

8. 模板预览

通过预览,可以理解配置是否能够精确地采集到所需正文数据。
鼠标右键后选择【链接列表】,可以单独预览某个链接的数据。

链接预览

预览结果

9. 确认选区

操作如下图所示:

Step1:在左侧“安客居”下属字段中点击“suozaixiaoqu”

Step2:找到“所属小区”对应信息“金城艺术家”并ctrl+左键点击选中该选区

Step3:末了点击“确认选区”即可

Step1:在左侧“安客居”下属字段中点击“suozaiweizhi”

Step2:找到“所属位置”对应信息“西青-精武-津来公路,近工一号路”并ctrl+左键点击选中该选区

Step3:末了点击“确认选区”即可

把稳:主键无需确认选区,操作过程中要随时点击“保存”,养成良好习气。

三. 采集数据

1. 运行设置

运行设置处可以设置采集速率、采集策略、任务装载等。

2. 选择采集任务

操作如下图数字所示:

Step1:选择【数据采集】

Step2:在【任务列表】中勾选须要采集的任务,可勾选多个任务,同时采集。

Step3:点击“连接数据库”选择“打开”,此步骤不可避免,由于采集须要和数据库进行关联。

3. 开始采集

点击【开始采集】,系统开始进行采集。
剩余任务数为0时,系统自动停滞采集。
用户也可以自己停息任务或停滞任务(停滞任务会开释任务,再次启动时重新装载任务)。

4. 数据浏览

采集一段韶光往后,点击【数据浏览】,在数据列表中选中对应的数据表,即可浏览采集到的数据,点击【刷新】按钮可以同步显示数据。

数据浏览

5. 导出数据

点击【导出】按钮,选择导出文件格式后保存。

导出数据

导出数据

更多大数据咨询可关注公众号【前嗅大数据】(ID:forenose),定期分享各行各业大数据情报、竞品剖析、AI舆情监控报告、SEO知识分享等干货。

我们不止做数据采集,燃爆AI 大数据

你想要的 我们都有!

标签:

相关文章

莲湖区,古老与现代交织的繁华之地

莲湖区,位于我国历史文化名城西安市,是西安市的核心区域之一。这里既有千年古都的历史底蕴,又充满现代都市的活力。莲湖区以其独特的地理...

神马SEO 2024-12-10 阅读0 评论0

获客系统合法与违法的边界讨论

随着互联网的快速发展,各类企业纷纷加入市场竞争,获客系统作为一种新兴的营销手段,逐渐被广泛应用。在获取客户的过程中,一些企业为了追...

神马SEO 2024-12-10 阅读0 评论0