功能二、利用众鑫网页采集器实现多级页面采集

介绍

在创建第一个任务示例中,我们演示了如何采集列表页数据。 有时不仅要采集列表页数据,还要采集内容页。下面就来介绍下如何采集多级页面。

新浪新闻为例,我们要采集采集最新的新闻标题、时间、内容。

首先,输入起始网址,http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_1.shtml,点击下一步

程序自动分析出列表数据,然后点击蓝色链接列的列头。这时,工具栏出现深入此链接采集 ,点击该按钮。

然后浏览器会新建一个内容页的标签页。 在内容页标签页中,点击添加字段,然后在浏览器中点击新闻内容,修改字段名称为内容

  • 在选择正文内容时,如果鼠标无法选择完整内容时,参考如何选择完整正文

然后,下一步,完成。 我们测试下任务


如何手动采集链接

一般情况下

  1. 新建字段,点击需要采集的链接。
  2. 把取值属性修改为href

部分使用javascript 来跳转的链接需要我们手动组合链接地址( href值为空,或者类似javascirpt:xxx())

 收藏 (0) 打赏

您可以选择一种方式赞助本站

支付宝扫一扫赞助

微信钱包扫描赞助

未经允许不得转载:众鑫企业名录搜索软件_谷歌图数据采集大师_高德地图采集_百度地图采集_360地图采集_美团点评商家采集 » 功能二、利用众鑫网页采集器实现多级页面采集

热门文章

  • 评论 抢沙发

    • QQ号
    • 昵称 (必填)
    • 邮箱 (必填)
    • 网址

    众鑫企业名录搜索软件

    众鑫网页数据采集器众鑫采集器