介绍
在创建第一个任务示例中,我们演示了如何采集列表页数据。 有时不仅要采集列表页数据,还要采集内容页。下面就来介绍下如何采集多级页面。
以新浪新闻为例,我们要采集采集最新的新闻标题、时间、内容。
首先,输入起始网址,http://roll.news.sina.com.cn/news/gnxw/gdxw1/index_1.shtml,点击下一步
。
程序自动分析出列表数据,然后点击蓝色链接列
的列头。这时,工具栏出现深入此链接采集
,点击该按钮。
然后浏览器会新建一个内容页的标签页。 在内容页标签页中,点击添加字段
,然后在浏览器中点击新闻内容,修改字段名称为内容。
- 在选择正文内容时,如果鼠标无法选择完整内容时,参考如何选择完整正文
然后,下一步,完成。 我们测试下任务
如何手动采集链接
一般情况下
- 新建字段,点击需要采集的链接。
- 把取值属性修改为href
部分使用javascript
来跳转的链接需要我们手动组合链接地址( href值为空,或者类似javascirpt:xxx()
)