功能6、数据处理
一般情况下,我们采集到的网页数据需要进行二次处理,比如替换关键词、移除空白字符、进一步提取、格式转换、HTML标签处理等等。 如何设置?点击字段的菜单按钮,选择数据处理。 然后点击新建 处理步骤。 众鑫采集器提供一下几种处理步骤:...
一般情况下,我们采集到的网页数据需要进行二次处理,比如替换关键词、移除空白字符、进一步提取、格式转换、HTML标签处理等等。 如何设置?点击字段的菜单按钮,选择数据处理。 然后点击新建 处理步骤。 众鑫采集器提供一下几种处理步骤:...
取值属性 首先,字段通过 XPath 定位查找到 Html 元素,然后我们就需要通过取值属性 来确定 Html 元素的哪个部分来作为字段值。 一般情况下,采集器默认使用 InnerText ...
一般网站登陆 对于一些需要登录之后,才能看到数据内容的网站,要怎么采集呢? 在第一步、输入网址,勾选左下角的网站需要登录,然后点击点击登陆链接。 然后在弹出的浏览器中,完成登录操作即可。 登陆完成后直接关闭窗口 注意 一般不要使用登陆地址...
列表模式 顾名思义,就是针对包含多条数据记录的页面,我们一般称为列表页。 比如百度、谷歌的搜索结果页面,就是一个典型的列表页。 如果我们想要从这种页面提取出多条结构相同的数据,我们就要选择列表模式。 单条模式 就是仅采集一行数据记录。 这种...
介绍 在创建第一个任务示例中,我们演示了如何采集列表页数据。 有时不仅要采集列表页数据,还要采集内容页。下面就来介绍下如何采集多级页面。 以新浪新闻为例,我们要采集采集最新的新闻标题、时间、内容。 首先,输入起始网址,http://roll...
通常采集列表数据时,都会有分页,如何采集分页中的数据呢?在爬山虎采集器中,我们可以采集以下几种分页类型 1. 自动识别分页 众鑫采集器可以识别90%的分页元素,通过选择分页设置->自动识别分页 。 2. 手动设置分页 当不能自动识别时,我...
创建第一个采集任务 首先,打开众鑫采集器,点击主界面的新建任务按钮 第一步、选择起始网址 当你想要采集一个网站数据时,首先需要找到一个展示数据列表的地址。 这一步,至关重要,起始网址决定了你采集的数据数量和类型。 以大众点评为例,我们想要抓...
系统环境 本软件支持 windows Win7 SP1以上的系统,软件基于.NET Framework 4.7开发,内置Chrome浏览器需要VC++2015运行库环境,如果软件运行出错,请确保已安装这两个系统组件。下面是这两个组件官方下载...
众鑫采集器介绍 众鑫采集器是一款简单易用、功能强大的网页采集工具。采集配置非常简单,全程可通过内置浏览器可视化选取需要采集的内容,使您可以在短时间内就可以快速创建出一个采集任务,无需分析网页源代码,更不需要熟悉网络协议,只需要点点鼠标就可以...
采集百度糯米火锅列表数据。采集关键词“火锅”。采集字段;名称,链接,评分,人均,区域位置,备注,代金劵,活动备注,地址,营业时间,推荐菜等