功能11、使用POST请求采集数据
介绍 POST 请求是使用HTTP协议的POST方法进行请求的方式,区别于GET请求,POST请求一般是将参数数据放在POST Body(POST 数据体)中。而GET请求的参数都是放在URL中。 前提 要使用POST方式进行采集,首先需要...
介绍 POST 请求是使用HTTP协议的POST方法进行请求的方式,区别于GET请求,POST请求一般是将参数数据放在POST Body(POST 数据体)中。而GET请求的参数都是放在URL中。 前提 要使用POST方式进行采集,首先需要...
JSON数据请求的分页设置在之前的采集器版本中,当我们设置一个JSON请求的分页时,是通过批量生成网址功能,对分页参数进行批量生成。 这种处理方式在有多个生成参数的情况,会出现问题,比如一个请求中包含 查询关键词 、分页2个参数,每个关键词...
众鑫采集器2023版内置了3种引擎,浏览器引擎、HTTP 引擎、JSON 引擎。 浏览器引擎,同一般浏览器一样,它会加载、执行JavaScript,在采集一些动态类型、使用Ajax加载数据的网站,必须要使用浏览器引擎。 HTTP 引擎,它直...
采集前执行脚本 这个功能主要针对一些单页应用(需要填写表单、点击等操作,URL不变),比如百度地图(ditu.baidu.com),需要先输入查询关键词,在点击查询,才会出现结果数据。 还有其他一些需要输入筛选条件,比如时间、分类等条件的查...
如何下载图片? 点击添加字段。 鼠标点击网页中的图片,程序自动获取图片地址。(已有字段,选择重新选择元素,然后点击图片) 选择要下载的字段,点击菜单按钮,选择文件下载菜单。 设置文件名和图片的保存路径。。 完成 关于自定义文件名...
一般情况下,我们采集到的网页数据需要进行二次处理,比如替换关键词、移除空白字符、进一步提取、格式转换、HTML标签处理等等。 如何设置?点击字段的菜单按钮,选择数据处理。 然后点击新建 处理步骤。 众鑫采集器提供一下几种处理步骤:...
取值属性 首先,字段通过 XPath 定位查找到 Html 元素,然后我们就需要通过取值属性 来确定 Html 元素的哪个部分来作为字段值。 一般情况下,采集器默认使用 InnerText ...
一般网站登陆 对于一些需要登录之后,才能看到数据内容的网站,要怎么采集呢? 在第一步、输入网址,勾选左下角的网站需要登录,然后点击点击登陆链接。 然后在弹出的浏览器中,完成登录操作即可。 登陆完成后直接关闭窗口 注意 一般不要使用登陆地址...
列表模式 顾名思义,就是针对包含多条数据记录的页面,我们一般称为列表页。 比如百度、谷歌的搜索结果页面,就是一个典型的列表页。 如果我们想要从这种页面提取出多条结构相同的数据,我们就要选择列表模式。 单条模式 就是仅采集一行数据记录。 这种...
介绍 在创建第一个任务示例中,我们演示了如何采集列表页数据。 有时不仅要采集列表页数据,还要采集内容页。下面就来介绍下如何采集多级页面。 以新浪新闻为例,我们要采集采集最新的新闻标题、时间、内容。 首先,输入起始网址,http://roll...