爬虫平台 spider-flow

爬虫平台 spider-flow

MIT
Java
跨平台
2019-08-29
小东c

【年终提升】2019尾声,来 OSC·年终盛典收割技术干货,get新技能!>>>

介绍

spider-flow,新一代爬虫平台,以图形化方式定义爬虫流程,不写代码即可完成爬虫。

特性

  • 支持 css 选择器、正则提取
  • 支持 JSON/XML 格式
  • 支持 Xpath/JsonPath 提取
  • 支持多数据源、SQL select/insert/update/delete
  • 支持爬取 JS 动态渲染的页面
  • 支持代理
  • 支持二进制格式
  • 支持保存/读取文件(csv、xls、jpg 等)
  • 常用字符串、日期、文件、加解密等函数
  • 支持流程嵌套
  • 支持插件扩展(自定义执行器,自定义函数)
  • 支持 HTTP 接口

插件支持 

  •  Selenium 插件
  •  Redis 插件
  •  Mongodb 插件
  •  Hbase 插件
  •  IP 代理池插件
  •  OCR 插件

部分截图 

的码云指数为
超过 的项目
加载中

评论(14)

zhaoyujian
zhaoyujian
支持
王剑疾雷
不可思议
开源中国首席罗纳尔多
怎么用的?怎么部署的?
小东c
小东c 软件作者
官网有文档
z
zsl1549
怎么可以使用起来
h
heike07
有点可以啊
gavinking
gavinking
支持selenium,那你的项目本身能支持集群吗
安静聆听
安静聆听
持续关注,希望能坚持下去。
安静聆听
安静聆听
不错很好的设计理念。简洁高效,希望能出一些demo教程
小东c
小东c 软件作者
最近一直忙着优化和开发了,有时间会详细介绍各个组件的用法和demo的。
金木童子
我想付费咨询购买你这个爬虫技术可以吗
小东c
小东c 软件作者
当然可以啊
金木童子
你微信号多少啊
飘零剑客_
这个技术的花费多少钱?

spider-flow 0.3.2 发布,Java 开源爬虫平台

spider-flow 是一个无需写代码的爬虫平台,通过定义流程的方式制定爬虫 更新日志 修复前端日志不输出的BUG 修复前端日志滚动条不显示的问题 修复输出全部参数的未选中也输出的BUG 修复Cooki...

2019/12/26 11:02

spider-flow 0.3.1 发布,Java 开源爬虫平台

spider-flow 是一个无需写代码的爬虫平台,通过定义流程的方式制定爬虫 更新日志 新增Header、Cookies批量设置 新增变量、参数、输出、函数、header、cookie拖动调整执行顺序 新增插件功能描...

2019/12/23 10:29

spider-flow 0.3.0 发布,Java 开源爬虫平台

spider-flow 是一个无需写代码的爬虫平台,通过定义流程的方式制定爬虫 更新日志 新增Cookie自动管理功能 新增resp.links()、resp.images()、resp.title函数 新增url批量下载,不用先爬取再下...

2019/12/09 11:04

spider-flow 0.2.1 发布,Java 开源爬虫平台

spider-flow 是一个无需写代码的爬虫平台,通过定义流程的方式制定爬虫 2019年度最受欢迎中国开源软件评选,投一票给 spider-flow 吧,谢谢! 更新日志 新增selectOne方法,执行后返回Map对象...

2019/11/18 10:15

spider-flow 0.2.0 发布,Java 开源爬虫平台

spider-flow 是一个无需写代码的爬虫平台,通过定义流程的方式制定爬虫 更新日志 新增全局变量功能 新增爬虫搜索功能 新增List打乱函数 新增内置demo(爬取开源中国动弹) 修复等待节点在双重...

2019/11/04 10:23

spider-flow 0.1.0 发布,Java 开源爬虫平台

历时三个多月,第一个正式版发布 spider-flow 是一个无需写代码的爬虫平台,通过定义流程的方式制定爬虫 现已有特性如下: 支持css选择器、正则提取 支持JSON/XML格式 支持Xpath/JsonPath提取...

2019/10/30 10:56

没有更多内容

加载失败,请刷新页面

没有更多内容

暂无问答

spider-flow爬虫之爬取开源中国动弹(一)

spider-flow 介绍 spider-flow是一款java开发的开源爬虫平台,其核心目标是以无需编写java代码实现爬虫 开源中国动弹请求接口分析 首先打开开源中国首页,点击顶部导航条"动弹"跳转至动弹广场...

2019/09/22 20:51
1K
0
Scrapy:Python的爬虫框架

网络爬虫是在网上进行数据抓取的程序,使用它能够抓取特定网页的HTML数据。Scrapy是一个使用Python编写的,轻量级的,简单轻巧,并且使用起来非常的方便。

2015/06/29 00:29
508
1
Scrapy的架构初探

Python即时网络爬虫启动的目标是一起把互联网变成大数据库。单纯的开放源代码并不是开源的全部,开源的核心是“开放的思想”,聚合最好的想法、技术、人员,所以将会参照众多领先产品,比如,...

2016/06/12 16:20
721
2
Scrapy学习笔记(一)

[TOC] Scrapy Study Note Scrapy学习笔记 IPython JupyterNotebook Anaconda 1. Basic Concepts 基础概念 1.1.Command line tool 命令行工具 1.2.Spiders 蜘蛛程序 1.3.Selectors 文本选择器...

2018/11/13 18:10
53
0
Scrapy -- 04

今天总算给老板完成了抓取任务。差点让允许域名和编码坑死。前面只是简单翻了一下官方的tutorial,然后今天就发现了:http://scrapy-chs.readthedocs.org/zh_CN/0.24/intro/overview.html。台...

2014/10/07 00:17
446
0
Scrapy 1.5.0之命令行

配置参数 系统层面: E:\Python 3.6.2\Lib\site-packages\scrapy\templates\project, 用户层面:~/.config/scrapy.cfg ($XDG_CONFIG_HOME) 及 ~/.scrapy.cfg ($HOME) 作全局设置 项目定义: ...

2018/06/11 14:46
98
0
解决 Scrapy-Redis 空跑问题,链接跑完后自动关闭爬虫

scrapy-redis框架中,reids存储的xxx:requests已经爬取完毕,但程序仍然一直运行,如何自动停止程序,结束空跑。相信大家都很头疼,尤其是网上一堆搬来搬去的帖子,来看一下 我是如何解决这个...

2018/03/07 16:16
3.2K
0

没有更多内容

加载失败,请刷新页面

返回顶部
顶部
天津时时彩