新闻网页正文通用抽取器 GNE

MIT
Python
跨平台
2019-09-24
kingname

GNE 是基于论文《基于文本及符号密度的网页正文提取方法》实现的新闻网页正文通用抽取器。

在论文中描述的正文提取基础上,还增加了标题、发布时间和文章作者的自动化探测与提取功能。

最后的输出效果如下图所示:

本项目取名为抽取器,而不是爬虫,是为了规避不必要的风险,因此,本项目的输入是 HTML,输出是一个字典。请自行使用恰当的方法获取目标网站的 HTML。

的码云指数为
超过 的项目
加载中

评论(5)

马晓陈
这个只能手动去copy吗?能自动去爬取某类数据,然后在进行数据整理或抽取吗?
专业写BUG的程序员
搞舆情分析的么?
kingname
kingname 软件作者
数据抽取。
火眼金睛容嬷嬷
火眼金睛容嬷嬷
对其他网站压力比较大的是下载请求,至少咱这项目没有这方面的功能嘛
kingname
kingname 软件作者
为了规避风险。本项目不提供网页下载功能。需要你自己想办法下载网页。

暂无资讯

暂无问答

GNE——准确率高达99.9%的新闻类网页通用抽取器

项目起源 开发这个项目,源自于我在知网发现了一篇关于自动化抽取新闻类网站正文的算法论文——《基于文本及符号密度的网页正文提取方法》) 这篇论文中描述的算法看起来简洁清晰,并且符合逻...

09/27 10:05
532
0
Jquery ajax 格式

记录一下ajax 的格式,方便使用时复制粘贴

2016/12/05 14:18
10
0
VM虚拟机:用XSHELL连接创建好的VM虚拟机内的linux

上一章我们说到如何创建vm虚拟的linux系统,现在我们来用xshell进行连接我们的虚拟机吧 准备 xshell :不得不说强大的百度了什么资源都有 1.启动虚拟机进入登录界面,录入你那强大的root用户...

2016/09/13 00:55
48
1
深入浅出JSONP--解决ajax跨域问题

同源策略   为什么会出这样的错误呢?这是因为所有支持Javascript的浏览器都会使用同源策略这个安全策略。看看百度的解释:   同源策略,它是由Netscape提出的一个著名的安全策略。现在所...

2015/11/25 10:04
47
0
Head First 设计模式 Part I(策略模式,观察者模式,装饰器模式).md

Head First 设计模式 策略模式,观察者模式,装饰器模式

2016/08/05 17:23
659
2

没有更多内容

加载失败,请刷新页面

返回顶部
顶部
天津时时彩