Quantcast
Channel: 爱积累爱分享 » cx-extractor
Viewing all articles
Browse latest Browse all 2

网页正文提取技术分析

$
0
0

写作背景

最近做一个项目,其中涉及到网页信息采集,随后对相关的技术进行了学习与研发,网页正文提取技术常用的有joyhtml、boilerpipe、cx-extractor下面将对其做一个简单的对比说明,和大家进行下分享。

相关技术

1、joyhtml: http://code.google.com/p/joyhtml/
JoyHTML的目的是解析HTML文本当中的链接和正文,利用超链接密度法为主要判断依据的标记窗算法,采用DOM树解析模式。

2、boilerpipe: http://code.google.com/p/boilerpipe/
这个Java类库提供算法来探测和删除在一个网页中主文本内容旁多余的重复内容。它已经有提供特殊的策略来处理一些常用的功能如:新闻文章提取

3、cx-extractor:http://code.google.com/p/cx-extractor/

本算法首次将网页正文抽取问题转化为求页面的行块分布函数,并完全脱离HTML标签。通过线性时间建立行块分布函数图,由此图可以直接高效、准确的定位网页正文。同时采用统计与规则相结合的方法来解决系统的通用性问题。

最终选择cx-extractor

理由如下:
简单:java代码不超过400行
准确率高:>95%
算法时间复杂度为线性


Viewing all articles
Browse latest Browse all 2

Latest Images

Trending Articles





Latest Images