Channel: 爱积累爱分享 » cx-extractor

网页正文提取技术分析

June 4, 2013, 7:51 am

≪ Previous: 基于行块分布函数的通用网页正文抽取算法cx-extractor

写作背景

最近做一个项目，其中涉及到网页信息采集，随后对相关的技术进行了学习与研发，网页正文提取技术常用的有joyhtml、boilerpipe、cx-extractor下面将对其做一个简单的对比说明，和大家进行下分享。

相关技术

1、joyhtml： http://code.google.com/p/joyhtml/
JoyHTML的目的是解析HTML文本当中的链接和正文，利用超链接密度法为主要判断依据的标记窗算法，采用DOM树解析模式。

2、boilerpipe： http://code.google.com/p/boilerpipe/
这个Java类库提供算法来探测和删除在一个网页中主文本内容旁多余的重复内容。它已经有提供特殊的策略来处理一些常用的功能如：新闻文章提取

3、cx-extractor：http://code.google.com/p/cx-extractor/

本算法首次将网页正文抽取问题转化为求页面的行块分布函数，并完全脱离HTML标签。通过线性时间建立行块分布函数图，由此图可以直接高效、准确的定位网页正文。同时采用统计与规则相结合的方法来解决系统的通用性问题。

最终选择cx-extractor

理由如下：
简单：java代码不超过400行
准确率高：>95%
算法时间复杂度为线性

↧

↧

Latest Images

停紅燈「巧遇玖壹壹春風」！大學生激動出聲本尊解讀唇語：我心領了

停紅燈「巧遇玖壹壹春風」！大學生激動出聲本尊解讀唇語：我心領了

April 26, 2024, 9:13 pm

零售IT雙周報第33期：遵循Just Walk Out老路，Amazon開始販售無人結帳技術Dash Carts解決方案給第三方零售商

零售IT雙周報第33期：遵循Just Walk Out老路，Amazon開始販售無人結帳技術Dash Carts解決方案給第三方零售商

April 26, 2024, 3:50 am

AmEx Delta SkyMiles Reserve 信用卡【2024.4 更新：限量版卡面】

AmEx Delta SkyMiles Reserve 信用卡【2024.4 更新：限量版卡面】

April 25, 2024, 8:30 am

K Kwong：我唔想食紙「紙餐具多有害化學物質、比想像污糟」

K Kwong：我唔想食紙「紙餐具多有害化學物質、比想像污糟」

April 25, 2024, 12:20 am

曹三强牧师：中国奇葩：公安部的证件派出所不买账 ———出狱50天仍旧得不到身份证

曹三强牧师：中国奇葩：公安部的证件派出所不买账 ———出狱50天仍旧得不到身份证

April 24, 2024, 11:10 pm

2024 ASCO全球首发！迪哲医药舒沃哲两项研究入选，国际多中心注册研究将重磅亮相口头报告

2024 ASCO全球首发！迪哲医药舒沃哲两项研究入选，国际多中心注册研究将重磅亮相口头报告

April 24, 2024, 7:10 am

技嘉歐洲OCP峰會大秀ORv3先進散熱解決方案

技嘉歐洲OCP峰會大秀ORv3先進散熱解決方案

April 24, 2024, 5:30 am

響應2048淨零碳排虎科大展示四大永續轉型成果

響應2048淨零碳排虎科大展示四大永續轉型成果

April 23, 2024, 7:34 am

重瓣臭茉莉

April 23, 2024, 7:00 am

台湾花莲县海域发生4.2级地震，震源深度8千米

台湾花莲县海域发生4.2级地震，震源深度8千米

April 23, 2024, 5:51 am

Trending Articles

《KYMCO》光陽機車 GP 125 碟煞 2015年全新車 SJ25KF【機車工程師】

April 19, 2016, 9:00 am

1972 德川性爱禁止令：色情大名，铃木则文又一B级异色！

December 19, 2020, 10:25 pm

文学城｜姬胜德羞辱江泽民惹祸

April 20, 2015, 10:06 am

RAV4 E-Mirror電子式後視鏡無法連線

October 6, 2023, 7:30 am

歡迎永雄卓閱未來鄰居加入line群

April 11, 2019, 4:57 am

[一般] 神州全地圖掉寶資料

July 28, 2018, 8:15 am

泰语每日一词：ถึง“到”，“即使”（Day 401）

November 16, 2016, 10:00 am

Uncaught ReferenceError: CC_PHYSICS_BUILTIN is not defined

May 7, 2020, 1:40 am

[最游记]音乐合集42CD[度盘下载][2.3G]

July 13, 2015, 2:12 am

请问MLC-8K和MLC-16K在制造时有什么区别？

December 9, 2018, 9:07 pm

Mio M775 機車行車記錄器時間一直跑掉

March 27, 2021, 5:32 am

「影音」早晨現烤麵包 - 培根起司麵包卷

March 19, 2018, 5:27 am

Window 10 如何開機進Safe mode, Uefi, WinPE ? 什麼是WinRE?

December 10, 2019, 6:55 pm

給初學者的Q&A：關於SMT鋼板、打件面順序決定、DFM、DFX

May 24, 2016, 5:20 pm

VMware Free Hypervisor 相關限制

November 3, 2016, 8:31 am

px6使用Zlink無線CarPlay的連結速度

September 7, 2019, 10:01 am

[2024.04.06] TVアニメ「転生したらスライムだった件 3rd Season」EDテーマ「Believer」／来栖りん [FLAC]

April 5, 2024, 6:59 am

【信用卡攻略】7大高薪人仕必備尊尚信用卡

October 12, 2017, 7:00 pm

[MagicStar] 帮您推翻不在场证明 SP / アリバイ崩し承ります特別編 EP02 [WEBDL] [1080p]

March 14, 2020, 8:24 pm

网传新田惠海下海！事务所与本人完全否定出演过AV的说法

April 4, 2016, 6:44 pm

More Pages to Explore .....

Latest Images

停紅燈「巧遇玖壹壹春風」！大學生激動出聲本尊解讀唇語：我心領了

停紅燈「巧遇玖壹壹春風」！大學生激動出聲本尊解讀唇語：我心領了

April 26, 2024, 9:13 pm

零售IT雙周報第33期：遵循Just Walk Out老路，Amazon開始販售無人結帳技術Dash Carts解決方案給第三方零售商

零售IT雙周報第33期：遵循Just Walk Out老路，Amazon開始販售無人結帳技術Dash Carts解決方案給第三方零售商

April 26, 2024, 3:50 am

AmEx Delta SkyMiles Reserve 信用卡【2024.4 更新：限量版卡面】

AmEx Delta SkyMiles Reserve 信用卡【2024.4 更新：限量版卡面】

April 25, 2024, 8:30 am

K Kwong：我唔想食紙「紙餐具多有害化學物質、比想像污糟」

K Kwong：我唔想食紙「紙餐具多有害化學物質、比想像污糟」

April 25, 2024, 12:20 am

曹三强牧师：中国奇葩：公安部的证件派出所不买账 ———出狱50天仍旧得不到身份证

曹三强牧师：中国奇葩：公安部的证件派出所不买账 ———出狱50天仍旧得不到身份证

April 24, 2024, 11:10 pm

2024 ASCO全球首发！迪哲医药舒沃哲两项研究入选，国际多中心注册研究将重磅亮相口头报告

2024 ASCO全球首发！迪哲医药舒沃哲两项研究入选，国际多中心注册研究将重磅亮相口头报告

April 24, 2024, 7:10 am

技嘉歐洲OCP峰會大秀ORv3先進散熱解決方案

技嘉歐洲OCP峰會大秀ORv3先進散熱解決方案

April 24, 2024, 5:30 am

響應2048淨零碳排虎科大展示四大永續轉型成果

響應2048淨零碳排虎科大展示四大永續轉型成果

April 23, 2024, 7:34 am

重瓣臭茉莉

April 23, 2024, 7:00 am

台湾花莲县海域发生4.2级地震，震源深度8千米

台湾花莲县海域发生4.2级地震，震源深度8千米

April 23, 2024, 5:51 am

© 2024 //www.rssing.com