注册 | 登录 | 设为首页 | 加入收藏
您当前的位置:飞翔学院-IT中国 → 软件应用网络工具 → 文章内容

Web爬行工具HBase-Writer 0.18.1发布

作者:佚名 来源:本站整理 发布时间:2008-11-3 18:21:55

HBase-Writer可以被当作一个强大的web爬行工具,且可以扩展。HBase-Writer从Heritrix2获得每个url的爬行结果,包括http头部信息和rul内容,然后写入给定的HBase表。表的行关键字是url本身,内容和头部信息存储在2个独立的列。

在此感谢Questio.com对此工程发布的支持

HBase-Writer -Heritrix2处理器插件,用来写web爬行结果到HBase表
Heritrix-HDFS-Writer -Heritrix2处理器插件,用来写web爬行结果到hdfs文件系统
Heritrix2——Internet Archiver的独立爬行器
HBase——一个分布式'BigTable'存储引擎
Hadoop——HBase运行于Hadoop分布式文件系统之上


  • 打印文档
  • 推荐好友
  • 返回顶部
  • 增大字体
  • 减少字体
关于本站 | 工作机会 | 合作网站 | 广告服务 | 市场合作| 联系我们 | 抽奖活动
版权所有: 武汉威俊科技有限公司 Copyright 2005-2007 www.ITCNW.COM All rights reserved