[原创]使用 heritrix3.1.0 运行一个爬虫任务_Android, Python及开发编程讨论区_Weblogic技术|Tuxedo技术|中间件技术|Oracle论坛|JAVA论坛|Linux/Unix技术|hadoop论坛_联动北方技术论坛

联动北方技术论坛-国内领先的Weblogic、Tuxedo中间件技术论坛

联动北方-国内领先的云技术服务提供商

» 游客

当前位置：论坛首页 » 自由讨论区 » Android, Python及开发编程讨论区 »

总帖数

2

每页帖数

10

1/1页

1

返回列表

查看: 9498 | 回复: 1

主题： [原创]使用 heritrix3.1.0 运行一个爬虫任务

上一篇

下一篇

panpan.nie

注册用户

等级：大校
经验：4754
发帖：217
精华：2
注册：1970-1-1
状态：离线
发送短消息息给panpan.nie

发送短消息息给panpan.nie

加好友发送短消息息给panpan.nie

发送短消息息给panpan.nie

发消息

发表于：

IP：您无权察看

2016-4-14 17:44:23 | [全部帖] [楼主帖]

楼主

1、heritrix3 下载

在 sourceforge 下载源码包与编译后的包

https://sourceforge.net/projects/archive-crawler/files/heritrix3/3.1.0/

2、heritrix3 快速运行你的第一个爬行程序

1）解压 heritrix-3.1.0-dist.zip ，如解压后的目录D:\study\heritrix-3.1.0\

2）运行cmd，进入到bin 目录下，如cd D:\study\heritrix-3.1.0\bin。

执行命令：heritrix -a admin:admin

这里冒号前面admin是用户名，后面是密码，这样将会在另一个新建的窗口中运行heritrix程序。

3）在浏览器地址栏输入https://localhost:8443，注意这里是https，端口号为8443，进入webUI控制页面。（忽视不安全的提示）

4）在"Create new job directory with recommended starting configuration"标签下的文本框里输入新任务的名字。然后点击create按钮。(注意在heritrix3.0中，Job Directories只承认有.cxml的文件的工作目录，在你想要放置job的目录下，新建文件夹，并将conf\jobs\profile-defaults下的，profile-crawler-beans.cxml拷贝过去，可修改名称为crawler-beans.cxml，输入路径，然后点add添加进去)。

5）点击Job Directories列表下新建任务的名字，将会进入新工作的配置页面。在页面的顶端，有一个名叫craw-beans.cxml的配置文件，旁边有一股edit的链接。

6）点击"edit"，配置内容将会出现，配置内容是可以被编辑的。

为使抓取工作进行，你至少需要修改几个属性。

a. 首先要给metadata.operatorContactUrl 属性赋值，例如：http://bbs.landingbj.com

其在id为simpleOverrides的bean内。

内容如下：

metadata.operatorContactUrl=ENTER_AN_URL_WITH_YOUR_CONTACT_INFO_HERE_FOR_WEBMASTERS_AFFECTED_BY_YOUR_CRAWL，

表示控制爬虫的url，

将其值改为：

metadata.operatorContactUrl=http://bbs.landingbj.com

b. 在longerOverrides bean的<prop>下，输入爬行开始的URL。如http://bbs.landingbj.com

7）点save changes，回到工作页面（注意路径，不能回来就直接重新输路径）。

8）点build，Job Log会显示INFO Job instantiated

9）点击launch按钮，将会暂停pause，点击unpause,爬行工作就开始了。

（即运行状态[Job is Unbuilt] 点 build ->[Job is Ready]点launch -> [Job is Active:PREPARING]等一会儿 ->[Job is Active:PAUSE] 点击 unpause -> [Job is Active:Running]）

10）抓取的数据 D:\study\heritrix-3.1.0\bin\jobs\test\20160414090055\warcs

参考链接：

http://blog.csdn.net/oucliuliu/article/details/7453815 快速运行爬虫示例

https://webarchive.jira.com/wiki/display/Heritrix/Heritrix+3.0+and+3.1+User+Guide 官方用户手册

http://crawler.archive.org/articles/developer_manual/index.html Heritrix开发参考文档

https://webarchive.jira.com/wiki/display/Heritrix/Heritrix+3.x+API+Guide API文档

http://builds.archive.org/javadoc/heritrix-3.2.0/ API文档

本版精华
热门帖子

赞(0)

操作引用/回复

panpan.nie

注册用户

等级：大校
经验：4754
发帖：217
精华：2
注册：1970-1-1
状态：离线
发送短消息息给panpan.nie

发送短消息息给panpan.nie

加好友发送短消息息给panpan.nie

发送短消息息给panpan.nie

发消息

发表于：

IP：您无权察看

2016-4-14 17:50:21 | [全部帖] [楼主帖]

2 楼

http://www.iteye.com/blogs/subjects/guoyunsky 不错的Heritrix 的教程汇总

赞(0)

操作引用/回复

总帖数

2

每页帖数

10

1/1页

1

返回列表

技术讨论

Powered by landingbj @ 2008-2015 联动北方
京ICP证号090597 京ICP备案09017624号京公网安备110112000093号
86-27-87056338 Email：service@landingbj.com