您当前的位置: 首页 >  windows

liaowenxiong

暂无认证

  • 0浏览

    0关注

    1171博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

Windows下安装Nutch

liaowenxiong 发布时间:2022-04-04 14:47:33 ,浏览量:0

Nutch安装 一、需求部份 a) Nutch是Java开发的所以需要下载Java JDK 下载地址http://java.sun.com/javase/downloads/index.jsp b) Nutch的演示搜索页面是Jsp的需要Tomcat做服务器 下载地址:http://jakarta.apache.org/tomcat/ c) Nutch的脚本都是用Linux的Shell写的,所以在Windows平台需要一个Shell解释程序。Cygwin是一个在Windows下的模拟Linux系统程序。(注Linux下不需要下载此程序) 下载地址:http://www.cygwin.com/ d) Nutch下载地址:http://lucene.apache.org/nutch/ e) 建议安装UltraEdit文字编辑器。

二、安装步骤 a)Java JDK安装 安装目录不要出现中文,安装完成后设置环境变量,win7下设置环境变量和XP不同,在系统变量或者用户变量都行。 变量名JAVA_HOME 变量值 D:\Java\jdk(此处根据安装目录决定) 变量名 PATH 变量值 %JAVA_HOME%\bin;%Path%(“%变量名%”表示前面已有的变量) 变量名 CLASSPATH 变量值 .;%JAVA_HOME%\lib;%CATALINA_HOME%\lib(前面的“.”不能省,后面这是tomcat的需要) 变量安装完成后,在运行里输入“cmd”打开命令行,分别输入“java”,”javac”,”java –version”若显示具体信息而没有报错,则安装成功,如下图

b)tomcat安装 Tomcat解压缩在没有中文的目录下,设置环境变量 变量名 CATALINA_HOME 变量值 D:\bishe\apache-tomcat-7.0.6(具体的安装路径) 变量CLASSPATH的编辑前面已经完成,就不再需要。 运行CMD 进入此目录下运行catalina.bat run Tomcat的运行和停止的文件分别是startup.bat和shutdown.bat。

c)Cygwin安装 运行安装程序后出现如下图: 之后一直选择下一步就好了,root directory为安装路径,local package directory为安装文件所在路径(也是setup.exe所在路径)。完成后在桌面会出现,此为cygwin目录下的cygwin.bat的快捷方式。

d)natch安装 下载完成后解压在没有中文的路径下。设置环境变量 变量名 NUTCH_JAVA_HOME 变量值 %JAVA_HOME% 运行cygwin,输入命令cd /cygdrive/d/bishe/nutch-1.2,再输入bin/nutch如图则nutch安装成功。

三、配置步骤 a)在nutch目录下建立urls目录,在目录中建立txt文件,文件名任意,用来设置搜索站点的起始位置,如:http://www.ustc.edu.cn/。 b)修改网址过滤规则conf/crawl-urlfilter.txt文件,把里面的MY.DOMAIN.NAME修改为你的抓取的URL。eg: +^http://([a-z0-9]*.)*ustc.edu.cn/这里设置为只抓取以edu.cn结尾的URL。

c) 修改conf/nutch-site.xml代理信息,在和之间添加如下文件: http.agent.name ubuntuer(此处ubuntu是一个自定义的值,有说是可以为空, 有说是要设置一个单词,我是设置了一个词) http.agent.description ubuntuer http.agent.url http.agent.email iptabler@gmail.com d)执行nutch抓取url数据 在Cygwin命令行窗口中输入:cd /cygdrive/d/nutch-1.2 再输入bin/nutch crawl urls –dir crawl –depth 3 –threads 4 –topN 30 >& crawl.log 注意在,命令行窗口中输入命令的空格!!命令说明: crawl 是nutch检索数据命令,后面跟上要检索的URL文件。urls就是a)部份创建的文件 -dir是检索后的结果存放目录参数,后面跟上结果存放地址。如果我们存放到nutch目录下的crawl目录,注意此目录当前是不存在的。检索完后nutch会创建出来。-threads 抓取时的线程数参数 -depth 抓取时的深度参数 -topN 抓取时每页的最大抓取链接 最后把执行信息写入crawl.log日志文件中,方便查找错误。 e)配置tomcat 把nutch-1.2.war复制到Tomcat下的webapps里,启动Tomcat,会自动deploy。再关闭Tomcat,到webapps\nutch-1.2目录下的WEB-INF\classes里的nutch-site.xml里,增加搜索的目录: searcher.dir D:\bishe\nutch-1.2\crawl(此处为检索存放的地址) 为了支持中文,在tomcat\conf的server.xml里的 里面,增加URIEncoding=“UTF-8” useBodyEncodingForURI="true"配置,最后如: ,每一项都用空格隔开。重启Tomcat,可以通过http://localhost:8080/nutch-1.2访问到Nutch了。 四、搜索结果

至此Nutch的安装基本完成。

关注
打赏
1661566967
查看更多评论
立即登录/注册

微信扫码登录

0.4422s