Nutch 的索引细节分析——LuceneWriter

by bupo.jung

在之前的文章“Nutch Indexer分析”中简单的介绍了在Indexer类中的索引过程,在Indexer类中的index函数以crawlDb,linkDb,segments,job为参数调用了IndexerMapReduce,在IndexerMapReduce类中map函数读入各个输入目录的内容,对键(url)相同的值(value)整合到一起,形成reduce函数的输入<text url,values>其中values对应不同的目录有不同的类型,可能是Inlinks类型,CrawlDatum类型等等,但是这些不同的类型都实现了NutchWritable接口,所以可以向上转型。

Read the rest of this entry »

nutch url过滤设置——crawl-urlfilter.txt & regex-urlfileter.txt

by bupo.jung

在nutch中默认通过regex-url.txt中的正则表达式来过滤url,使nutch只爬取特定的url。

在conf/nutch-default.xml中的如下属性: Read the rest of this entry »

nutch页面解析及创建索引过程分析——wzw

nutch页面解析及创建索引过程分析

by wzw

一、解析过程

fetch过程抓取网页,存在segments中的content目录下,parse过程对其进行解析,生成另外五个文件夹。然后有uptate过程根据解析内容,更新crawldb数据库。再进行下一轮的抓取。每抓取解析一层算是一个循环,在segments文件夹下变生成一个子文件夹,抓取几层就有几个文件夹。 Read the rest of this entry »

密码保护:庖丁分词版的部署说明

这是一篇受密码保护的文章。您需要提供访问密码:


页面解析流程——ParseSegment

页面解析是我们要关注的重点。在Crawl过程中,页面解析是在Fetcher获取页面内容后执行的,其实,nutch提供的配置文件可以设置在Fetch过程中解析页面,也可以在fetch结束好解析页面。 Read the rest of this entry »

Facebook所使用的开源软件

本文转自:cnbeta

Facebook是全球首屈一指的社交网络平台,该网站采用了很多开源软件,Facebook采用的编程语言包括:Java, Ruby, PHP, Python, Objective-C。 下面是Facebook正在使用或者贡献的开源软件详细列表和介绍: Read the rest of this entry »

NutchDocument结构

nutch中,一个NutchDocument对应一个网页页面,其中包含一个document权重和多个域NutchFielddocument的权重weight表示这个document的重要程度,而每个域也有一个权值weight,用于表示这个域对于整个document的重要程度。其结构如下所示: Read the rest of this entry »

Lucene 3.1入门实例

在之前的文章《Nutch Indexer分析》中提到了nutch的索引细节,于是开始看Lucene索引相关的内容,这里推荐一本入门的书 Lucene in Action ,对于入门来说非常不错,不过里面的代码可能比较陈旧,已经不是和最新的版本了。在第一章有个indexer and searcher简单实例,把代码敲了以下,发现在3.1版本运行不了。于是找了一些资料,查看新的Lucene api(lucene document是非常好的学习资料)修改了书中提供的实例,贴出来供入门参考。 Read the rest of this entry »

Nutch插件机制分析

Nutch插件机制分析

by bupo.jung

引言

Nutch使用的插件机制是其所有功能的核心,所有的扩展功能包括页面分析parse、页面评分scoringurl过滤urlFilter、分词analyzer等搜索引擎的核心功能都是通过插件机制实现的。插件机制的有点有如下几点: Read the rest of this entry »

nutch 1.2添加中文分词插件

Nutch搜索引擎学习文档

——添加中文分词插件

by bupo.Jung

一、添加中文分词

准备

1、下载最新版的paoding-analysis,由于旧的版本不支持Lucene 3.0或更高版本,运行时会出错,可以执行如下命令获取最新代码:

svn checkout http://paoding.googlecode.com/svn/trunk/ paoding-read-only

代码会下载到当前目录下; Read the rest of this entry »