lucene 3.0 sort 类适用--个人看的没做注释

博客分类：

JAVASE

package org.apache.lucene.demo; import java.io.IOException; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.Random; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache ...

2009-12-23 22:51
浏览 3640
评论(4)
分类:企业架构

Tomcat 内存设置（记下来省的每次都上网查）

博客分类：

服务器技术

Tomcat Hibernate Java

在Catalina.bat 中加入如下就好了 set JAVA_OPTS=-Xms512m -Xmx512m -XX:PermSize=128M -XX:MaxNewSize=512m -XX:MaxPermSize=512m 还有千万不要用hibernate自动生成的sessionFactory。不知道他的session线程池是怎么做的。。

2009-12-17 17:42
浏览 1341
评论(0)
分类:企业架构

lucene.net 某些类的介绍

博客分类：

JAVASE

.net lucene 数据结构工作

　在Lucene.Net索引开发中，用到的类不多，这些类是索引过程的核心类。其中Analyzer是索引建立的基础，Directory是索引建立中或者建立好存储的介质，Document和Field类是逻辑结构的核心，IndexWriter是操作的核心。其他类的使用都被隐藏掉了，这也是为什么Lucene.Net使用这么方便的原因。　　2.1 Analyzer 　　前面已经对Analyzer进行了很详细的讲解，Analyzer将会把一段文本分析称一个个Token。这些Token如何被IndexWriter使用，这里牵涉到一个很重要的类，那就是DocumentsWriter。这个类非常关键，可以说是 ...

2009-12-02 13:07
浏览 1563
评论(0)

nutch与hadoop

博客分类：

JAVASE

Hadoop Mapreduce lucene 编程 Eclipse

Nutch是最早用MapReduce的项目（Hadoop其实原来是Nutch的一部分），Nutch的plugin机制吸取了eclipse的plugin设计思路。在Nutch中 MapReduce编程方式占据了其核心的结构大部分。从插入url列表（Inject），生成抓取列表（Generate），抓取内容（Fetch），分析处理内容（Parse），更新Crawl DB库（Update ），转化链接（Invert　Links）一直到建立索引（Index）都是采用MapReduce来完成的。查看Nutch的源代码我们能够学到更多的如何用MapReduce来处理我们编程中所遇到的问题。 Nutc ...

2009-11-20 11:33
浏览 1843
评论(0)

Nutch Crawler工作流程及文件格式详细分析

博客分类：

JAVASE

工作 lucene Mapreduce 正则表达式多线程

http://blog.csdn.net/kauu/archive/2007/10/14/1823830.aspx Crawler和Searcher两部分被尽是分开，其主要目的是为了使两个部分可以布地配置在硬件平台上，例如Crawler和Searcher分别被放置在两个主机上，这样可以极大的提高灵活性和性能。一、相关的数据结构 Crawl DB ● CrawlDb 是一个包含如下结构数据的文件: <URL, CrawlDatum> ● CrawlDatum: <status, date, interval, failur ...

2009-11-18 16:18
浏览 1622
评论(0)

解决nutch的segmens的拆分与nutch crawl的重载

博客分类：

JAVASE

lucene 数据结构 Tomcat 活动

TEAM : I.S.T.OAUTHOR : SUMMER 转载需注明出处,未经作者同意,不得用于任何形式的商业活动主题：解决nutch的segmens的拆分与nutch crawl的重载(重新构建)问题主要内容一、Lucene的索引机制与索引文件结构二、Nutch的爬虫分析与文件结构分 ...

2009-11-18 16:03
浏览 1660
评论(0)

javaFX 實現粗糙版的挖地雷

博客分类：

J2EE

JavaFX J#

首先..因為javafx剛開始接觸..不是很熟悉..既然他能調用java類..所以我們用java來構建地雷對象 /* * To change this template, choose Tools | Templates * and open the template in the editor. */ package landmine; /** * * @author Administrator */ public class Landmine { public Landmine getBottom() { return ...

2009-08-17 13:30
浏览 1226
评论(0)

JDOM解析UTF-8的处理

博客分类：

JAVASE

XML F#

在网上看了一些处理方法..都比较奇怪...找了半天没找到... 然后我是这么处理的不一定对.帖出来吧也许有的人有用..如果错了请大家指点 StringBuilder sb = new StringBuilder() ; SAXBuilder saxBuilder = new SAXBuilder(); InputStream is = new FileInputStream("F:/news/news/20090707/012@20090707155611.xml") ; Document doc = saxBuilder.build(new Inp ...

2009-08-07 11:16
浏览 1874
评论(3)

CQ V2.0分词bates(基于双数组tire树)

博客分类：

算法讨论

再发一个版本吧.. 具体实现了如下功能用户自定义词典其中你可以再userLibrary中加入你要分的词英文分词数字分词量词分词比如16月 16日 16年....... 支持了中文姓名的识别... 分词量很多.. 速度没好意思测试..如果有人测试了麻烦告诉我下... 希望大家能多给指正...ansj在这里谢谢大家了

2009-08-06 15:16
浏览 2143
评论(8)

CQ V1.0分词bates(基于双数组tire树)—应该是目前最快的中文分词算法

博客分类：

算法讨论

算法数据结构 Google C#C++

经过了n长时间.有时候想放弃有时候.想继续断断续续的.终于写完了CQ分词的基本原型.目前实现了正向最大匹配.和正向最好匹配.全文全匹配取词等功能.希望大家能支持我.我一定会写出更好的分词的. 分词的速度.大家自己试去吧. ...

2009-06-30 10:08
浏览 4020
评论(15)
论坛回复 / 浏览 (13 / 10332)
分类:编程语言

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

lucene 3.0 sort 类适用--个人看的没做注释

Tomcat 内存设置（记下来省的每次都上网查）

lucene.net 某些类的介绍

nutch与hadoop

Nutch Crawler工作流程及文件格式详细分析

解决nutch的segmens的拆分与nutch crawl的重载

javaFX 實現粗糙版的挖地雷

JDOM解析UTF-8的处理

CQ V2.0分词bates(基于双数组tire树)

CQ V1.0分词bates(基于双数组tire树)—应该是目前最快的中文分词算法

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>