博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
自然语言交流系统 phxnet团队 创新实训 个人博客 (八)
阅读量:7096 次
发布时间:2019-06-28

本文共 1870 字,大约阅读时间需要 6 分钟。

 

 

今天想一下“庖丁”分词的效果,编写了一个测试小程序,从文件中读入文本,并将分词结果显示到控制台。

 

环境平台:Win7+eclipse

 

过程如下:

1.编辑paoding-analysis.jar中的paoding-dic-home.properties文件,去掉“#paoding.dic.home=dic”前面的#号,并将等号后面的dic改为dic文件夹在你本地存放的具体路劲,如:F://workspace//data//dic

(注:编辑paoding-analysis.jar中的文件,可先用WinRAR将paoding-analysis.jar打开,再用记事本或写字板直接编辑paoding-dic-home.properties文件后保存即可)

 

2. 将paoding-analysis.jar、commons-logging.jar、lucene-analyzers-2.2.0.jar和lucene-core-2.2.0.jar四个包导入工程:

①在工程下新建lib文件夹,将这四个包复制进来;

②右键单击工程->Properties->Build Path,在右侧选中第三个标签Libraries,点击Add JARs…,导入上述四个包;

③再选择第四个标签Order and Export,勾选上这四个包,点击OK按钮。

 

3. 创建一个主类,编写测试小程序,如下:

import .io.*;

import org.apache.lucene.analysis.Analyzer;

import org.apache.lucene.analysis.Token;

import org.apache.lucene.analysis.TokenStream;

import net.paoding.analysis.analyzer.PaodingAnalyzer;

 

public class FenciTest {

 

    public static void main(String[] args)

    {

       Analyzer analyzer = new PaodingAnalyzer();

       String docText = null;

       File file = new File("F://Work//workSpace//FenciTest//data//test1.txt");

       docText = readText(file);

      

       TokenStream tokenStream = analyzer.tokenStream(docText, new StringReader(docText));

       try {

           Token t;

           //System.out.println(docText);

           while ((t = tokenStream.next()) != null)

           {

               System.out.println(t);

           }

       } catch (IOException e) {

           e.printStackTrace();

       }

 

    }

   

    private static String readText(File file) {

       String text = null;

       try

       {

           InputStreamReader read1 = new InputStreamReader(new FileInputStream(file), "GBK");

           BufferedReader br1 = new BufferedReader(read1);   

           StringBuffer buff1 = new StringBuffer();    

           while((text = br1.readLine()) != null)

           {   

              buff1.append(text + "/r/n");   

           }   

           br1.close();        

           text = buff1.toString();

       } 

       catch(FileNotFoundException e) 

       {  

           System.out.println(e); 

       } 

       catch(IOException e) 

       {  

           System.out.println(e); 

       }

       return text;

    }

}

 

 

 

如果您愿意花几块钱请我喝杯茶的话,可以用手机扫描下方的二维码,通过 支付宝 捐赠。我会努力写出更好的文章。 

(捐赠不显示捐赠者的个人信息,如需要,请注明您的联系方式) 
Thank you for your kindly donation!!

 

 

 
 
 

转载地址:http://boxql.baihongyu.com/

你可能感兴趣的文章
我的友情链接
查看>>
RHEL6下NFS的配置
查看>>
数学:匈牙利算法
查看>>
我的友情链接
查看>>
虚拟机安装centos7后只有lo网卡的解决方法
查看>>
eclipse 自动生成 自定义注释
查看>>
$.ajax() 例子
查看>>
win7宽带连接的711错误
查看>>
java————串————方面的知识2
查看>>
shell脚本案例分析
查看>>
web.xml is missing and <failOnMissingWebXml> is se
查看>>
一段经典的抽奖算法 for PHP版
查看>>
守护进程与远程登录服务器
查看>>
冒泡排序
查看>>
ubantu 安装mp3插件
查看>>
我的友情链接
查看>>
larbin
查看>>
Python基础
查看>>
限定某个目录禁止解析php、限制user_agent、php相关配置(php日志)
查看>>
Python 设计模式: 桥接模式(bridge pattern)
查看>>