Lucene的Field域类型

无花果有果发布时间：2022-05-28 19:43:10 ，浏览量：5

Field属性

Field是文档中的域，包括Field名和Field值两部分，一个文档可以包括多个Field，Document只是Field 的一个承载体，Field值即为要索引的内容，也是要搜索的内容。

是否分词(tokenized) 是：作分词处理，即将Field值进行分词，分词的目的是为了索引。比如：商品名称、商品描述等，这些内容用户要输入关键字搜索，由于搜索的内容格式大、内容多需要分词后将语汇单元建立索引否：不作分词处理比如：商品id、订单号、身份证号等
是否索引(indexed) 是：进行索引。将Field分词后的词或整个Field值进行索引，存储到索引域，索引的目的是为了搜索。比如：商品名称、商品描述分析后进行索引，订单号、身份证号不用分词但也要索引，这些将来都要作为查询条件。否：不索引。比如：图片路径、文件路径等，不用作为查询条件的不用索引。
是否存储(stored) 是：将Field值存储在文档域中，存储在文档域中的Field才可以从Document中获取。比如：商品名称、订单号，凡是将来要从Document中获取的Field都要存储。否：不存储Field值比如：商品描述，内容较大不用存储。如果要向用户展示商品描述可以从系统的关系数据库中获取。

Field常用类型

下边列出了开发中常用的Filed类型，注意Field的属性，根据需求选择：在这里插入图片描述

public Boolean parseContent(String keywords) throws IOException {
        //1.采集数据
        List contents = htmlParseUtil.parseJd(keywords);
        if(contents.size()>0){
            List documentList =new ArrayList();
            for(Content content:contents){
                //2.创建文档对象
                Document document =new Document();
                //创建域对象并且放入文档对象中
                /**
                 * 是否分词：是，因为标题字段需要查询，并且分词后有意义所以需要分词
                 * 是否索引：是，因为需要根据标题字段查询
                 * 是否存储：是，因为页面需要展示标题字段，所以需要存储
                 */
                document.add(new TextField("title",content.getTitle(), Field.Store.YES));
                /**
                 * 是否分词：否，因为不查询，所以不索引，因为不索引所以不分词
                 * 是否索引：否，因为不需要根据图片地址路径查询
                 * 是否存储：是，因为页面需要展示图片
                 */
                document.add(new StoredField("img",content.getImg()));

                document.add(new StringField("price",content.getPrice(), Field.Store.YES));
                //将文档对象放入到文档集合中
                documentList.add(document);
            }

            //3.创建分词器，StandardAnalyzer标准分词器，对英文分词效果好，对中文是单词分词，也就是一个字就认为是一个词。
            Analyzer analyzer =new StandardAnalyzer();
            //4.创建Directory目录对象，目录对象表示索引库的位置
            Directory dir = FSDirectory.open(Paths.get("E:\\luceneJdDir"));
            //5.创建IndexWriterConfig对象，这个对象中指定切分词使用的分词器
            IndexWriterConfig indexWriterConfig = new IndexWriterConfig(analyzer);
            //6.创建IndexWriter输出流对象，指定输出的位置和使用的config初始化对象
            IndexWriter indexWriter = new IndexWriter(dir,indexWriterConfig);
            //7.写入文档到索引库
            for(Document doc: documentList){
                indexWriter.addDocument(doc);
            }
            //8.释放资源
            indexWriter.close();
            return true;
        }

        return false;
    }

关注

打赏

1653747677

查看更多评论

Lucene的Field域类型

最近更新

热门博客

[ 申请 ]友情链接：