部分词分词器与基于词的分词器 Elasticsearch
创始人
2024-12-24 02:01:30
0

部分词分词器与基于词的分词器 Elasticsearch 是一种文本分析工具,用于将输入文本分解成离散的词语或标记。下面是一个使用部分词分词器和基于词的分词器的示例代码:

  1. 部分词分词器(ngram tokenizer)示例:
PUT my_index
{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_partial_word_analyzer": {
          "tokenizer": "my_ngram_tokenizer"
        }
      },
      "tokenizer": {
        "my_ngram_tokenizer": {
          "type": "ngram",
          "min_gram": 2,
          "max_gram": 5,
          "token_chars": [
            "letter",
            "digit"
          ]
        }
      }
    }
  }
}

GET my_index/_analyze
{
  "analyzer": "my_partial_word_analyzer",
  "text": "Elasticsearch"
}

上述代码将会使用 ngram 分词器将 "Elasticsearch" 分解成部分词,输出结果如下:

{
  "tokens": [
    {
      "token": "El",
      "start_offset": 0,
      "end_offset": 2,
      "type": "word",
      "position": 0
    },
    {
      "token": "las",
      "start_offset": 1,
      "end_offset": 4,
      "type": "word",
      "position": 1
    },
    {
      "token": "ast",
      "start_offset": 2,
      "end_offset": 5,
      "type": "word",
      "position": 2
    },
    {
      "token": "sti",
      "start_offset": 3,
      "end_offset": 6,
      "type": "word",
      "position": 3
    },
    {
      "token": "tic",
      "start_offset": 4,
      "end_offset": 7,
      "type": "word",
      "position": 4
    },
    {
      "token": "ticsearch",
      "start_offset": 5,
      "end_offset": 15,
      "type": "word",
      "position": 5
    }
  ]
}
  1. 基于词的分词器(standard tokenizer)示例:
PUT my_index
{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_word_based_analyzer": {
          "tokenizer": "my_standard_tokenizer"
        }
      },
      "tokenizer": {
        "my_standard_tokenizer": {
          "type": "standard"
        }
      }
    }
  }
}

GET my_index/_analyze
{
  "analyzer": "my_word_based_analyzer",
  "text": "Elasticsearch"
}

上述代码将会使用基于词的分词器将 "Elasticsearch" 分解成独立的词语,输出结果如下:

{
  "tokens": [
    {
      "token": "Elasticsearch",
      "start_offset": 0,
      "end_offset": 13,
      "type": "",
      "position": 0
    }
  ]
}

这是一个简单的示例,你可以根据自己的需求进行配置和扩展。

相关内容

热门资讯

保存时出现了1个错误,导致这篇... 当保存文章时出现错误时,可以通过以下步骤解决问题:查看错误信息:查看错误提示信息可以帮助我们了解具体...
汇川伺服电机位置控制模式参数配... 1. 基本控制参数设置 1)设置位置控制模式   2)绝对值位置线性模...
不能访问光猫的的管理页面 光猫是现代家庭宽带网络的重要组成部分,它可以提供高速稳定的网络连接。但是,有时候我们会遇到不能访问光...
表格中数据未显示 当表格中的数据未显示时,可能是由于以下几个原因导致的:HTML代码问题:检查表格的HTML代码是否正...
本地主机上的图像未显示 问题描述:在本地主机上显示图像时,图像未能正常显示。解决方法:以下是一些可能的解决方法,具体取决于问...
表格列调整大小出现问题 问题描述:表格列调整大小出现问题,无法正常调整列宽。解决方法:检查表格的布局方式是否正确。确保表格使...
不一致的条件格式 要解决不一致的条件格式问题,可以按照以下步骤进行:确定条件格式的规则:首先,需要明确条件格式的规则是...
Android|无法访问或保存... 这个问题可能是由于权限设置不正确导致的。您需要在应用程序清单文件中添加以下代码来请求适当的权限:此外...
【NI Multisim 14...   目录 序言 一、工具栏 🍊1.“标准”工具栏 🍊 2.视图工具...
银河麒麟V10SP1高级服务器... 银河麒麟高级服务器操作系统简介: 银河麒麟高级服务器操作系统V10是针对企业级关键业务...