Solr 词汇表

这些是 Solr 中常用的术语。

Solr 术语

如果可能,术语会链接到 Solr 参考指南的相关部分,以获取更多信息。

跳转到字母

A B C D E F G H I J K L M N O P Q R S T U V W X Y Z

A

原子更新

一种仅更新文档的一个或多个字段的方法,而不是重新索引整个文档。

B

布尔运算符

这些通过使用诸如 AND、OR 和 NOT 之类的运算符来控制查询中关键字的包含或排除。

C

集群

在 Solr 中,集群是一组通过 ZooKeeper 相互协调运行并作为一个单元管理的 Solr 节点。一个集群可以包含多个集合。另请参阅 SolrCloud

集合

在 Solr 中,一个或多个 文档使用单个配置和模式分组在一个逻辑索引中。

SolrCloud 中,一个集合可以被分成多个逻辑分片,这些分片又可以分布在多个节点上。

单节点安装和用户管理的集群使用 核心 的概念。“集合”最常用于 SolrCloud 上下文,但由于它代表“逻辑索引”,该术语也可以用来指代用户管理集群中的各个核心。

提交

使索引中的文档更改永久生效。在添加文档的情况下,它们将在提交后可搜索。

核心

一个单独的 Solr 实例(代表逻辑索引)。多个核心可以在单个节点上运行。另请参阅 SolrCloud

核心重新加载

在更改 schema 文件、solrconfig.xml 或其他配置文件后,重新初始化 Solr 核心。

D

分布式搜索

分布式搜索是指查询在多个 分片 上进行处理。

文档

一组 字段 及其值。文档是 集合 中数据的基本单位。文档通过标准哈希分配给 分片,或者在文档 ID 中明确指定分片。每次写入操作后,文档都会进行版本控制。

E

合奏

一个 ZooKeeper 术语,表示多个 ZooKeeper 实例同时运行并相互协调以实现容错。

F

分面

根据索引词将搜索结果排列成类别的过程。

字段

要索引/搜索的内容以及定义 Solr 如何处理该内容的元数据。

I

逆文档频率 (IDF)

衡量术语的总体重要性。它的计算方法是总文档数除以特定词在集合中出现的文档数。有关基于 TF-IDF 的评分以及特别是 Lucene 评分的更多信息,请参阅http://en.wikipedia.org/wiki/Tf-idfLucene TFIDFSimilarity javadocs。另请参阅 词频

倒排索引

一种创建可搜索索引的方法,该索引列出每个词以及包含这些词的文档,类似于书背后的索引,其中列出了词及其所在的页码。在执行关键字搜索时,此方法被认为比另一种方法更有效,另一种方法是创建文档列表,并与每个文档中使用的每个词配对。由于用户使用他们期望在文档中出现的词进行搜索,因此在文档之前找到词可以节省处理资源和时间。

L

领导者

每个 分片 的单个 副本,负责协调同一分片中其他副本的索引更新(文档添加或删除)。这是一个通过选举分配给节点的临时职责,如果当前分片领导者宕机,将自动选举一个新节点来接替其位置。另请参阅 SolrCloud

M

元数据

字面意思是关于数据的数据。元数据是关于文档的信息,例如其标题、作者或位置。

N

自然语言查询

用户通常以口头或书面方式输入的搜索,如“阿司匹林是什么?”。

节点

运行 Solr 的 JVM 实例。也称为 Solr 服务器。

O

乐观并发

也称为“乐观锁定”,这是一种允许在保留锁定或版本控制的同时更新当前索引中文档的方法。

监督者

SolrCloud 中的单个节点,负责处理和协调涉及整个集群的操作。它跟踪现有节点、集合、分片和副本的状态,并将新副本分配给节点。这是一个通过选举分配给节点的临时职责,如果当前监督者宕机,将自动选举一个新节点来接替其位置。另请参阅 SolrCloud

Q

查询解析器

查询解析器处理用户输入的术语。

R

召回率

搜索引擎检索用户查询所有可能匹配项的能力。

相关性

文档与用户进行的搜索的适当性。

副本

SolrCloud 集合中,作为 分片 物理副本的 核心

复制

一种将领导者索引从一台服务器复制到一个或多个“跟随者”或“子”服务器的方法。

请求处理器

逻辑和配置参数,用于告诉 Solr 如何处理传入的“请求”,无论是返回搜索结果、索引文档还是处理其他自定义情况的请求。

S

搜索组件

请求处理器用于处理查询请求的逻辑和配置参数。搜索组件的示例包括分面、高亮显示和“更多类似”功能。

分片

在 SolrCloud 中,单个 集合 的逻辑分区。每个分片至少包含一个物理 副本,但可能有多个副本分布在多个 节点 上以实现容错。另请参阅 SolrCloud

SolrCloud

Solr 中一系列功能的总称,允许管理 Solr 节点集群,以实现可扩展性、容错和高可用性。

Solr Schema(managed-schema.xml 或 schema.xml)

Solr 索引 Schema 定义要索引的字段以及字段的类型(文本、整数等)。默认情况下,可以使用 Schema API 在运行时“管理”schema 数据,并且通常保存在名为 managed-schema.xml 的文件中,Solr 会根据需要修改该文件,但可以将集合配置为使用静态 Schema,该 Schema 仅在启动时从人工编辑的配置文件(通常名为 schema.xml)加载。有关详细信息,请参阅 Schema Factory 配置

SolrConfig (solrconfig.xml)

Apache Solr 配置文件。定义索引选项、请求处理器、高亮显示、拼写检查和各种其他配置。文件 solrconfig.xml 位于 Solr 主目录的 conf 目录中。

拼写检查

能够向用户建议搜索词的替代拼写,以检查拼写错误是否导致结果很少或没有结果。

停用词

通常,对用户的搜索意义不大但可能作为 自然语言 查询的一部分输入的词。停用词通常是非常小的代词、连词和介词(例如,“the”、“with”或“and”)。

建议器

Solr 中的功能,提供在用户键入时向用户建议可能的查询词的能力。

同义词

同义词通常是指在含义上彼此接近并且可以相互替代的术语。在搜索引擎实现中,同义词可以是缩写以及单词或术语,这些术语不是始终使用连字符的。在这种情况下,同义词的示例为“Inc.”和“Incorporated”或“iPod”和“i-pod”。

T

词频

一个词在给定文档中出现的次数。有关基于 TF-IDF 的评分以及特别是 Lucene 评分的更多信息,请参阅http://en.wikipedia.org/wiki/Tf-idfLucene TFIDFSimilarity javadocs。另请参阅 逆文档频率 (IDF)

事务日志

每个 副本 维护的仅追加写入操作日志。SolrCloud 实现需要此日志,并且由 Solr 自动创建和管理。

W

通配符

通配符允许替换一个或多个单词字母,以解释拼写或时态的可能变化。

Z

ZooKeeper

也称为 Apache ZooKeeper。SolrCloud 用来跟踪集群的配置文件和节点名称的系统。ZooKeeper 集群用作集群的中央配置存储、需要分布式同步的操作的协调器以及集群拓扑的记录系统。另请参阅 SolrCloud