词项向量组件
TermVectorComponent 是一个搜索组件,旨在返回有关与您的搜索匹配的文档的其他信息。
对于响应中的每个文档,TermVectorComponent 可以返回词项向量、词项频率、逆文档频率、位置和偏移量信息。
词项向量组件配置
TermVectorComponent 在 Solr 中不会隐式启用 - 必须在您的 solrconfig.xml
文件中显式配置。此页面上的示例演示了如何在 Solr 的“techproducts”示例中进行配置
bin/solr start -e techproducts
要启用此组件,您需要使用 searchComponent
元素对其进行配置
<searchComponent name="tvComponent" class="org.apache.solr.handler.component.TermVectorComponent"/>
然后必须配置请求处理程序以使用此组件名称。在“techproducts”示例中,该组件与名为 /tvrh
的特殊请求处理程序关联,该处理程序默认使用 tv=true
参数启用词项向量;但您可以将其与任何请求处理程序关联
<requestHandler name="/tvrh" class="org.apache.solr.handler.component.SearchHandler">
<lst name="defaults">
<bool name="tv">true</bool>
</lst>
<arr name="last-components">
<str>tvComponent</str>
</arr>
</requestHandler>
定义处理程序后,您可以将其与任何模式(具有 uniqueKeyField)
)结合使用,以获取使用 termVector
属性配置的字段的词项向量,例如在“techproducts”示例模式中。例如
<field name="includes"
type="text_general"
indexed="true"
stored="true"
multiValued="true"
termVectors="true"
termPositions="true"
termOffsets="true" />
调用词项向量组件
下面的示例演示了使用上述配置调用此组件
https://127.0.0.1:8983/solr/techproducts/tvrh?q=*:*&start=0&rows=10&fl=id,includes&wt=xml
...
<lst name="termVectors">
<lst name="GB18030TEST">
<str name="uniqueKey">GB18030TEST</str>
</lst>
<lst name="EN7800GTX/2DHTV/256M">
<str name="uniqueKey">EN7800GTX/2DHTV/256M</str>
</lst>
<lst name="100-435805">
<str name="uniqueKey">100-435805</str>
</lst>
<lst name="3007WFP">
<str name="uniqueKey">3007WFP</str>
<lst name="includes">
<lst name="cable"/>
<lst name="usb"/>
</lst>
</lst>
<lst name="SOLR1000">
<str name="uniqueKey">SOLR1000</str>
</lst>
<lst name="0579B002">
<str name="uniqueKey">0579B002</str>
</lst>
<lst name="UTF8TEST">
<str name="uniqueKey">UTF8TEST</str>
</lst>
<lst name="9885A004">
<str name="uniqueKey">9885A004</str>
<lst name="includes">
<lst name="32mb"/>
<lst name="av"/>
<lst name="battery"/>
<lst name="cable"/>
<lst name="card"/>
<lst name="sd"/>
<lst name="usb"/>
</lst>
</lst>
<lst name="adata">
<str name="uniqueKey">adata</str>
</lst>
<lst name="apple">
<str name="uniqueKey">apple</str>
</lst>
</lst>
词项向量请求参数
下面的示例显示了此组件的一些可用请求参数
https://127.0.0.1:8983/solr/techproducts/tvrh?q=includes:[* TO *]&rows=10&indent=true&tv=true&tv.tf=true&tv.df=true&tv.positions=true&tv.offsets=true&tv.payloads=true&tv.fl=includes
tv
-
可选
默认值:
false
如果为
true
,则词项向量组件将运行。 tv.docIds
-
可选
默认值:无
对于给定的逗号分隔的 Lucene 文档 ID 列表(不是 Solr 唯一键),将返回词项向量。
tv.fl
-
可选
默认值:无
对于给定的逗号分隔的字段列表,将返回词项向量。如果未指定,则使用
fl
参数。 tv.all
-
可选
默认值:
false
如果为
true
,则将启用下面列出的所有布尔参数(tv.df
、tv.offsets
、tv.positions
、tv.payloads
、tv.tf
和tv.tf_idf
)。 tv.df
-
可选
默认值:
false
如果为
true
,则返回词项在集合中的文档频率 (DF)。这可能会消耗大量计算资源。 tv.offsets
-
可选
默认值:
false
如果为
true
,则返回文档中每个词项的偏移量信息。 tv.positions
-
可选
默认值:
false
如果为
true
,则返回位置信息。 tv.payloads
-
可选
默认值:
false
如果为
true
,则返回负载信息。 tv.tf
-
可选
默认值:
false
如果为
true
,则返回文档中每个词项的文档词频信息。 tv.tf_idf
-
可选
默认值:
false
如果为
true
,则计算每个词项的 TF / DF (即,TF * IDF)。请注意,这是“词频乘以逆文档频率”的字面计算,而不是经典的 TF-IDF 相似度度量。此参数需要
tv.tf
和tv.df
都为true
。这可能会消耗大量计算资源。(结果不会在示例输出中显示)
要查看 TermVector 组件输出的示例,请参阅 Wiki 页面:https://cwiki.apache.org/confluence/display/solr/TermVectorComponentExampleOptions
有关模式要求,另请参阅 按用例划分的字段属性 部分。
SolrJ 和 Term Vector 组件
SolrQuery
类和 QueryResponse
类都没有提供特定的方法调用来设置 Term Vector 组件参数或获取 “termVectors” 输出。但是,有一个针对它的补丁:SOLR-949。