提问者:小点点

Solr中Nutch文档的语言检测


如何使用Solr对通过nutch抓取获得的文档进行语言识别?

我安装了Nutch 1.9和Solr 4.8.1。我通过Solr管理页面中的Core Admin向solr添加了一个名为"core-test"的新内核,并按照Solr wiki中的步骤在文档索引期间进行语言检测。

我通过添加字段修改了core-test/conf中的schema. xml

<field name="language_s" type="string" stored="true" indexed="true"/>

然后,我使用Nutch抓取一组网页

crawl seed.txt Test http://localhost:8983/solr/core-test 2

Nutch工作正常,但文档的语言没有被识别,也就是说,当我在http://localhost:8983/solr/#/core-test/query中查询时,q设置为时,我没有获得字段language_s


共1个答案

匿名用户

您需要启用Nutch的语言检测。将下面的xml标记复制到Nutch_HOME/conf/nutch-site. xml

上面的标签启用了与Nutch捆绑的语言检测插件。如Nutch的wiki中所述,插件将添加一个名为“lang”的字段,其中包含您文档的语言代码。