如何使用Solr对通过nutch抓取获得的文档进行语言识别?
我安装了Nutch 1.9和Solr 4.8.1。我通过Solr管理页面中的Core Admin向solr添加了一个名为"core-test"
的新内核,并按照Solr wiki中的步骤在文档索引期间进行语言检测。
我通过添加字段修改了core-test/conf中的schema. xml
<field name="language_s" type="string" stored="true" indexed="true"/>
然后,我使用Nutch抓取一组网页
crawl seed.txt Test http://localhost:8983/solr/core-test 2
Nutch工作正常,但文档的语言没有被识别,也就是说,当我在http://localhost:8983/solr/#/core-test/query中查询时,q
设置为:
时,我没有获得字段language_s
。
您需要启用Nutch的语言检测。将下面的xml标记复制到Nutch_HOME/conf/nutch-site. xml
:
上面的标签启用了与Nutch捆绑的语言检测插件。如Nutch的wiki中所述,插件将添加一个名为“lang”的字段,其中包含您文档的语言代码。