Solr中Nutch文档的语言检测

提问者：小点点

Solr中Nutch文档的语言检测

如何使用Solr对通过nutch抓取获得的文档进行语言识别？

我安装了Nutch 1.9和Solr 4.8.1。我通过Solr管理页面中的Core Admin向solr添加了一个名为"core-test"的新内核，并按照Solr wiki中的步骤在文档索引期间进行语言检测。

我通过添加字段修改了core-test/conf中的schema. xml

<field name="language_s" type="string" stored="true" indexed="true"/>

然后，我使用Nutch抓取一组网页

crawl seed.txt Test http://localhost:8983/solr/core-test 2

Nutch工作正常，但文档的语言没有被识别，也就是说，当我在http://localhost:8983/solr/#/core-test/query中查询时，q设置为：时，我没有获得字段language_s。

共1个答案

匿名用户

您需要启用Nutch的语言检测。将下面的xml标记复制到Nutch_HOME/conf/nutch-site. xml：

上面的标签启用了与Nutch捆绑的语言检测插件。如Nutch的wiki中所述，插件将添加一个名为“lang”的字段，其中包含您文档的语言代码。


		      
                相关问题
                

																                
					
										   Android：在模块jefied-play-services-测量和jefied-play-services-测量-impl中发现重复类
										   在Hashmap中查找匹配的键/值对
										   如何迭代Hashmap并与同一Hashmap中的其他键进行组合以比较它们的对象
										   HashCode-如果相等的对象碰巧在同一个桶中散列会发生什么？
										   如何防止对数组中类对象的重复引用？
										   如何以及何时在HashMap中完成重新散列
										   在hashmap或hashtable中重新散列的成本
										   HashMap如何识别内部数组中的哪些位置包含元素？
										   当HashMap增加其大小时，HashMap中值的索引会发生什么？
										   @BeforeClass在ktor测试类中不工作
										   Jest vanilla JavaScript JSDOM刷新失败，切换beforeAll到before每一个后的第二次测试中断
										   在笑话中，定义全局变量是否与在BeforeAll中定义相同？
										   静态编程语言中@BeforeAll的正确解决方法是什么
										   线程“main”java. lang.NoClassDefFoundError中的异常：在Intellij[Spring boot]中
										   线程“main”java. lang.NoClassDefFoundError中的异常：org/apache/log4j/ProvisionNode
										   异步管道是否从服务中定义并从组件变量指向的可观察对象取消订阅？
										   结合主体时不更新在模板中的异步管道可观察
										   组件中的Angular 2重复订阅
										   应该在ngOnDestroy（）中将Angular组件变量设置为null吗？
										   Angular2处理非组件类中的订阅

Solr中Nutch文档的语言检测

共1个答案

相关问题

热门标签

微信关注