提问者:小点点

从维基百科文章中提取Java关键字


我有一个文档列表,我正在根据用户对阿帕奇SOLR的查询对这些文档进行索引。我想通过使用相关索引文档中的关键字来提取一些新闻文章,并将其与索引文档一起显示给用户。有没有什么算法或程序可以让我们从文档中提取相关的关键词,并用于提取新闻?


共1个答案

匿名用户

您应该研究TF-IDF关键字提取。大约两年前,我用英语Wiki和一个简单的Python脚本做了一个类似的过程。不过,在进行此操作之前,您需要回答几个问题。你可以在这里找到一篇关于使用TF-IDF关键字提取的文章

  • 你只关心单个关键词吗?还是也会评估短语以及长度
  • 你会对输入的数据进行任何自然语言处理,如标记和词干处理吗
  • 你会把关键词限制在某些文章类型吗?某些类别的文章可以有自己的TF-IDF分数,所以你可能想尝试一下你需要的东西