我正在尝试编写一个Java函数,将单词列表插入到集合中。我想为每个单词的唯一字段“单词”一个文档。我要插入的单词列表包含许多重复的单词,所以我希望我的函数只在集合中没有具有相同“word”值的文档时才插入文档。如果已经有一个具有相同“单词”值的文档,该函数不应该改变或替换这个文档,而是继续插入我的列表中的下一个单词。
我在字段“word”上创建了一个索引,以避免重复的文档并捕获重复的键Exception,但我不确定这是否是处理此问题的正确方法。
IndexOptions uniqueWord = new IndexOptions().unique(true);
collection.createIndex(Indexes.ascending("word"), uniqueWord);
try {
File file = new File("src/words.txt");
Scanner scanner = new Scanner(file);
while (scanner.hasNextLine()) {
String word= scanner.next();
Document document = new Document();
document.put("word", word);
InsertManyOptions unordered= new InsertManyOptions();
ArrayList<Document> docs = new ArrayList<>();
docs.add(document);
try{
collection.insertMany(docs, unordered.ordered(false));
}catch(Exception e){
//System.out.println(e.getMessage());
}
你写道:
如果已经有一个具有相同“单词”值的文档,则该函数不应更改或替换此文档,而是继续插入我的列表中的下一个单词。
这排除了使用原子操作,例如< code>findOneAndUpdate或< code > findOneAndReplace with < code > up sert:true 。
相反,我认为您的选择仅限于写前检查,例如:
if (collection.count(Filters.eq("word", "..."))) {
// insert
} else {
// ignore because there is already a document for this word
}
如果您的编写器是多线程的,这可能会受到竞争条件的影响,例如,当一个线程对来自collection.count()
的错误结果做出反应时,另一个线程设法为该单词写入条目。findOneAndReplace
是原子的,因此不容易出现该问题,
我建议你应该使用 findOneAndReplace
与 FindOneAndReplaceOptions.upsert == true
,这将具有与忽略已经写入的文档相同的最终结果(尽管通过用相同的文档替换它),但它可能比应用预写如果存在检查更安全。
更新您编辑的问题意味着您正在“插入许多”,但每次循环您只插入一个文档(尽管使用了collection.insert许多()
),因此上述建议仍然有效。例如:
while (scanner.hasNextLine()) {
String word= scanner.next();
if (collection.count(Filters.eq("word", word)) == 0L) {
Document document = new Document();
document.put("word", word);
collection.insertOne(document);
}
}