提问者:小点点

MongoDBJava驱动程序:如果文档不存在,则插入文档,否则什么也不做


我正在尝试编写一个Java函数,将单词列表插入到集合中。我想为每个单词的唯一字段“单词”一个文档。我要插入的单词列表包含许多重复的单词,所以我希望我的函数只在集合中没有具有相同“word”值的文档时才插入文档。如果已经有一个具有相同“单词”值的文档,该函数不应该改变或替换这个文档,而是继续插入我的列表中的下一个单词。

我在字段“word”上创建了一个索引,以避免重复的文档并捕获重复的键Exception,但我不确定这是否是处理此问题的正确方法。

    IndexOptions uniqueWord = new IndexOptions().unique(true);
    collection.createIndex(Indexes.ascending("word"), uniqueWord);


        try {
            File file = new File("src/words.txt");
            Scanner scanner = new Scanner(file);


            while (scanner.hasNextLine()) {
                  String word= scanner.next();

                    Document document = new Document();
                    document.put("word", word);

                    InsertManyOptions unordered= new InsertManyOptions();
                    ArrayList<Document> docs = new ArrayList<>();
                    docs.add(document);

                    try{
                    collection.insertMany(docs, unordered.ordered(false));
                    }catch(Exception e){
                        //System.out.println(e.getMessage());
                    }

共1个答案

匿名用户

你写道:

如果已经有一个具有相同“单词”值的文档,则该函数不应更改或替换此文档,而是继续插入我的列表中的下一个单词。

这排除了使用原子操作,例如< code>findOneAndUpdate或< code > findOneAndReplace with < code > up sert:true 。

相反,我认为您的选择仅限于写前检查,例如:

if (collection.count(Filters.eq("word", "..."))) {
    // insert
} else {
    // ignore because there is already a document for this word
}

如果您的编写器是多线程的,这可能会受到竞争条件的影响,例如,当一个线程对来自collection.count()的错误结果做出反应时,另一个线程设法为该单词写入条目。findOneAndReplace是原子的,因此不容易出现该问题,

我建议你应该使用 findOneAndReplaceFindOneAndReplaceOptions.upsert == true,这将具有与忽略已经写入的文档相同的最终结果(尽管通过用相同的文档替换它),但它可能比应用预写如果存在检查更安全。

更新您编辑的问题意味着您正在“插入许多”,但每次循环您只插入一个文档(尽管使用了collection.insert许多()),因此上述建议仍然有效。例如:

while (scanner.hasNextLine()) {
    String word= scanner.next();

    if (collection.count(Filters.eq("word", word)) == 0L) {
        Document document = new Document();
        document.put("word", word);

        collection.insertOne(document);
    }
}