提问者:小点点

在字典中查找重复的值并仅在具有相同键的值不同的情况下打印它们


我正在从一个CSV文件中创建一个三元组字典,其中包含三个整数的键-行号和值列表。我还创建了另一个字典(名称)与关键行号和值两个字符串的列表。我想找到包含相同三元组的所有行,以防名称对不同。

到目前为止,我的代码是在两行上有相同的三元组值的情况下查找所有重复项,但在3行或更多行上有重复项的情况下,它将无法正常工作。我想更新或重新编写整个脚本,以便在3次或更多重复的情况下检查所有名称值是否不同,并仅打印具有不同名称的行。例如,如果我们有以下三元组字典:triplet={1:[111222333],2:[111222333],3:[111222333],}names={1:['name1',name2'],2:['name1',name2'],3:['name1',name3']}这将导致另一个字典的创建:duplicated_value_键={(111222333):[1,2,3]}和我的脚本不会显示重复,因为名称[1]==名称[2]但原则上它应该打印第2行和第3行上的三元组值具有不同的名称。

for csv_infile in os.listdir(input_dir):
        if csv_infile.lower().endswith('.csv'):
            csv_in = os.path.join(input_dir, csv_infile)
            with open(csv_in) as f_in:
                # Creating dictionaries containing as a key the line number and as a value
                triplet = {}
                names = {}
                l_num = 0
                for line in f_in:
                    l_num += 1
                    triplet[l_num] = [(line.split('\t')[1]), (line.split('\t')[2]), (line.split('\t')[3])]
                    names[l_num] = [(line.split('\t')[4].lower().strip()), (line.split('\t')[5].lower().strip())]

                # Finding the duplicated values and creating a new dictionary with values the line numbers.
                duplicated_value_keys = collections.defaultdict(list)
                for key, value in triplet.items():
                    duplicated_value_keys[tuple(value)].append(key)
                for duplicated_keys in duplicated_value_keys.values():
                    if len(duplicated_keys) >1 and names[duplicated_keys[0]] != names[duplicated_keys[1]]: 
                        print("There is a duplicated triplet on lines: {}.\n".format(', '.join(map(str, duplicated_keys))))            

[编辑]:CSV输入文件具有以下格式,并且以制表符分隔:

2       8004    3014    3       test name   1       14080   1       0       3478    1572    0       0
2       8004    3014    3       test name    1       8004    1       0       3478    1572    0       0
3       8004    3014    3       test name1   1       8004    1       0       3477    1571    0       0

共1个答案

匿名用户

检测重复的行可以使用默认值(list)来完成。三元组将是字典的关键,每个三元组都包含一个行号和找到三元组的名称列表。读取所有条目后,遍历字典,只显示包含不同名称的条目。例如:

import csv
from collections import defaultdict

triplets = defaultdict(list)

with open('test.csv', newline='') as f_input:
    csv_input = csv.reader(f_input, delimiter='\t')

    for line, row in enumerate(csv_input, start=1):
        triplets[tuple(row[1:4])].append((line, list(map(str.lower, row[4:6]))))

for triplet, entries in sorted(triplets.items()):
    if len(entries) > 1 and len({tuple(names) for line, names in entries}) > 1:
        print("Duplicate triplet: {} on lines:".format(triplet))
        for line, names in entries:
            print("  {}, {}, {}".format(line, *names))
        print()

对于测试。csv给定,这将产生:

Duplicate triplet: ('13115', '3209', '3') on lines:
  44, skylink, horor film
  69, skylink, private spice

Duplicate triplet: ('13139', '3219', '3') on lines:
  8, skylink, nova cinema
  13, skylink, prima zoom

Duplicate triplet: ('8004', '3014', '3') on lines:
  2, skylink, ct 2
  3, skylink, bar 2
  4, skylink, tst 22
  5, skylink, tst 22