如何解释Xeon处理器上具有顺序复制和分散存储的循环的性能不佳？

提问者：小点点

如何解释Xeon处理器上具有顺序复制和分散存储的循环的性能不佳？

在某些Intel Xeon处理器上运行以下c代码时，我偶然发现了一个特殊的性能问题：

// array_a contains permutation of [0, n - 1]
// array_b and inverse are initialized arrays
for (int i = 0; i < n; ++i) {
  array_b[i] = array_a[i];
  inverse[array_b[i]] = i;
}

循环的第一行依次将array_a复制到array_b中（预期的缓存未命中次数很少）。第二行计算array_b的倒数（预期的缓存未命中次数很多，因为array_b是一个随机排列）。我们也可以将代码分成两个独立的循环：

for (int i = 0; i < n; ++i)
  array_b[i] = array_a[i];
for (int i = 0; i < n; ++i)
  inverse[array_b[i]] = i;

我本以为这两个版本（单循环与双循环）在相对现代的硬件上的性能几乎相同。然而，似乎一些至强处理器在执行单循环版本时速度非常慢。

下面你可以看到在一系列不同的处理器上运行代码片段时，以纳米秒为单位的墙时间除以n。为了测试的目的，代码是在具有至强E5-4620v4的系统上使用带有标志-O3-funrol-loops-游行=native的GCC7.5.0编译的。然后，在所有系统上使用相同的二进制文件，在具有多个NUMA域的系统上使用numactl-m 0-N 0。

使用的代码可以在github上找到。有趣的东西在文件runner. cpp中。

[编辑：]此处提供了程序集。

[编辑]新结果包括AMDEPYC。

在各种i7机型上，结果大多符合预期。使用单循环仅比双循环稍慢。这也适用于至强E3-1271v3，它与i7-4790的硬件基本相同。AMCEPYC 7452迄今为止表现最好，单循环和双循环实现几乎没有区别。然而，在使用单循环的至强E5-2690v4和E5-4620v4系统上，速度非常慢。

在之前的测试中，我在至强E5-2640和E5-2640v4系统上也观察到了这个奇怪的性能问题。与此相反，在几个AMDEPYC和Opteron系统上没有性能问题，在Intel i5和i7移动处理器上也没有问题。

因此，我对CPU专家的问题是：为什么英特尔最高端的产品线与其他处理器相比表现如此糟糕？到目前为止，我还不是CPU架构的专家，所以非常感谢你的知识和想法！

共2个答案

匿名用户

在玩了下面显示的最小化示例后，我得出的结论是，根本原因是特拉维斯·唐斯2017年问题的一个变体，题为英特尔Skylake上商店循环出乎意料的糟糕和奇怪的双峰性能，为此，他在2019年的博客文章《你的微码最近为你做了什么》中提供了进一步的规范。2020年发给RWT的帖子。我认为问题中显示的图表显示了这种影响是如何在多插座系统上加剧的，在多插座系统中，对RFO的响应需要更长的时间，使得RFO序列化更加明显。

在我的测试程序中，使用PRNG代替带有置换索引的额外数组，效果仍然可见。PRNG有4个周期的延迟，您可以看到，当工作集适合L1缓存时，每次迭代需要的时间比4*多一点（1

#include <stddef.h>
#include <stdio.h>
#include <stdint.h>

#include <sys/mman.h>

static uint64_t prng(int bits)
{
    static uint64_t state = 0;
    uint64_t ret = state >> (64 - bits);
    state = state * 6364136223846793005 + 1;
    return ret;
}

typedef uint64_t T;

typedef void fn(volatile T *, int, int);

static void no_prefetch(volatile T *buf, int log_n, int chunk)
{
    size_t n = (size_t)1 << log_n;
    for (size_t i, k = 0; k < n; k = i) {
        for (i = k; i < k + chunk; i++) {
            buf[i] = 0;
        }
        for (i = k; i < k + chunk; i++) {
            size_t j = prng(log_n);
            buf[j] = 0;
        }
    }
}

static void do_prefetch(volatile T *buf, int log_n, int chunk)
{
    size_t n = (size_t)1 << log_n;
    for (size_t i, k = 0; k < n; k = i) {
        for (i = k; i < k + chunk; i++) {
            buf[i] = 0;
        }
        for (i = k; i < k + chunk; i++) {
            size_t j = prng(log_n);
            __builtin_prefetch((T*)buf+j, 1);
            buf[j] = 0;
        }
    }
}

static fn *const fns[] = { no_prefetch, do_prefetch };

int main(int argc, char **argv)
{
    unsigned with_prefetch, chunk, log_sz, reps;
    if (argc < 2 || sscanf(argv[1], "%u", &with_prefetch) != 1)
        with_prefetch = 0;
    if (argc < 3 || sscanf(argv[2], "%u", &chunk) != 1)
        chunk = 1;
    if (argc < 4 || sscanf(argv[3], "%u", &log_sz) != 1)
        log_sz = 13;
    if (argc < 5 || sscanf(argv[4], "%u", &reps) != 1)
        reps = 10000;
    size_t sz = sizeof(T) << log_sz;
    void *m;

    if ((m = mmap(0, sz, PROT_READ | PROT_WRITE,
              MAP_PRIVATE | MAP_ANONYMOUS, -1, 0)) == MAP_FAILED)
        return 1;

    for (; reps; reps--)
        fns[with_prefetch](m, log_sz, chunk);
}


                        

                
                    匿名用户

                




                
					
也许这与英特尔处理器上的avx-512频率限制有关。这些指令会产生大量热量，如果在某些情况下使用，处理器会降低工作频率。
以下是一些显示效果的OpenSSL基准测试。Linus Torvalds对此主题进行了咆哮。
如果avx-512指令是使用“-游行=本机”生成的，您可能会受到这种影响。尝试使用以下方法禁用avx-512：
gcc -mno-avx512f


		      
                相关问题
                

																                
					
										   Angular 2 Auth Gaurd使用ngrx存储选择。我退订吗？
										   任务方法的gradle参数顺序
										   让我的Disord Bot自动循环播放WAV中的音乐
										   在jpack中复制Maven依赖文件和运行时
										   x86-64处理器中没有足够的寄存器
										   编译器可以优化可变长度的循环吗？
										   如何实现并发的清除和复制映射的并发HashMap
										   无法保证锁的获取顺序时避免死锁
										   为什么GCC不使用LOAD（无Geofence）和STORE SFENCE来实现顺序一致性？
										   “获取”和“消耗”内存顺序如何不同，什么时候“消耗”更可取？
										   C中的内存模型：顺序一致性和原子性
										   为什么具有顺序一致性的std::atomic存储使用XCHG？
										   Selenium网络驱动程序在webelement列表中存储webelement
										   当Reader和Writer线程在ConCurrentHashMap上相同的管理时的性能
										   x86上加载和存储的原子性
										   为什么没有一个主要的编译器优化这个检查值是否已经设置的条件存储？
										   为什么x86/x86_64上的顺序语义通过MOV[addr]，reg MFENCE而不是SFENCE使用？
										   ActiveMQ Artemis复制-仅使用两个节点是否可行？
										   将私有Bitbucket存储库导入Github
										   Azure运营模式多存储库，多分支触发器，选择要从中构建的分支

如何解释Xeon处理器上具有顺序复制和分散存储的循环的性能不佳？

共2个答案

相关问题

热门标签

微信关注