提问者:小点点

运行作业时“无法验证数据的完整性”MR


我正在使用Amazon Elastic Map Reduce运行一个相对较大的MR工作。

我在小数据集上运行了很多次工作,没有问题。

但是当尝试在大型数据集上运行它时,我遇到了以下异常:

错误:com. amazonaws.Amazon ClientException:无法验证数据下载的完整性。客户端计算的内容长度与从Amazon S3收到的内容长度不匹配。数据可能已损坏。

我谷歌了一下,我得到的唯一建议是设置以下内容:

System. set属性("com.amazonaws.services.s 3.disable Get Object MD 5验证","true");

那一点帮助都没有。

我正在使用复制3、11个M1大数据节点和1个M1中主节点。

此问题的任何解决方法或已知修复方法?


共1个答案

匿名用户

显然,这是一个众所周知的bug。或者是亚马逊的一名员工告诉我的。

在S3对象大于2GB的大型数据集上运行时会发生这种情况。

我设法通过迁移到Hadoop 2.4.0和AMI 3.1.0来解决这个问题。