我正在使用Amazon Elastic Map Reduce运行一个相对较大的MR工作。
我在小数据集上运行了很多次工作,没有问题。
但是当尝试在大型数据集上运行它时,我遇到了以下异常:
错误:com. amazonaws.Amazon ClientException:无法验证数据下载的完整性。客户端计算的内容长度与从Amazon S3收到的内容长度不匹配。数据可能已损坏。
我谷歌了一下,我得到的唯一建议是设置以下内容:
System. set属性("com.amazonaws.services.s 3.disable Get Object MD 5验证","true");
那一点帮助都没有。
我正在使用复制3、11个M1大数据节点和1个M1中主节点。
此问题的任何解决方法或已知修复方法?
显然,这是一个众所周知的bug。或者是亚马逊的一名员工告诉我的。
在S3对象大于2GB的大型数据集上运行时会发生这种情况。
我设法通过迁移到Hadoop 2.4.0和AMI 3.1.0来解决这个问题。