提问者:小点点

无法在 Hadoop2 上运行 Nutch2(Nutch 2.x Hadoop 2.4.0 HBase 0.94.18 Gora 0.5 Avro 1.7.6)


我需要在上面的配置(subj)中为EMR安装Nache 2.3。

在本地计算机上完成:

    < li>Nutch 2.x

1.1 svn当前2.x版本

1.2. 准备好的脚本:

1.2.1常春藤:

    dependency org="org.apache.hadoop" name="hadoop-common" rev="2.4.0"
    dependency org="org.apache.hadoop" name="hadoop-mapreduce-client-core" rev="2.4.0"
    dependency org="org.apache.gora" name="gora" rev="0.5"  
    dependency org="org.apache.gora" name="gora-hbase" rev="0.5"

1.2.2默认属性:

hadoop.version=2.4.0
version=2.3-SNAPSHOT

1.3.增加

public int getFieldsCount() { return Field.values().length; }

ProtocolStatus.javaParseStatus.javaHost.javaWebPage.java.

2.1 SVN HBase 0.94.18

2.2为Protobuf 2.5.0准备,也感谢Dobromyslov[https://github.com/dobromyslov ]

2.3还生成了HBase-0.94.18-Hadoop-2.4.0.jar

Gora 0.5(也从com.argonio.gora测试了0.4,0.6-SNAPSHOT和0.5.3版本)

Avro 1.7.6(也可以在1.7.4、1.7.7版本中播放)

4.1 SVN

AVRO-813的4.2补丁

4.3修补AVRO-882并回滚

4.4修补如[1]中所述-已评论对抛出EOFException

org.apache.avro.io.BinaryDecoder.ensureBounds(BinaryDecoder.java:473),

等。

在众多异常之后,Nutch 2.x 和 Avro 1.7.6 中进行了一些更改。

Nutch看起来有点跑,但不稳定且不正确。

循环(注入、生成、获取、解析、更新b)通过,但某些功能被破坏并被忽略。

似乎我破坏了 Nutch 和 HBase(也与 gora 和 avro)之间的正常数据交换。某些字段(和/或某些数据格式)读取和写入不正确。F.e. 许多标记丢失(在代码中临时模拟);批处理 ID 字段中的数据丢失;得分也被打破了。

请帮忙!我已准备好发布所有差异和异常跟踪。

[1] http://mail-archives.apache.org/mod_mbox/nutch-user/201409.mbox/


共1个答案

匿名用户

我们通过在conf/nutch-site.xml中为io.serializations属性设置旧的(即hadoop-1.2.0)值来解决EOFExceptions和不稳定性的问题:

<property>
  <name>io.serializations</name>
  <value>org.apache.hadoop.io.serializer.WritableSerialization</value>
  <description>A list of serialization classes that can be used for
  obtaining serializers and deserializers.</description>
</property>

事实证明,不需要修补Avro。