提问者:小点点

尝试在Windows上运行Apache Spark示例时出错


我的设置:

Spark版本3.1.2

hadoop 3.2版(为apache hadoop 3.2及更高版本预构建)

scala版本

java1.8版

将Apache Spark存档文件安装到C:\用户\动画\ApacheSpark\火花。

SPARK_HOMEC:\用户\动漫\ApacheSpark\火花

HADOOP_HOMEC:\用户\动漫\ApacheSpark\hadoop

将Hadoop. dll和winutils.exe从这里复制到%HADOOP_HOME%/bin

我从命令行运行以下几行代码作为示例,从C:\用户\动画\ApacheSpark开始

`

val textFile = sc.textFile("spark/README.md")

val tokens = textFile.flatMap(l=>l.split(" "))

val cp = tokens.map(word=>(word, 1))

val counts = cp.reduceByKey((a, n)=>a+n)

val sortedCounts = counts.sortBy(kvpair=>kvpair._2, false)

sortedCounts.saveAsTextFile("NewFolder")

`

我得到一个很长的错误日志

错误SparkHadoopWriter:中止工作job_202107261357425367869624572589035_0010. java.lang.UnessfiedLinkError:org.apache.hadoop.io.nativeio.NativeIO$WindowsAcc0(Ljava/lang/String;I)Z…

我尝试过的事情:

  1. 将hadoop. dll复制到C:\Windows\System32
  2. 在此之后运行winutils. exe chmod 777 NewFolder

有人能帮我让我的第一个例子工作吗?非常感谢。


共1个答案

匿名用户

我刚刚遇到了同样的问题。仔细检查您的环境变量和winutils版本。

云文档

HADOOP_HOME=<your local hadoop-ver folder>
PATH=%PATH%;%HADOOP_HOME%\bin