尝试在Windows上运行Apache Spark示例时出错

提问者：小点点

尝试在Windows上运行Apache Spark示例时出错

我的设置：

Spark版本3.1.2

hadoop 3.2版（为apache hadoop 3.2及更高版本预构建）

scala版本

java1.8版

将Apache Spark存档文件安装到C：\用户\动画\ApacheSpark\火花。

SPARK_HOMEC：\用户\动漫\ApacheSpark\火花

HADOOP_HOMEC：\用户\动漫\ApacheSpark\hadoop

将Hadoop. dll和winutils.exe从这里复制到%HADOOP_HOME%/bin

我从命令行运行以下几行代码作为示例，从C：\用户\动画\ApacheSpark开始

val textFile = sc.textFile("spark/README.md")

val tokens = textFile.flatMap(l=>l.split(" "))

val cp = tokens.map(word=>(word, 1))

val counts = cp.reduceByKey((a, n)=>a+n)

val sortedCounts = counts.sortBy(kvpair=>kvpair._2, false)

sortedCounts.saveAsTextFile("NewFolder")

我得到一个很长的错误日志

错误SparkHadoopWriter：中止工作job_202107261357425367869624572589035_0010. java.lang.UnessfiedLinkError：org.apache.hadoop.io.nativeio.NativeIO$WindowsAcc0（Ljava/lang/String；I）Z…

我尝试过的事情：

将hadoop. dll复制到C：\Windows\System32
在此之后运行winutils. exe chmod 777 NewFolder

有人能帮我让我的第一个例子工作吗？非常感谢。

共1个答案

匿名用户

我刚刚遇到了同样的问题。仔细检查您的环境变量和winutils版本。

云文档

HADOOP_HOME=<your local hadoop-ver folder>
PATH=%PATH%;%HADOOP_HOME%\bin