我的设置:
Spark版本3.1.2
hadoop 3.2版(为apache hadoop 3.2及更高版本预构建)
scala版本
java1.8版
将Apache Spark存档文件安装到C:\用户\动画\ApacheSpark\火花。
SPARK_HOMEC:\用户\动漫\ApacheSpark\火花
HADOOP_HOMEC:\用户\动漫\ApacheSpark\hadoop
将Hadoop. dll和winutils.exe从这里复制到%HADOOP_HOME%/bin
我从命令行运行以下几行代码作为示例,从C:\用户\动画\ApacheSpark开始
`
val textFile = sc.textFile("spark/README.md")
val tokens = textFile.flatMap(l=>l.split(" "))
val cp = tokens.map(word=>(word, 1))
val counts = cp.reduceByKey((a, n)=>a+n)
val sortedCounts = counts.sortBy(kvpair=>kvpair._2, false)
sortedCounts.saveAsTextFile("NewFolder")
`
我得到一个很长的错误日志
错误SparkHadoopWriter:中止工作job_202107261357425367869624572589035_0010. java.lang.UnessfiedLinkError:org.apache.hadoop.io.nativeio.NativeIO$WindowsAcc0(Ljava/lang/String;I)Z…
我尝试过的事情:
有人能帮我让我的第一个例子工作吗?非常感谢。
我刚刚遇到了同样的问题。仔细检查您的环境变量和winutils版本。
云文档
HADOOP_HOME=<your local hadoop-ver folder>
PATH=%PATH%;%HADOOP_HOME%\bin