这本书的数据集采用的太过于随意,虽然有一定的参考意义,但实际上没有多少实战意义。
更新历史
- 2020.02.18:重新上线
- 2019.05.27:完成阅读与读后感
读后感
这本书的数据集采用的太过于随意,虽然有一定的参考意义,但实际上没有多少实战意义。总体来说比较简单,初学者大致翻一下就好。
阅读笔记
第 2 章 Spark 安装与环境配置
第一章是 Spark 介绍,不重复(前面的笔记有很多)。这一章具体怎么安装也可以在网上找到很多资料,这里主要记录如何用 Intellij 创建 Scala 程序,步骤如下:
- File -> New -> Project
- 在打开的对话框中选择左边 Scala 一栏,然后在右边选择 sbt,点击 Next
- 选择 Scala 2.11,输入项目名称 SparkScala,点击 Finish
- 然后需要等待一段时间,可以看到提示 dump project structure from sbt
- 在 src/main/scala 文件夹下点击右键,选择 New -> Scala Class,选择 Object 类型,输入类名
helloScala
(可能需要设置 Project SDK,根据提示设置 2.11)
输入代码
1 | object helloScala { |
在文件上点击右键,选择 Run 进行执行,也可以直接点击代码编辑器旁边的绿色小箭头执行
支持 Spark 程序
在 build.sbt
中添加一行 libraryDependencies += "org.apache.spark" % "spark-core_2.11" % "2.4.3"
如何确定版本
- Scala 版本:2.11.12
scalac -version
(注意!这里不能使用 2.12.x 版本)- Mac 下可以
brew install scala@2.11
安装 - 然后
brew link --overwrite scala@2.11 --force
进行链接 - 最后在
.bashrc
中添加export PATH="/usr/local/opt/scala@2.11/bin:$PATH"
- Mac 下可以
- 对应的 Spark:
spark-core_2.11 version:2.4.3
(可以在 Spark 下载页面 查看)
如果安装 scala 时报 Error: The following directories are not writable by your user
错误,使用下面两条命令:
1 | sudo chown -R `whoami`:admin /usr/local/bin |
如果要减少 Spark 的 Log 输出,参考 这里
后面是具体的案例,但是因为这些案例大多是用小的自制数据集,比较不过瘾,这里就不列了。这本书主要是学如何在 IDE 中开发 Spark 程序