0%

【Spark MLlib 机器学习实践】蜻蜓点水

这本书的数据集采用的太过于随意,虽然有一定的参考意义,但实际上没有多少实战意义。


更新历史

  • 2020.02.18:重新上线
  • 2019.05.27:完成阅读与读后感

读后感

这本书的数据集采用的太过于随意,虽然有一定的参考意义,但实际上没有多少实战意义。总体来说比较简单,初学者大致翻一下就好。

阅读笔记

第 2 章 Spark 安装与环境配置

第一章是 Spark 介绍,不重复(前面的笔记有很多)。这一章具体怎么安装也可以在网上找到很多资料,这里主要记录如何用 Intellij 创建 Scala 程序,步骤如下:

  1. File -> New -> Project
  2. 在打开的对话框中选择左边 Scala 一栏,然后在右边选择 sbt,点击 Next
  3. 选择 Scala 2.11,输入项目名称 SparkScala,点击 Finish
  4. 然后需要等待一段时间,可以看到提示 dump project structure from sbt
  5. 在 src/main/scala 文件夹下点击右键,选择 New -> Scala Class,选择 Object 类型,输入类名 helloScala(可能需要设置 Project SDK,根据提示设置 2.11)

输入代码

1
2
3
4
5
object helloScala {
def main(args: Array[String]): Unit = {
print("helloScala")
}
}

在文件上点击右键,选择 Run 进行执行,也可以直接点击代码编辑器旁边的绿色小箭头执行

支持 Spark 程序

build.sbt 中添加一行 libraryDependencies += "org.apache.spark" % "spark-core_2.11" % "2.4.3"

如何确定版本

  • Scala 版本:2.11.12 scalac -version(注意!这里不能使用 2.12.x 版本)
    • Mac 下可以 brew install scala@2.11 安装
    • 然后 brew link --overwrite scala@2.11 --force 进行链接
    • 最后在 .bashrc 中添加 export PATH="/usr/local/opt/scala@2.11/bin:$PATH"
  • 对应的 Spark:spark-core_2.11 version:2.4.3(可以在 Spark 下载页面 查看)

如果安装 scala 时报 Error: The following directories are not writable by your user 错误,使用下面两条命令:

1
2
sudo chown -R `whoami`:admin /usr/local/bin
sudo chown -R `whoami`:admin /usr/local/share

如果要减少 Spark 的 Log 输出,参考 这里

后面是具体的案例,但是因为这些案例大多是用小的自制数据集,比较不过瘾,这里就不列了。这本书主要是学如何在 IDE 中开发 Spark 程序