apachespark教程(spark apache)-枫舟驿站

本文目录：

1、apache zeppelin入门
2、apache spark 框架怎么入门
3、Apache Livy 0.5.0 简介及安装教程

apache zeppelin入门

Apache Zeppelin是一款基于Web的NoteBook，支持交互式数据分析。使用Zeppelin，可以使用丰富的预构建语言后端（或解释器）制作精美的数据驱动，交互式和协作文档，例如Scala（使用Apache Spark），Python（使用Apache Spark），SparkSQL，Hive ，Markdown，Angular和Shell。

Zeppelin专注于企业，具有以下重要功能：

本文用用在于完成Zeppelin的基本功能介绍，以便可以创建自己的数据分析应用程序或导入现有的Zeppelin笔记本; 此外，将学习Zeppelin的高级功能，如创建和绑定解释器，以及导入外部库

本文是将在未来的Spark教程中使用的基础知识，涵盖了重要的主题，如创建notebook，导入和扩展现有notebook，以及将不同的后端绑定到环境，以便可以使Zeppelin充分发挥它的潜力

有两种方法可以访问 Hdp 环境中的 Zeppelin, 第一种是通过 Amabari的 Quick Links *, 第二种方法是通过导航到您的浏览器上的Zeppelin的专用端口。

使用amy_ds/amy_ds作为用户名/密码组合登录Ambari（操作控制台）。

可能希望导入现有note book，而不是创建新note book。

导入Zeppelin笔记本有两种方法，可以通过指向环境本地的json notebook，也可以通过提供一个url到其他地方托管的原始文件，例如在github上。接下来将介绍导入这些文件的两种方式。

1.导入JSON文件

在Zeppelin UI上单击“导入”。

接下来，单击“ 选择JSON文件”按钮

最后，选择要导入的笔记本，然后单击“ 打开”。

2.使用URL导入Notebook

在导入时，选择 Add from URL

最后，将url粘贴到（原始）json文件，然后单击Import Note。

如果想删除笔记本，可以转到Zeppelin欢迎页面。在notebook下面的页面左侧，将看到各种选项，例如导入笔记，创建新笔记，过滤框，在过滤框下方，可以在其中找到创建或导入的笔记本。

介绍如何安装Zeppelin解释器以在Zeppelin UI中使用。请注意支持的解释器，以确保要安装想要的解释器。

安装完毕后，重新启动Zeppelin

Zeppelin notebook 支持各种解释器，允许对数据执行许多操作。这些是将在我们各种Spark教程中使用的一些解释器。

请注意每个解释器开头的%。每个段落都需要以%开头，后跟解释器名称。下图显示了三个解释器，Markdown，Spark和Shell

1.单击位于Zeppelin欢迎页面右侧的匿名

2.在下拉列表中选择Interpreter

3.在Interpreters页面的右上角，将看到Create，单击它,这将打开Create new interpreter选项。我们将使用shell解释器作为示例。

要绑定刚刚创建的解释器，需要重新打开要绑定新解释器的笔记本。

1.单击Zeppelin笔记本右上角的齿轮。请注意，当单击该齿轮时，它会显示解释器绑定设置部分出现，你可以看到新创建的解释，在我们的情况下，命令解释程序SH。

2.单击解释器，它将从白色变为蓝色。

3.单击“保存”

新shell解释器已准备好投入使用。

在探索Zeppelin时，可能希望使用一个或多个外部库。例如，要运行Magellan，需要导入其依赖项; 需要在您的环境中包含Magellan库。在Zeppelin笔记本中有三种方法可以包含外部依赖：

1.使用%dep解释器（注意：这仅适用于发布到Maven的库。）

2.使用%spark2解释器

3.使用import语句

apache spark 框架怎么入门

Spark是一个基于内存计算的开源的集群计算系统，目的是让数据分析更加快速。Spark非常小巧玲珑，由加州伯克利大学AMP实验室的Matei为主的小团队所开发。使用的语言是Scala，项目的core部分的代码只有63个Scala文件，非常短小精悍。

Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。

Spark 是在 Scala 语言中实现的，它将 Scala 用作其应用程序框架。与 Hadoop 不同，Spark 和 Scala 能够紧密集成，其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

尽管创建 Spark 是为了支持分布式数据集上的迭代作业，但是实际上它是对 Hadoop 的补充，可以在 Hadoop 文件系统中并行运行。通过名为Mesos的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发，可用来构建大型的、低延迟的数据分析应用程序。

Apache Livy 0.5.0 简介及安装教程

曾经我们提交一个spark任务，往往通过spark-submit来提交，难免很原始地需要开发者登陆客户机，通过spark客户端来提交spark任务。为了使spark引擎产品化，我们通过界面配置的方式来实现spark任务参数的可视化，提高用户体验。对于任务提交产品化，我们尝试过这么几种方式：

然而，福音来了，有了livy。livy恰到好处地解决了我们所面临的问题，使spark引擎产品化。

约定所有软件的安装目录：/home/hadoop/tools

约定所有的安装包存放目录：/home/hadoop/tools/package

livy-0.5.0-incubating-bin.zip

上传安装包至package，并解压至/home/hadoop/tools

运行前，确保hadoop集群和spark集群已启动。

如果没有导入下面的变量，则需要先导入：

export SPARK_HOME=/usr/lib/spark

export HADOOP_CONF_DIR=/etc/hadoop/conf

当然上面的路径应该是你实际的安装包相应路径。

启动livy：

./bin/livy-server start

停止livy：

./bin/livy-server stop

livy 的 web ui：

livy默认使用8998端口，你可以在配置中通过 livy.server.port 参数修改端口。

Livy默认情况下使用安装目录下conf目录下的配置文件，你也可以通过LIVY_CONF_DIR在启动Livy时设置环境变量，来指定livy使用备用的配置目录。

至此，Livy安装成功。

REST API

在postman中，测试livy的rest api。

【apachespark教程】的内容来源于互联网，如引用不当，请联系我们修改。

apachespark教程(spark apache)

本文目录：

apache zeppelin入门

apache spark 框架怎么入门

Apache Livy 0.5.0 简介及安装教程

相关推荐

评论抢沙发

评论前必须登录！

互动交流中心

热门文章

热门标签

网站统计

本文目录：

apache zeppelin入门

apache spark 框架怎么入门

Apache Livy 0.5.0 简介及安装教程

相关推荐

评论 抢沙发

评论前必须登录！

互动交流中心

热门文章

热门标签

网站统计

评论抢沙发