2022
我们一起努力

apachespark教程(spark apache)

本文目录:

  • 1、apache zeppelin入门
  • 2、apache spark 框架怎么入门
  • 3、Apache Livy 0.5.0 简介及安装教程

apache zeppelin入门

Apache Zeppelin是一款基于Web的NoteBook,支持交互式数据分析。使用Zeppelin,可以使用丰富的预构建语言后端(或解释器)制作精美的数据驱动,交互式和协作文档,例如Scala(使用Apache Spark),Python(使用Apache Spark),SparkSQL,Hive ,Markdown,Angular和Shell。

Zeppelin专注于企业,具有以下重要功能:

本文用用在于完成Zeppelin的基本功能介绍,以便可以创建自己的数据分析应用程序或导入现有的Zeppelin笔记本; 此外,将学习Zeppelin的高级功能,如创建和绑定解释器,以及导入外部库

本文是将在未来的Spark教程中使用的基础知识,涵盖了重要的主题,如创建notebook,导入和扩展现有notebook,以及将不同的后端绑定到环境,以便可以使Zeppelin充分发挥它的潜力

有两种方法可以访问 Hdp 环境中的 Zeppelin, 第一种是通过 Amabari的 Quick Links *, 第二种方法是通过导航到您的浏览器上的Zeppelin的专用端口。

使用amy_ds/amy_ds作为用户名/密码组合登录Ambari(操作控制台)。

可能希望导入现有note book,而不是创建新note book。

导入Zeppelin笔记本有两种方法,可以通过指向环境本地的json notebook,也可以通过提供一个url到其他地方托管的原始文件,例如在github上。接下来将介绍导入这些文件的两种方式。

1.导入JSON文件

在Zeppelin UI上单击“导入”。

接下来,单击“ 选择JSON文件”按钮

最后,选择要导入的笔记本,然后单击“ 打开”。

2.使用URL导入Notebook

在导入时,选择 Add from URL

最后,将url粘贴到(原始)json文件,然后单击Import Note。

如果想删除笔记本,可以转到Zeppelin欢迎页面。在notebook下面的页面左侧,将看到各种选项,例如导入笔记,创建新笔记,过滤框,在过滤框下方,可以在其中找到创建或导入的笔记本。

介绍如何安装Zeppelin解释器以在Zeppelin UI中使用。请注意支持的解释器,以确保要安装想要的解释器。

安装完毕后,重新启动Zeppelin

Zeppelin notebook 支持各种解释器,允许对数据执行许多操作。这些是将在我们各种Spark教程中使用的一些解释器。

请注意每个解释器开头的%。每个段落都需要以%开头,后跟解释器名称。下图显示了三个解释器,Markdown,Spark和Shell

1.单击位于Zeppelin欢迎页面右侧的匿名

2.在下拉列表中选择Interpreter

3.在Interpreters页面的右上角,将看到Create,单击它,这将打开Create new interpreter选项。我们将使用shell解释器作为示例。

要绑定刚刚创建的解释器,需要重新打开要绑定新解释器的笔记本。

1.单击Zeppelin笔记本右上角的齿轮。请注意,当单击该齿轮时,它会显示解释器绑定设置部分出现,你可以看到新创建的解释,在我们的情况下,命令解释程序SH。

2.单击解释器,它将从白色变为蓝色。

3.单击“保存”

新shell解释器已准备好投入使用。

在探索Zeppelin时,可能希望使用一个或多个外部库。例如,要运行Magellan,需要导入其依赖项; 需要在您的环境中包含Magellan库。在Zeppelin笔记本中有三种方法可以包含外部依赖:

1.使用%dep解释器(注意:这仅适用于发布到Maven的库。)

2.使用%spark2解释器

3.使用import语句

apache spark 框架怎么入门

Spark是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速。Spark非常小巧玲珑,由加州伯克利大学AMP实验室的Matei为主的小团队所开发。使用的语言是Scala,项目的core部分的代码只有63个Scala文件,非常短小精悍。

Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoop 文件系统中并行运行。通过名为Mesos的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发,可用来构建大型的、低延迟的数据分析应用程序。

Apache Livy 0.5.0 简介及安装教程

曾经我们提交一个spark任务,往往通过spark-submit来提交,难免很原始地需要开发者登陆客户机,通过spark客户端来提交spark任务。为了使spark引擎产品化,我们通过界面配置的方式来实现spark任务参数的可视化,提高用户体验。对于任务提交产品化,我们尝试过这么几种方式:

然而,福音来了,有了livy。livy恰到好处地解决了我们所面临的问题,使spark引擎产品化。

约定所有软件的安装目录:/home/hadoop/tools

约定所有的安装包存放目录:/home/hadoop/tools/package

livy-0.5.0-incubating-bin.zip

上传安装包至package,并解压至/home/hadoop/tools

运行前,确保hadoop集群和spark集群已启动。

如果没有导入下面的变量,则需要先导入:

export SPARK_HOME=/usr/lib/spark

export HADOOP_CONF_DIR=/etc/hadoop/conf

当然上面的路径应该是你实际的安装包相应路径。

启动livy:

./bin/livy-server start

停止livy:

./bin/livy-server stop

livy 的 web ui:

livy默认使用8998端口,你可以在配置中通过 livy.server.port 参数修改端口。

Livy默认情况下使用安装目录下conf目录下的配置文件,你也可以通过LIVY_CONF_DIR在启动Livy时设置环境变量,来指定livy使用备用的配置目录。

至此,Livy安装成功。

REST API

在postman中,测试livy的rest api。

apachespark教程】的内容来源于互联网,如引用不当,请联系我们修改。

赞(0)
文章名称:《apachespark教程(spark apache)》
文章链接:https://www.fzvps.com/31472.html
本站文章来源于互联网,如有侵权,请联系管理删除,本站资源仅供个人学习交流,请于下载后24小时内删除,不允许用于商业用途,否则法律问题自行承担。
图片版权归属各自创作者所有,图片水印出于防止被无耻之徒盗取劳动成果的目的。

评论 抢沙发

评论前必须登录!