本教程展示瞭如何在 Apache Debian 10 上安裝 Spark。對於那些不熟悉的人來說,Apache Spark 是一個快速且流行的集群計算系統。 它為 Java、Scala 和 Python 提供高級 API,以及支持整體執行圖的優化引擎。它還支持一套豐富的高級工具,例如用於 SQL 和結構化信息處理的 Spark SQL、用於機器學習的 MLlib、用於圖形處理的 GraphX 和 Spark Streaming。

本文假設您至少具有 Linux 的基本知識,知道如何使用 shell,最重要的是,您在自己的 VPS 上託管您的網站。 假設您在 root 帳戶下運行,安裝非常簡單。sudo‘ 到命令以獲得 root 權限。 在 Debian 10 (Buster) 上安裝 Apache Spark 的分步說明。

在 Apache Debian 10 Buster 上安裝 Spark

步驟1。在遵循以下教程之前,請務必通過運行以下命令確保您的系統是最新的: apt 終端中的命令:

sudo apt update

步驟 2. 安裝 Java。

運行 Apache Spark 需要 Java。 讓我們確保在我們的 Debian 系統上安裝了 Java。

sudo apt install default-jdk

使用以下命令檢查您的 Java 版本:

java -version

步驟 3. 安裝 Scala。

接下來,在您的 Debian 系統上安裝 Scala 軟件包。

sudo apt install scala

檢查您的 Scala 版本。

scala -version

步驟 4. 在 Apache Debian 上安裝 Spark。

現在您可以下載 Apache Spark 二進製文件。

wget https://www.apache.org/dyn/closer.lua/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz

接下來,提取 Spark tarball。

tar xvf spark-3.1.1-bin-hadoop2.7.tgz
sudo mv spark-3.1.1-bin-hadoop2.7/ /opt/spark

完成後,設置您的 Spark 環境。

nano ~/.bashrc

將以下行添加到文件末尾:

 SPARK_HOME=/opt/spark
 PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

保存您的更改並關閉編輯。要應用更改,請運行:

source ~/.bashrc

使用以下命令啟動 Apache Spark:其中之一是集群的主節點。

start-master.sh

要查看如下所示的 Spark Web 用戶界面,請打開 Web 瀏覽器並在端口 8080 上輸入 localhost 的 IP 地址。

https://127.0.0.1:8080/

在這個單服務器獨立設置中,啟動一個從屬服務器和一個主服務器。這個 start-slave.sh 該命令用於啟動 Spark 工作進程。

start-slave.sh spark://ubuntu1:7077

現在工作人員已啟動並運行,重新加載 Spark 主 Web UI,您應該會看到它們已列出。

在 Apache Debian 10 上安裝 Spark

配置完成後,啟動主服務器和從服務器並測試 Spark shell 是否工作。

spark-shell

恭喜! 您已成功安裝 Spark。感謝您使用本教程在您的 Apache Debian 系統上安裝最新版本的 Spark。如需更多幫助或有用信息,我們建議您查看 Apache Spark 官網.