Post

Cài đặt Apache Spark và Jupyter Lab trên Ubuntu với pip

Cài đặt Apache Spark và Jupyter Lab trên Ubuntu với pip

Trong bài viết này mình sẽ hướng dẫn cách cài đặt Apache Spark trên Ubuntu và cấu hình môi trường để chạy với Jupyter Lab bằng pip. Đây là setup cơ bản giúp bạn học và thực hành Spark trong Big Data.


0. Một số khái niệm

  • PySpark = dùng Spark bằng Python.
  • findspark = thư viện Python hỗ trợ tìm Spark trong máy.
  • virtualenv (venv)/conda + ipykernel = công cụ tạo môi trường ảo, tách biệt thư viện cho từng project.

1. Cài đặt Java JDK

Spark chạy trên JVM, nên cần Java trước.

1
2
3
sudo apt update
sudo apt install openjdk-11-jdk -y
java -version

2. Cài đặt Python và pip

Ubuntu thường có sẵn Python 3. Kiểm tra:

1
python3 --version

Nếu thiếu pip thì cài thêm:

1
sudo apt install python3-pip -y

3. Tải Apache Spark

Truy cập Spark Download và lấy link bản mới nhất. Ví dụ Spark 3.5.1:

1
2
3
wget https://dlcdn.apache.org/spark/spark-3.5.6/spark-3.5.6-bin-hadoop3.tgz
tar -xvzf spark-3.5.6-bin-hadoop3.tgz
mv spark-3.5.6-bin-hadoop3 /opt/spark

4. Cấu hình biến môi trường

Mở file ~/.bashrc:

1
vim ~/.bashrc

Thêm cuối file:

1
2
3
4
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
export PATH=$JAVA_HOME/bin:$PATH
export SPARK_HOME=/opt/spark
export PATH=$SPARK_HOME/bin:$PATH

Nạp lại:

1
source ~/.bashrc

5. Cài đặt PySpark và Jupyter Lab bằng pip

Tạo môi trường ảo:

1
2
python3 -m venv .venv
source .venv/bin/activate

Cài thư viện:

1
pip install pyspark findspark jupyterlab

Đăng ký kernel:

1
python -m ipykernel install --user --name=.venv --display-name "Python (.venv)"

6. Kiểm tra

Chạy thử Spark shell:

1
pyspark

Chạy Jupyter Lab:

1
jupyter lab

Trong Jupyter, tạo 1 notebook và chọn kernel Python (.venv) và thử code Spark image


7. Example

a. test.txt

1
2
I am a final year student of HCMUTE, I am passionate about BigData, and spark is one of my favorite tools.
spark is a very powerful tool in BigData processing

b. test.ipynb image

8. Hướng dẫn cài thêm cài đặt môi trường bằng miniconda

a. Xem hướng dẫn cài đặt miniconda tại: miniconda install

b. Tạo và activate môi trường ảo bằng miniconda

1
conda create -n myvenv python=3.10
1
conda activate myvenv

c. Cài đặt jupyter lab và đăng ký kernel

1
pip install jupyterlab
1
pip install pyspark==3.5.3
1
python -m ipykernel install --user --name=myvenv --display-name "Python (pyspark)"
This post is licensed under CC BY 4.0 by the author.