Cài đặt Apache Spark và Jupyter Lab trên Ubuntu với pip
Cài đặt Apache Spark và Jupyter Lab trên Ubuntu với pip
Trong bài viết này mình sẽ hướng dẫn cách cài đặt Apache Spark trên Ubuntu và cấu hình môi trường để chạy với Jupyter Lab bằng pip
. Đây là setup cơ bản giúp bạn học và thực hành Spark trong Big Data.
0. Một số khái niệm
- PySpark = dùng Spark bằng Python.
- findspark = thư viện Python hỗ trợ tìm Spark trong máy.
- virtualenv (venv)/conda + ipykernel = công cụ tạo môi trường ảo, tách biệt thư viện cho từng project.
1. Cài đặt Java JDK
Spark chạy trên JVM, nên cần Java trước.
1
2
3
sudo apt update
sudo apt install openjdk-11-jdk -y
java -version
2. Cài đặt Python và pip
Ubuntu thường có sẵn Python 3. Kiểm tra:
1
python3 --version
Nếu thiếu pip thì cài thêm:
1
sudo apt install python3-pip -y
3. Tải Apache Spark
Truy cập Spark Download và lấy link bản mới nhất. Ví dụ Spark 3.5.1:
1
2
3
wget https://dlcdn.apache.org/spark/spark-3.5.6/spark-3.5.6-bin-hadoop3.tgz
tar -xvzf spark-3.5.6-bin-hadoop3.tgz
mv spark-3.5.6-bin-hadoop3 /opt/spark
4. Cấu hình biến môi trường
Mở file ~/.bashrc
:
1
vim ~/.bashrc
Thêm cuối file:
1
2
3
4
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
export PATH=$JAVA_HOME/bin:$PATH
export SPARK_HOME=/opt/spark
export PATH=$SPARK_HOME/bin:$PATH
Nạp lại:
1
source ~/.bashrc
5. Cài đặt PySpark và Jupyter Lab bằng pip
Tạo môi trường ảo:
1
2
python3 -m venv .venv
source .venv/bin/activate
Cài thư viện:
1
pip install pyspark findspark jupyterlab
Đăng ký kernel:
1
python -m ipykernel install --user --name=.venv --display-name "Python (.venv)"
6. Kiểm tra
Chạy thử Spark shell:
1
pyspark
Chạy Jupyter Lab:
1
jupyter lab
Trong Jupyter, tạo 1 notebook và chọn kernel Python (.venv) và thử code Spark
7. Example
a. test.txt
1
2
I am a final year student of HCMUTE, I am passionate about BigData, and spark is one of my favorite tools.
spark is a very powerful tool in BigData processing
8. Hướng dẫn cài thêm cài đặt môi trường bằng miniconda
a. Xem hướng dẫn cài đặt miniconda tại: miniconda install
b. Tạo và activate môi trường ảo bằng miniconda
1
conda create -n myvenv python=3.10
1
conda activate myvenv
c. Cài đặt jupyter lab và đăng ký kernel
1
pip install jupyterlab
1
pip install pyspark==3.5.3
1
python -m ipykernel install --user --name=myvenv --display-name "Python (pyspark)"
This post is licensed under CC BY 4.0 by the author.