Reusable Utils & Code Snippets
Collection of reusable utility functions and code snippets for Spark, Scala, Python, and SQL.
Reusable Utils & Code Snippets
1. Spark
a.Write data to console
1
2
3
4
(df.write
.format("console")
.option("truncate", False)
.save())
2. Spark-SQL
a. Show info of table in database
1
spark.read.table("spark_catalog.bronze.reddit_submission").show()
1
spark.read.table("spark_catalog.bronze.reddit_submission").printSchema()
1
spark.read.table("spark_catalog.bronze.reddit_submission").count()
1
2
val df = spark.read.table("spark_catalog.bronze.reddit_submission")
df.columns.length
1
spark.sql("DESCRIBE FORMATTED spark_catalog.bronze.reddit_submission").show(200, false)
3. Spark-Warn-Error
1
2
sc = SparkContext("local[2]", "HashtagCountApp")
sc.setLogLevel("ERROR") # tắt WARN và INFO, chỉ giữ ERROR
chỉ hiển thị log ở mức ERROR trở lên, còn tất cả log mức WARN và INFO sẽ bị ẩn đi.
- INFO → chi tiết quá trình (nhiều dòng thừa).
- WARN → cảnh báo (không phải lỗi, nhưng vẫn in ra).
- ERROR → chỉ in lỗi thật sự.
This post is licensed under CC BY 4.0 by the author.