Post

Reusable Utils & Code Snippets

Collection of reusable utility functions and code snippets for Spark, Scala, Python, and SQL.

Reusable Utils & Code Snippets

1. Spark

a.Write data to console

1
2
3
4
(df.write
    .format("console")
    .option("truncate", False)
    .save())

2. Spark-SQL

a. Show info of table in database

1
spark.read.table("spark_catalog.bronze.reddit_submission").show()
1
spark.read.table("spark_catalog.bronze.reddit_submission").printSchema()
1
spark.read.table("spark_catalog.bronze.reddit_submission").count()
1
2
val df = spark.read.table("spark_catalog.bronze.reddit_submission")
df.columns.length
1
spark.sql("DESCRIBE FORMATTED spark_catalog.bronze.reddit_submission").show(200, false)

3. Spark-Warn-Error

1
2
sc = SparkContext("local[2]", "HashtagCountApp")
sc.setLogLevel("ERROR")   # tắt WARN và INFO, chỉ giữ ERROR

chỉ hiển thị log ở mức ERROR trở lên, còn tất cả log mức WARN và INFO sẽ bị ẩn đi.

  • INFO → chi tiết quá trình (nhiều dòng thừa).
  • WARN → cảnh báo (không phải lỗi, nhưng vẫn in ra).
  • ERROR → chỉ in lỗi thật sự.
This post is licensed under CC BY 4.0 by the author.