마개

Data Engineer
마술을 좋아하고 자동화, 데이터를 다룹니다.

[Apache Spark] 속성

March 20, 2024 최대 1 분 소요

안녕하세요 마개입니다.
Apache Spark를 이용하면서 사용하던 속성을 작성합니다. 무작위로 필요할 때 쓰기 위해 기록해놓은 것입니다.

spark

https://spark.apache.org/docs/latest/configuration.html

속성명	기본값	설명	버전
spark.sql.sources.partitionOverwriteMode	STATIC	파티션 테이블에 INSERT OVERWRITE할 때 지원하는 모드로 `static`과 `dynamic`이 있음. static 모드에서 Spark는 OVERWRITE하기 전 INSERT 구문에서 데이터를 넣고자 하는 파티션과 매핑된 파티션을 전부 삭제합니다. dynamic 모드에서는 파티션을 지우지 않고 단지 overwrite합니다.	2.3.0
spark.dynamicAllocation.initialExecutors		dynamic allocation이 설정되어 있을 때 실행할 executor의 초기 개수	1.3.0
spark.dynamicAllocation.minExecutors		dynamic allocation이 설정되어 있을 때 실행할 executor의 최소 개수	1.3.0
spark.dynamicAllocation.maxExecutors		dynamic allocation이 설정되어 있을 때 실행할 executor의 최대 개수	1.3.0
spark.hadoop.orc.overwrite.output.file	true??
spark.sql.legacy.timeParserPolicy	LEGACY??
spark.sql.shuffle.partitions	200	join이나 aggregation을 하기 위한 데이터를 shuffle할 때의 파티션 개수	1.1.0
spark.yarn.maxAppAttempts	1
spark.dynamicAllocation.enabled	false	동적 자원 할당을 사용할지 여부
spark.driver.maxResultSize	1g	각 Spark action에서 모든 파티션들의 결과 총 사이즈	1.2.0
spark.sql.hive.convertMetastoreOrc	true	Orc 파일 데이터를 읽을 때 Spark의 Native ORC Reader를 사용할지 여부. `false`로 하면 Hive의 Reader를 사용하게 됨.
spark.sql.parquet.compression.codec		`parquet`를 이용해서 데이터를 저장할 때 압축형태

공유하기

Twitter Facebook LinkedIn

참고

[RAG 도전기] RAG 파이프라인 평가 방법

September 26, 2025 1 분 소요

안녕하세요 마개입니다. RAG 파이프라인을 개발하다보면 부딪치는 문제 중 하나가 물어본 질문에 정확한 답을 잘 가져오는지 질문의 의도를 잘 파악하고 답을 하는지에 대한 것입니다. 이렇게 만들어놓은 RAG 파이프라인을 평가하는 방법에 대해서 공부합니다.

[RAG 도전기] PDF Document Loader 비교해보기

July 23, 2025 3 분 소요

안녕하세요 마개입니다. RAG를 개발하면서 얻는 지식을 정리해봅니다. 이번에는 Document Loader 종류 중 PDF를 대상으로 한 Loader 종류입니다.

[RAG 도전기] 벡터 데이터베이스란 (Vector Database)

July 15, 2025 1 분 소요

안녕하세요 마개입니다. RAG를 개발하면서 얻는 지식을 정리해봅니다. 이번에는 벡터 (Vector) 데이터베이스입니다.

[Airflow] 3.0.0 출시

April 22, 2025 2 분 소요

안녕하세요 마개입니다. 2025년 4월 22일 Airflow 3.0.0이 발표되었습니다. 이번 Airflow 3에서는 엄청나게 많은 변화가 있는 것으로 보이는데 대략적으로 내용들을 확인해보겠습니다.