[SparkSQL] SparkSQLOperator를 사용하는 Airflow 파이프라인 성능 개선기
안녕하세요 마개입니다. SparkSQL을 사용하는 파이프라인에 성능 이슈가 있어서 이를 튜닝했던 과정을 공유합니다. 회사에서 진행한 것이기에 정확한 정보가 나오지는 않습니다.
안녕하세요 마개입니다. SparkSQL을 사용하는 파이프라인에 성능 이슈가 있어서 이를 튜닝했던 과정을 공유합니다. 회사에서 진행한 것이기에 정확한 정보가 나오지는 않습니다.
안녕하세요 마개입니다. SparkSQL을 이용할 때 사용되는 Data Type 중에 단순한 구조가 아닌 복잡한 구조인 Data Type들에 대해 알아봅니다.
안녕하세요 마개입니다. Apache Spark를 이용하면서 사용하던 속성을 작성합니다. 무작위로 필요할 때 쓰기 위해 기록해놓은 것입니다.
안녕하세요 마개입니다. Apache Spark는 RDD부터 시작하여 DataSet, DataFrame, Parquet 등 여러 포맷을 거쳐왔는데 이번에 Apache Spark의 스토리지 포맷에 대해 정리합니다. 참고 문서를 보고 정리했습니다.