Category

UiPath

[RPA UiPath StudioX] 공통 액티비티 2편

최대 1 분 소요

 안녕하세요 마개입니다. 지난 영상에 이어 StudioX 공통 액티비티 2편을 진행합니다. Repeat Number of Times, If, Exit Loop를 이용해서 게임을 만들어 봅니다.

[RPA UiPath StudioX] 공통 액티비티 1편

최대 1 분 소요

 안녕하세요 마개입니다. 3강에서는 StudioX 공통 액티비티 1편을 진행합니다. Message Box, Write Line, Delay, Input Dialog, 나중을 위해 저장 액티비티를 알아보겠습니다.

[RPA UiPath] 12강. PDF - 문서도 읽어봐야지??

최대 1 분 소요

 안녕하세요 마개입니다. 12강에서는 PDF에 대해서 알아봅니다. 내용에 수정이 필요한 부분이나 궁금하신 부분에 대해서는 댓글로 달아주시길 바랍니다.

[RPA UiPath] 10강. 이미지, 텍스트 자동화 (Image & Text Automation) - Selector가 잡히지 않는 프로그램에는 이 방법을 사용하자 !!!

최대 1 분 소요

 안녕하세요 마개입니다. 10강에서는 이미지와 텍스트 자동화(Image & Text Automation)에 대해 알아보겠습니다. 9강 Selector까지 진행하면서 어느 정도 RPA 개발이 가능할텐데 특정 프로그램에서는 각각의 Selector가 잡히지 않고 통으로 잡히는 경...

[RPA UiPath] 9강. 셀렉터 (Selector) - 여기가 고비다

최대 1 분 소요

 안녕하세요 마개입니다. 9강에서는 셀렉터(Selector)에 대해 알아보겠습니다. Selector는 C언어에서 포인터와 같이 UiPath에서는 중요한 부분입니다. 해당 부분만 넘기면 UiPath 개발이 쉬워지니 파헤쳐봅시다 !

[RPA UiPath] 8강. 스크래핑 (Scraping) - 웹 크롤링을 해보자

최대 1 분 소요

 안녕하세요 마개입니다. 8강에서는 스크래핑(Scraping)에 대해 알아보겠습니다. 스크래핑은 웹이나 프로그램 등에서 데이터를 추출하고 가공하는 기술입니다. 이전에 네이버 뉴스 크롤링 사례에서 사용한 주요 기술이므로 끝까지 시청해주세요 !

[RPA UiPath] 7강. 레코딩 (Recording)

최대 1 분 소요

 안녕하세요 마개입니다. 7강에서는 레코딩에 대해 알아보겠습니다. 레코딩은 사용자가 마우스나 키보드 등의 행동을 따라하여 액티비티로 변환시키고 이를 이용해 워크플로우를 만드는 기능입니다. UiPath를 입문할 때 이용하기 좋은 기능입니다.

[RPA UiPath] 6강. 데이터 조작 (Data Manipulation)

최대 1 분 소요

 안녕하세요 마개입니다. 6강에서는 데이터 타입별로 많이 사용하는 메서드에 대해 알아보겠습니다. UiPath를 개발할 때 Drag & Drop으로 쉽게 개발을 할 수 있지만 필요에 따라서 코딩이 들어갈 수도 있습니다. 그러한 부분에 대해 알아봅니다.

[RPA UiPath] 5강. 많이 쓰는 Activity - 1편. 기본 Activity

최대 1 분 소요

 안녕하세요 마개입니다. 5강에서는 UiPath Studio에서 많이 사용하는 Activity들에 대해 알아보겠습니다. 내용이 많아 1편, 2편으로 제작하였습니다. 1편에서는 기본 Activity인 Click, Get Text, Set Text, Type Into, Send Hot...

[RPA UiPath] 3강. Hello World

최대 1 분 소요

 안녕하세요 마개입니다. 3강에서는 UiPath Studio 사용법과 프로그래밍 언어의 입문인 Hello World를 만들어보도록 하겠습니다. 1, 2강에서는 이론 강의를 하다보니 지루하셨을텐데 이번 강의부터는 프로그램을 살펴보고 직접 따라하면서 하는 실습으로 해보겠습니다.

[RPA UiPath] 1강 RPA란

최대 1 분 소요

 안녕하세요 마개입니다. RPA 솔루션 중 하나인 UiPath의 기초 개발 강좌를 개설합니다. 총 15강까지 있고 1강에서는 RPA란 무엇인지에 대한 설명을 진행합니다.

맨 위로 이동 ↑

Data

[Apache Iceberg] Big Data File Format

3 분 소요

 안녕하세요 마개입니다.  Apache Iceberg 테이블을 이용하게 되었는데 이 Iceberg가 무엇이고 어떤 것이 좋은지 알아봅니다.

[Apache Spark] 속성

최대 1 분 소요

 안녕하세요 마개입니다.  Apache Spark를 이용하면서 사용하던 속성을 작성합니다. 무작위로 필요할 때 쓰기 위해 기록해놓은 것입니다.

[Data Engineering Roadmap] 1. 개요

2 분 소요

 안녕하세요 마개입니다.  Data Engineer가 되기 위해 Data Engineering Roadmap을 살펴보고 하나씩 공부해나가는 시간을 가져보려고 합니다.

[Apache Hive] 속성

1 분 소요

 안녕하세요 마개입니다.  Apache Hive를 이용하면서 사용하던 속성을 작성합니다. 무작위로 필요할 때 쓰기 위해 기록해놓은 것입니다.

[Apache Spark] Storage Format

3 분 소요

 안녕하세요 마개입니다.  Apache Spark는 RDD부터 시작하여 DataSet, DataFrame, Parquet 등 여러 포맷을 거쳐왔는데 이번에 Apache Spark의 스토리지 포맷에 대해 정리합니다. 참고 문서를 보고 정리했습니다.

[Airflow] 커스텀 XCom 사용

2 분 소요

 안녕하세요 마개입니다. Airflow를 이용하는데 있어 Task 간에 데이터를 주고 받는 방법에는 여러 방법이 있는데 기본적으로는 XCom이라는 기능을 제공합니다. 이 XCom에 대해서 Custom해보는 과정을 알아봅니다.

[Airflow] DAG에 이슈가 있을 때 체크포인트

최대 1 분 소요

 안녕하세요 마개입니다. Airflow를 운영함에 있어 DAG에 이슈가 있을 때 체크해봐야할 사항들에 대해 알아봅니다. 자료는 Marc Lamberti님의 자료를 참고했습니다.

[Airflow] Secrets Backend

1 분 소요

 안녕하세요 마개입니다. 일반적으로 connections와 variables는 환경변수 또는 메타스토어 데이터베이스에서 조회가 가능하지만 대체안으로 AWS SSM Parameter Store, Hashicorp Vault Secrets 또는 직접 구성하여 사용할 수 있습니다. 이번...

[Airflow] Release Notes - 2.4.x

1 분 소요

 안녕하세요 마개입니다. 2022년 09월 19일에 적용된 Airflow 2.4 버전에서의 변경사항은 무엇이 있었는지 공식 홈페이지를 통해 알아봅니다. 메이저한 변경사항에 대해만 알아보고 버그 수정 부분은 생략합니다. 자세한 것은 공식 홈페이지를 통해 확인합니다.

[Airflow] Release Notes - 2.3.x

2 분 소요

 안녕하세요 마개입니다. 2022년 04월 30일에 적용된 Airflow 2.3 버전에서의 변경사항은 무엇이 있었는지 공식 홈페이지를 통해 알아봅니다. 메이저한 변경사항에 대해만 알아보고 버그 수정 부분은 생략합니다. 자세한 것은 공식 홈페이지를 통해 확인합니다.

[Airflow] Release Notes - 2.2.x

2 분 소요

 안녕하세요 마개입니다. 2021년 10월 11일에 적용된 Airflow 2.2 버전에서의 변경사항은 무엇이 있었는지 공식 홈페이지를 통해 알아봅니다. 메이저한 변경사항에 대해만 알아보고 버그 수정 부분은 생략합니다. 자세한 것은 공식 홈페이지를 통해 확인합니다.

Airflow 구축 및 변천사 - 모니터링

6 분 소요

 안녕하세요 마개입니다. Airflow를 처음 도입하게 된 배경부터 구축을 넘어 마지막으로는 모니터링 부분에 대해 정리하고자 합니다.

Airflow 구축 및 변천사 - 개선

7 분 소요

 안녕하세요 마개입니다. 이전 글에서는 Airflow를 구축하고 기본적인 설정을 하는 과정을 정리하였습니다. 이번에는 기본적인 환경에서 겪은 불편함과 이를 해결하면서 개선하는 과정에 대해 정리하겠습니다.

Airflow 구축 및 변천사 - 구축

5 분 소요

 안녕하세요 마개입니다. 이전 글에서는 Airflow를 도입하게 된 배경과 선정 이유에 대해 정리하였습니다. 이번에는 구축하는 과정에 대해 내용을 정리해 보겠습니다.

Airflow 구축 및 변천사 - 도입 배경 및 선정

2 분 소요

 안녕하세요 마개입니다. 현재의 회사에서 Airflow를 1년 정도 넘게 사용 중인데 처음 Airflow를 도입하게 된 배경과 그동안의 변천사, 그 과정에서 생긴 고민들에 대한 내용을 정리하고자 합니다.

Apache Kafka란

2 분 소요

 안녕하세요 마개입니다. 이번 글에서는 데이터 파이프라인에 많이 이용하는 Apache Kafka에 대해 대략적으로 알아보도록 하겠습니다.

[BI] Grafana 소개

최대 1 분 소요

 안녕하세요 마개입니다. 시각화를 위한 툴은 여러 가지가 있는데 시계열 데이터에 대한 시각화를 하기 좋은 Visualization Tool인 Grafana에 대해 알아보겠습니다.

[Data Engineering] TICK Stack이란

최대 1 분 소요

 안녕하세요 마개입니다. 데이터를 효과적으로 수집하고 저장하면서 시각화까지 제공해주는 솔루션들은 여러가지가 있습니다. 기존에는 ELK(Elasticsearch + Logstash + Kibana) Stack을 이용해보았는데 이번에는 TICK Stack을 살펴보겠습니다.

[Data Engineering] InfluxDB 소개

1 분 소요

 안녕하세요 마개입니다. 기존에는 관계형 데이터베이스인 RDB만을 많이 이용하였는데 요즘에는 그 외에 다양한 NoSQL 데이터베이스도 이용을 하면서 빅데이터 시대를 준비하고 있습니다. 이 중에 시계열 데이터를 다루는 데이터베이스, 그 중에서도 가장 많이 이용하는 InfluxDB에 ...

[BI] Apache Superset 설치

1 분 소요

 안녕하세요 마개입니다. BI 툴 중 오픈소스인 Apache Superset에 대한 설치 작업을 진행해보겠습니다. 공식 홈페이지의 문서에 따라 설치를 진행하였습니다. 설치 OS 환경은 Ubuntu 20.04에서 진행했습니다.

[Data Engineering] Druid - Superset 연동하기

1 분 소요

 안녕하세요 마개입니다. 앞에서 설치한 Druid와 Superset을 연동하는 방법에 대해 알아보겠습니다. 앞에서는 virtualenv를 이용해서 Superset을 시작했었는데 중지시키고 진행합니다.

[Data Engineering] Apache Druid 설치

최대 1 분 소요

 안녕하세요 마개입니다. Ubuntu 환경에서 Apache Druid를 설치해보겠습니다. 공식 홈페이지의 Quickstart를 참고하였습니다. Docker를 이용하는 방법과 Docker를 이용하지 않는 방법이 있는데 Docker를 이용하지 않고 진행해보았습니다. OS는 Ubuntu...

[Data Engineering] Apache Druid 설치 (Docker 버전)

최대 1 분 소요

 안녕하세요 마개입니다. 이번에는 Docker를 이용하여 설치해보겠습니다. OS는 마찬가지로 Ubuntu에서 진행하고 Docker가 설치되어 있다는 가정하에 진행합니다. 마찬가지로 공식 홈페이지를 보고 참고하였습니다. Docker 중에서 docker-compose를 이용하여 진행할...

[Data Engineering] Apache Druid는..

1 분 소요

 안녕하세요 마개입니다. 데이터 분석을 위해 여러 종류의 데이터베이스를 이용할 수 있는데 이번에는 OLAP 용도로 사용하는 Apache Druid에 대해 알아보겠습니다.

[BI] Apache Superset은..

최대 1 분 소요

 안녕하세요 마개입니다. BI 툴에는 여러 가지가 존재하는데 그 중 하나인 아파치 재단에서 제공하는 Apache Superset에 대해 알아봅니다.

맨 위로 이동 ↑

Book

[리뷰] AutoML 인 액션

최대 1 분 소요

 안녕하세요 마개입니다. 이번 달에 소개해 드릴 책은 “AutoML 인 액션”입니다. 해당 책에 대해 알아봅시다.

[리뷰] 보이지 않는 위협

최대 1 분 소요

 안녕하세요 마개입니다. 이번 달에 소개해 드릴 책은 “보이지 않는 위협”입니다. 해당 책에 대해 알아봅시다.

[리뷰] 데이터 품질의 비밀

1 분 소요

 안녕하세요 마개입니다. 이번 달에 소개해 드릴 책은 “데이터 품질의 비밀”입니다. 해당 책에 대해 알아봅시다.

[리뷰] 어쩌다 데이터 분석 with 파이썬

1 분 소요

 안녕하세요 마개입니다. 이번에 소개해 드릴 책은 “어쩌다 데이터 분석 with 파이썬”입니다. 해당 책에 대해 알아보도록 하겠습니다.

[리뷰] SQL로 시작하는 데이터 분석

1 분 소요

 안녕하세요 마개입니다. 이번에 소개해 드릴 책은 “SQL로 시작하는 데이터 분석”입니다. 해당 책에 대해 알아보도록 하겠습니다.

맨 위로 이동 ↑

Airflow

[Airflow] 커스텀 XCom 사용

2 분 소요

 안녕하세요 마개입니다. Airflow를 이용하는데 있어 Task 간에 데이터를 주고 받는 방법에는 여러 방법이 있는데 기본적으로는 XCom이라는 기능을 제공합니다. 이 XCom에 대해서 Custom해보는 과정을 알아봅니다.

[Airflow] DAG에 이슈가 있을 때 체크포인트

최대 1 분 소요

 안녕하세요 마개입니다. Airflow를 운영함에 있어 DAG에 이슈가 있을 때 체크해봐야할 사항들에 대해 알아봅니다. 자료는 Marc Lamberti님의 자료를 참고했습니다.

[Airflow] Secrets Backend

1 분 소요

 안녕하세요 마개입니다. 일반적으로 connections와 variables는 환경변수 또는 메타스토어 데이터베이스에서 조회가 가능하지만 대체안으로 AWS SSM Parameter Store, Hashicorp Vault Secrets 또는 직접 구성하여 사용할 수 있습니다. 이번...

[Airflow] Release Notes - 2.4.x

1 분 소요

 안녕하세요 마개입니다. 2022년 09월 19일에 적용된 Airflow 2.4 버전에서의 변경사항은 무엇이 있었는지 공식 홈페이지를 통해 알아봅니다. 메이저한 변경사항에 대해만 알아보고 버그 수정 부분은 생략합니다. 자세한 것은 공식 홈페이지를 통해 확인합니다.

[Airflow] Release Notes - 2.3.x

2 분 소요

 안녕하세요 마개입니다. 2022년 04월 30일에 적용된 Airflow 2.3 버전에서의 변경사항은 무엇이 있었는지 공식 홈페이지를 통해 알아봅니다. 메이저한 변경사항에 대해만 알아보고 버그 수정 부분은 생략합니다. 자세한 것은 공식 홈페이지를 통해 확인합니다.

[Airflow] Release Notes - 2.2.x

2 분 소요

 안녕하세요 마개입니다. 2021년 10월 11일에 적용된 Airflow 2.2 버전에서의 변경사항은 무엇이 있었는지 공식 홈페이지를 통해 알아봅니다. 메이저한 변경사항에 대해만 알아보고 버그 수정 부분은 생략합니다. 자세한 것은 공식 홈페이지를 통해 확인합니다.

Airflow 구축 및 변천사 - 모니터링

6 분 소요

 안녕하세요 마개입니다. Airflow를 처음 도입하게 된 배경부터 구축을 넘어 마지막으로는 모니터링 부분에 대해 정리하고자 합니다.

Airflow 구축 및 변천사 - 개선

7 분 소요

 안녕하세요 마개입니다. 이전 글에서는 Airflow를 구축하고 기본적인 설정을 하는 과정을 정리하였습니다. 이번에는 기본적인 환경에서 겪은 불편함과 이를 해결하면서 개선하는 과정에 대해 정리하겠습니다.

Airflow 구축 및 변천사 - 구축

5 분 소요

 안녕하세요 마개입니다. 이전 글에서는 Airflow를 도입하게 된 배경과 선정 이유에 대해 정리하였습니다. 이번에는 구축하는 과정에 대해 내용을 정리해 보겠습니다.

Airflow 구축 및 변천사 - 도입 배경 및 선정

2 분 소요

 안녕하세요 마개입니다. 현재의 회사에서 Airflow를 1년 정도 넘게 사용 중인데 처음 Airflow를 도입하게 된 배경과 그동안의 변천사, 그 과정에서 생긴 고민들에 대한 내용을 정리하고자 합니다.

맨 위로 이동 ↑

Others

[Notion] 왼쪽 메뉴바에서 페이지 사라짐 현상

최대 1 분 소요

 안녕하세요 마개입니다. Notion을 이용해서 커뮤니티에 정보를 제공해주는 페이지가 있는데 해당 페이지가 왼쪽 메뉴바에서 갑자기 사라져서 해당 현상과 해결 방법을 남깁니다.

[MAC] MacOS 업그레이드 후 xcrun error

최대 1 분 소요

 안녕하세요 마개입니다. 2017년형 맥북을 이용 중인데 필요에 따라 OS를 업그레이드해야 했습니다. (Ventura) 업그레이드는 정상적으로 진행되었지만 이후에 터미널에서 발생한 에러에 대해 알아봅니다.

이직 회고

3 분 소요

 안녕하세요 마개입니다.  올해 5월에 새로운 회사로 이직을 하게 되었습니다. 이직을 준비하는 과정과 느낀점에 대한 회고를 작성하고 싶었는데 벌써 5개월이 지났네요. 더 늦기 전에 회고를 작성해봅니다.

[Linux] Ubuntu에 Jekyll 설치하기 (Github IO)

1 분 소요

 안녕하세요 마개입니다. 새로운 데스크탑을 맞추고 Linux를 이용하기 위해서 Ubuntu 22.04를 설치했습니다. 여기에 새로운 개발 환경들을 세팅하고 기존에 운영하고 있던 Github IO를 이용하기 위해 Jekyll도 설치하려고 합니다. 이번에는 이 설치 과정들을 봅니다.

[Linux] Ubuntu에 개발환경 세팅하기

4 분 소요

 안녕하세요 마개입니다. 새로운 데스크탑을 맞추고 Linux를 이용하기 위해서 Ubuntu 22.04를 설치했습니다. 여기에 제가 평소에 개발하는 환경들을 세팅하려고 합니다. 설치하는 툴이나 방법들이 저에게 필요한 것들이기 때문에 여러분과는 다를 수 있다는 점을 알아주시면 됩니다.

[Linux] 비밀번호 없이 SSH 원격 접속하기 (PEM Key 생성)

최대 1 분 소요

 안녕하세요 마개입니다. Linux 상에서 원격서버(마찬가지로 Linux)에 SSH 접속을 할 때 계정과 비밀번호를 요구합니다. 하지만 자동화를 하는 과정에서는 계정과 비밀번호를 입력할 수 없으니 (또는 계정과 비밀번호를 하드코딩하는 것은 보안상에 문제가 됨.) OpenSSH와 사...

[Linux] 서버 간의 파일 실시간 동기화

2 분 소요

 안녕하세요 마개입니다. Linux 서버 2개가 있을 때 2개 서버 간에 양방향으로 파일을 동기화하는 방법에 대해 알아봅니다. 서버는 A와 B가 있다고 가정하겠습니다.

[Linux] 원격 서버 파일 복사하기/가져오기

최대 1 분 소요

 안녕하세요 마개입니다. Linux 상에서 로컬 PC에서 원격 서버로 파일을 복사하거나 반대로 원격서버에 있는 파일을 로컬 PC로 복사해야 하는 경우가 있습니다. (예 : 로컬 PC에서 데이터를 JSON 파일로 생성해서 Druid 서버에 복사하기, 원격 서버의 로그 파일을 로컬 P...

[Vault] 구축

2 분 소요

 안녕하세요 마개입니다. 개발을 하는데 있어 필요한 토큰, 비밀번호, 암호화 키와 같은 민감한 데이터를 어떻게 다루고 관리해야할지 고민할 때 고려해야 하는 기술 및 툴 중에 하나인 Vault에 대해 알아봅니다.

[MAC] mds_stores CPU 점유율 문제

최대 1 분 소요

 안녕하세요 마개입니다. 2017년형 맥북을 사용 중인데 자주 CPU 점유율이 높아서 문제점을 찾은 내용을 공유합니다.

맨 위로 이동 ↑

Python

[Python] 구글 스프레드시트 연동

2 분 소요

 안녕하세요 마개입니다. Python의 Pandas를 이용하여 구글 스프레드시트에 데이터를 업로드하는 작업을 진행해보고자 합니다. 해당 내용은 구글 스프레드시트 API 설정과 파이썬 연동, Pandas로 데이터 업로드하는 과정으로 진행됩니다.

[Python] Release Notes - 3.10

1 분 소요

 안녕하세요 마개입니다. Python 3.10 버전에서의 변경사항에 대해 알아봅니다.

[Pandas] For 문 이용 시 속도 개선 방법

4 분 소요

 안녕하세요 마개입니다. Pandas의 DataFrame을 이용할 때 For 문을 이용하는 것은 지양해야 하지만 어쩔 수 없이 사용해야 할 때가 있습니다. 이럴 때 For 문을 잘못 사용하면 속도 저하를 불러오는데 여러 가지 방법으로 속도를 비교해 보겠습니다.

[Pandas] CSV 파일 다룰 때 숫자 타입 이슈 문제

3 분 소요

 안녕하세요 마개입니다. Pandas를 이용해서 CSV파일을 다룰 때 str 타입으로 저장했던 데이터가 int 타입으로 변경이 되는 경우가 있습니다. 이러한 상황에 대해 알아보고 원인과 해결 방안을 보겠습니다.

[Athena] AccessDeniedException 에러

1 분 소요

 안녕하세요 마개입니다. Python에서 AWS의 Athena를 이용할 때 발생한 에러를 다뤄보고자 합니다.

[Python] Jupyter Notebook 서비스 생성

최대 1 분 소요

 안녕하세요 마개입니다. Jupyter Notebook을 설치 완료하고 백그라운드 실행을 완료하였다면 서비스를 등록하여 서버가 재가동되더라도 실행되도록 해봅니다.

맨 위로 이동 ↑

AWS

[EC2] Instance Type

1 분 소요

 안녕하세요 마개입니다.  AWS에서 인스턴스를 다루다보면 많은 인스턴스 타입이 있고 이중에 어떤 것을 써야할지에 대한 고민이 생길 수 있습니다. 이에 대해 정리를 해봅니다.

[Redshift] DataShare

2 분 소요

 안녕하세요 마개입니다. AWS Redshift의 여러 기능 중에 DataShare에 대해 살펴봅니다. 공식 문서를 참고하여 정리합니다.

[Redshift] Unload

5 분 소요

 안녕하세요 마개입니다. AWS Redshift의 여러 기능 중에 UNLOAD에 대해 살펴봅니다. 공식 문서를 참고하여 정리합니다.

[EKS] 시작해보기

2 분 소요

 안녕하세요 마개입니다. AWS의 수많은 서비스들 중에서 EKS를 이용해서 Kubernetes Cluster를 구성해보고자 합니다. AWS EKS의 공식 문서를 보고 따라해보았습니다.

[Athena] String 이어붙이기 사용 시 유의 사항

1 분 소요

 안녕하세요 마개입니다. AWS의 Athena나 MySQL 또는 다른 데이터베이스의 SQL을 이용하여 String 값을 이어붙이기할 때 유의해야할 사항에 대해 알아봅니다.

[Athena] No output location provided 에러

최대 1 분 소요

 안녕하세요 마개입니다. AWS에서 Athena를 처음 이용하거나 IAM 유저를 새로 만들고 권한을 부여한 후 이용하게 될 때 발생할 수 있는 문제에 대해 알아봅니다.

[SQS] Queue 생성하기

1 분 소요

 안녕하세요 마개입니다. SQS는 Simple Queue Service로 AWS에서 제공하는 Queue 서비스입니다. SQS를 생성하기 위해서 몇 가지 설정해야 하는 부분이 있는데 이에 대해 알아보겠습니다.

맨 위로 이동 ↑

Druid

[Data Engineering] Druid - Superset 연동하기

1 분 소요

 안녕하세요 마개입니다. 앞에서 설치한 Druid와 Superset을 연동하는 방법에 대해 알아보겠습니다. 앞에서는 virtualenv를 이용해서 Superset을 시작했었는데 중지시키고 진행합니다.

[Data Engineering] Apache Druid 설치

최대 1 분 소요

 안녕하세요 마개입니다. Ubuntu 환경에서 Apache Druid를 설치해보겠습니다. 공식 홈페이지의 Quickstart를 참고하였습니다. Docker를 이용하는 방법과 Docker를 이용하지 않는 방법이 있는데 Docker를 이용하지 않고 진행해보았습니다. OS는 Ubuntu...

[Data Engineering] Apache Druid 설치 (Docker 버전)

최대 1 분 소요

 안녕하세요 마개입니다. 이번에는 Docker를 이용하여 설치해보겠습니다. OS는 마찬가지로 Ubuntu에서 진행하고 Docker가 설치되어 있다는 가정하에 진행합니다. 마찬가지로 공식 홈페이지를 보고 참고하였습니다. Docker 중에서 docker-compose를 이용하여 진행할...

[Data Engineering] Apache Druid는..

1 분 소요

 안녕하세요 마개입니다. 데이터 분석을 위해 여러 종류의 데이터베이스를 이용할 수 있는데 이번에는 OLAP 용도로 사용하는 Apache Druid에 대해 알아보겠습니다.

맨 위로 이동 ↑

DataOthers

[BI] Grafana 소개

최대 1 분 소요

 안녕하세요 마개입니다. 시각화를 위한 툴은 여러 가지가 있는데 시계열 데이터에 대한 시각화를 하기 좋은 Visualization Tool인 Grafana에 대해 알아보겠습니다.

[Data Engineering] TICK Stack이란

최대 1 분 소요

 안녕하세요 마개입니다. 데이터를 효과적으로 수집하고 저장하면서 시각화까지 제공해주는 솔루션들은 여러가지가 있습니다. 기존에는 ELK(Elasticsearch + Logstash + Kibana) Stack을 이용해보았는데 이번에는 TICK Stack을 살펴보겠습니다.

[Data Engineering] InfluxDB 소개

1 분 소요

 안녕하세요 마개입니다. 기존에는 관계형 데이터베이스인 RDB만을 많이 이용하였는데 요즘에는 그 외에 다양한 NoSQL 데이터베이스도 이용을 하면서 빅데이터 시대를 준비하고 있습니다. 이 중에 시계열 데이터를 다루는 데이터베이스, 그 중에서도 가장 많이 이용하는 InfluxDB에 ...

맨 위로 이동 ↑

DevOps

[DevOps] CI/CD 툴 비교

1 분 소요

 안녕하세요 마개입니다. DevOps 분야에서 필요한 CI/CD 툴들에 대해 간단하게 정리를 하였습니다.

[Kubernetes] Docker for Mac에서 쿠버네티스 설정하기

최대 1 분 소요

 안녕하세요 마개입니다. 개인 로컬 피씨에 Kubernetes를 설치해보기 위해 작업을 진행해보겠습니다. 개인 피씨는 맥북이고 기존에 Docker Desktop을 이미 설치한 상태입니다. 이를 이용해 Kubernetes를 설정해보겠습니다.

맨 위로 이동 ↑

GCP

[BigQuery] 구글 빅쿼리 (2) - 시작하기

최대 1 분 소요

 안녕하세요 마개입니다. 이전 글에서 BigQuery에 대해 알아보았고 이번에는 BigQuery를 이용해보도록 하겠습니다. GCP에 가입하는 부분은 생략하였습니다.

[BigQuery] 구글 빅쿼리 (1) - 소개

1 분 소요

 안녕하세요 마개입니다. 구글의 빅쿼리(BigQuery)는 구글에서 제공하는 서버리스 클라우드 데이터 웨어하우스입니다. 높은 확장성과 비용 효율성을 갖추고 있다는 것이 특징인데요. 공식 홈페이지에서 제공하는 정보를 기준으로 정리해보겠습니다.

맨 위로 이동 ↑

Superset

[BI] Apache Superset 설치

1 분 소요

 안녕하세요 마개입니다. BI 툴 중 오픈소스인 Apache Superset에 대한 설치 작업을 진행해보겠습니다. 공식 홈페이지의 문서에 따라 설치를 진행하였습니다. 설치 OS 환경은 Ubuntu 20.04에서 진행했습니다.

[Data Engineering] Druid - Superset 연동하기

1 분 소요

 안녕하세요 마개입니다. 앞에서 설치한 Druid와 Superset을 연동하는 방법에 대해 알아보겠습니다. 앞에서는 virtualenv를 이용해서 Superset을 시작했었는데 중지시키고 진행합니다.

[BI] Apache Superset은..

최대 1 분 소요

 안녕하세요 마개입니다. BI 툴에는 여러 가지가 존재하는데 그 중 하나인 아파치 재단에서 제공하는 Apache Superset에 대해 알아봅니다.

맨 위로 이동 ↑

DataEngineering

[Data Engineering Roadmap] 1. 개요

2 분 소요

 안녕하세요 마개입니다.  Data Engineer가 되기 위해 Data Engineering Roadmap을 살펴보고 하나씩 공부해나가는 시간을 가져보려고 합니다.

맨 위로 이동 ↑

Java

[Java] Lombok

4 분 소요

 안녕하세요 마개입니다. Java를 이용하여 모델을 개발하는데 사용되는 Lombok에 대해 알아봅니다.

[Java] Gradle이란

5 분 소요

 안녕하세요 마개입니다. Build Tool로 많이 사용하는 Gradle에 대해 알아봅니다.

맨 위로 이동 ↑

Spark

[Apache Spark] 속성

최대 1 분 소요

 안녕하세요 마개입니다.  Apache Spark를 이용하면서 사용하던 속성을 작성합니다. 무작위로 필요할 때 쓰기 위해 기록해놓은 것입니다.

[Apache Spark] Storage Format

3 분 소요

 안녕하세요 마개입니다.  Apache Spark는 RDD부터 시작하여 DataSet, DataFrame, Parquet 등 여러 포맷을 거쳐왔는데 이번에 Apache Spark의 스토리지 포맷에 대해 정리합니다. 참고 문서를 보고 정리했습니다.

맨 위로 이동 ↑

Tool

[Git] Pull할 때의 에러

최대 1 분 소요

 안녕하세요 마개입니다.  Git을 이용하여 버전관리를 하고 있는데 Pull을 할 때의 발생하는 에러들을 모아놓습니다.

[Slack] API를 이용하여 메시지 보내기

1 분 소요

 안녕하세요 마개입니다.  개인 또는 회사에서 개발을 진행하면서 슬랙을 통해 메시지를 받고자할 때가 있습니다. 배치 프로세스가 있다면 해당 프로세스의 결과 (성공 또는 실패)를 받는다던지 특정 메트릭이 임계치를 넘을 경우 알람을 받는 등의 형태로 이용할 수 있는데 API를 이용해서...

맨 위로 이동 ↑

Hadoop

맨 위로 이동 ↑

News

맨 위로 이동 ↑

Blog

맨 위로 이동 ↑

Kafka

Apache Kafka란

2 분 소요

 안녕하세요 마개입니다. 이번 글에서는 데이터 파이프라인에 많이 이용하는 Apache Kafka에 대해 대략적으로 알아보도록 하겠습니다.

맨 위로 이동 ↑

AI

TensorFlow GPU 세팅하기

3 분 소요

 안녕하세요 마개입니다. ​이번에는 NVIDIA 그래픽카드가 달린 PC에 TensorFlow GPU를 세팅해서 사용해 보겠습니다. 업데이트 : 2023.10.09

맨 위로 이동 ↑

Tensorflow

TensorFlow GPU 세팅하기

3 분 소요

 안녕하세요 마개입니다. ​이번에는 NVIDIA 그래픽카드가 달린 PC에 TensorFlow GPU를 세팅해서 사용해 보겠습니다. 업데이트 : 2023.10.09

맨 위로 이동 ↑

Hive

[Apache Hive] 속성

1 분 소요

 안녕하세요 마개입니다.  Apache Hive를 이용하면서 사용하던 속성을 작성합니다. 무작위로 필요할 때 쓰기 위해 기록해놓은 것입니다.

맨 위로 이동 ↑

Iceberg

[Apache Iceberg] Big Data File Format

3 분 소요

 안녕하세요 마개입니다.  Apache Iceberg 테이블을 이용하게 되었는데 이 Iceberg가 무엇이고 어떤 것이 좋은지 알아봅니다.

맨 위로 이동 ↑