카테고리 없음
2024. 10. 5.
데이터 엔지니어링과 Hadoop 에코시스템
데이터 엔지니어는 데이터의 수집부터 저장, 처리, 분석에 이르는 전 과정을 설계하고 운영하는 역할을 수행특히, 대규모 데이터를 다루기 위해선 Hadoop을 비롯한 분산 처리 기술과 Python, SQL, 그리고 각종 협업 도구들에 대한 이해가 필수적해당 포스팅에선 Hadoop 에코시스템을 중심으로, 데이터 엔지니어링에 필요한 지식과 실무 적용 방안을 소개 예정입니다.1. Hadoop 에코시스템 개요HDFS(Hadoop Distributed File System)대용량 데이터를 여러 노드에 분산 저장하기 위한 파일 시스템장애 발생 시 복제본(replica)을 통해 안전하게 데이터를 보존하고, 병렬 처리를 통해 빠른 속도를 보장YARN(Yet Another Resource Negotiator)클러스터 자원을..