Data Engineering
2024. 1. 14.
Apache Hive 정리
Hadoop 위에 구축된 데이터 웨어하우스 시스템 Hadoop의 HDFS에 저장된 대규모 데이터 집합의 요약, 쿼리 및 분석을 단순화함 HiveQL이라 불리는 SQL과 유사한 인터페이스를 제공, HDFS, Apache HBase, Amazon S3와 같은 Hadoop과 통합된 다양한 DB와 파일 시스템에 저장된 데이터 쿼리 가능 Hive는 명령줄 인터페이스 (CLI), Beeline (JDBC 클라이언트) 또는 Thrift API를 사용하는 응용 프로그램을 통해 쿼리를 실행 가능 HiveQL을 MapReduce, TEZ 등의 작업으로 변환하여 실행 역사 SQL을 Hadoop에서 사용하기 위한 프로젝트로 2010년에 시작됨 Hadoop의 MapReduce를 Java로 표현하기보다는 익숙한 SQL로써 데이터..