Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
data_analysis:data_engineering [2020/01/14 02:16] – created prgramdata_analysis:data_engineering [2025/07/07 14:12] (current) – external edit 127.0.0.1
Line 3: Line 3:
 {{tag>data_analysis data 빅데이터 hadoop 하둡 기술 엔지니어링 engineering}} {{tag>data_analysis data 빅데이터 hadoop 하둡 기술 엔지니어링 engineering}}
  
-====   SQL on Hadoop   ====+==== SQL on Hadoop ====
  
- [[http://www.dbguide.net/db.db?cmd=view&boardUid=187343&boardConfigUid=9&categoryUid=216&boardIdx=159&boardStep=1|http://www.dbguide.net/db.db?cmd=view&boardUid=187343&boardConfigUid=9&categoryUid=216&boardIdx=159&boardStep=1]]+[[http://www.dbguide.net/db.db?cmd=view&boardUid=187343&boardConfigUid=9&categoryUid=216&boardIdx=159&boardStep=1|http://www.dbguide.net/db.db?cmd=view&boardUid=187343&boardConfigUid=9&categoryUid=216&boardIdx=159&boardStep=1]]
  
 폴트톨러런스 폴트톨러런스
Line 30: Line 30:
 처리 속도는 논쟁이 많은 부분이다. 각 오픈소스를 주도하는 단체 혹은 업체에서 각자의 장점을 부각하는 테스트를 많이 하기 때문이다. 또한 설정 방법이나 쿼리 종류에 따라서도 결과가 다르게 나오기 때문에 명확히 어떤 것이 좋다고 말하기는 어렵다. 물론 TPC 벤치마크와 같이 어느 정도 공인된 테스트 방법이 있지만, 이것 또한 명확히 판단하기에는 무리가 있다. 아래와 같이 테스트 환경이나 방법, 버전 등이 조금씩 다르고 성능 측정 결과도 다르게 나타난 공개 자료를 볼 수 있다. 처리 속도는 논쟁이 많은 부분이다. 각 오픈소스를 주도하는 단체 혹은 업체에서 각자의 장점을 부각하는 테스트를 많이 하기 때문이다. 또한 설정 방법이나 쿼리 종류에 따라서도 결과가 다르게 나오기 때문에 명확히 어떤 것이 좋다고 말하기는 어렵다. 물론 TPC 벤치마크와 같이 어느 정도 공인된 테스트 방법이 있지만, 이것 또한 명확히 판단하기에는 무리가 있다. 아래와 같이 테스트 환경이나 방법, 버전 등이 조금씩 다르고 성능 측정 결과도 다르게 나타난 공개 자료를 볼 수 있다.
  
 +[[https://excelsior-cjh.tistory.com/59|https://excelsior-cjh.tistory.com/59]]
 +
 +Long Time Query 지원 여부는 해당 시스템이 데이터 웨어하우스 인프라스트럭처(Data Warehouse Infrastructure)에 적합한 시스템인지, 아니면 빠른 쿼리만을 처리하기 위한 분산 쿼리 엔진(Distributed Query Engine)인지를 결정한다.
 +
 +**Data Warehouse Infrastructure**
 +
 +수 시간 이상 걸리는 쿼리 수행 가능\\
 +ETL 작업: 데이터 변환 및 노이즈 제거, 파티셔닝\\
 +다수 데이터 소스에 대한 통합\\
 +애드혹 질의(Ad-hoc Query)\\
 +타조(Tajo), 하이브(Hive)
 +
 +**Distributed Query Engine **
 +
 +수 초에서 수 분 까지 걸리는 쿼리를 수행하는 데 최적화\\
 +빠른 응답을 가지는 애드혹 질의\\
 +중간 데이터 크기와 지원에 따라 질의가 다소 제약됨\\
 +임팔라(Impala), 프레스토(Presto)
 +
 +\\
 ~~DISCUSSION~~ ~~DISCUSSION~~
  
  
  • data_analysis/data_engineering.1578968160.txt.gz
  • Last modified: 2025/07/07 14:12
  • (external edit)