Differences
This shows you the differences between two versions of the page.
Next revision | Previous revision | ||
data_analysis:data_engineering [2020/01/14 02:16] – created prgram | data_analysis:data_engineering [2025/07/07 14:12] (current) – external edit 127.0.0.1 | ||
---|---|---|---|
Line 3: | Line 3: | ||
{{tag> | {{tag> | ||
- | ==== | + | ==== SQL on Hadoop ==== |
- | [[http:// | + | [[http:// |
폴트톨러런스 | 폴트톨러런스 | ||
Line 30: | Line 30: | ||
처리 속도는 논쟁이 많은 부분이다. 각 오픈소스를 주도하는 단체 혹은 업체에서 각자의 장점을 부각하는 테스트를 많이 하기 때문이다. 또한 설정 방법이나 쿼리 종류에 따라서도 결과가 다르게 나오기 때문에 명확히 어떤 것이 좋다고 말하기는 어렵다. 물론 TPC 벤치마크와 같이 어느 정도 공인된 테스트 방법이 있지만, 이것 또한 명확히 판단하기에는 무리가 있다. 아래와 같이 테스트 환경이나 방법, 버전 등이 조금씩 다르고 성능 측정 결과도 다르게 나타난 공개 자료를 볼 수 있다. | 처리 속도는 논쟁이 많은 부분이다. 각 오픈소스를 주도하는 단체 혹은 업체에서 각자의 장점을 부각하는 테스트를 많이 하기 때문이다. 또한 설정 방법이나 쿼리 종류에 따라서도 결과가 다르게 나오기 때문에 명확히 어떤 것이 좋다고 말하기는 어렵다. 물론 TPC 벤치마크와 같이 어느 정도 공인된 테스트 방법이 있지만, 이것 또한 명확히 판단하기에는 무리가 있다. 아래와 같이 테스트 환경이나 방법, 버전 등이 조금씩 다르고 성능 측정 결과도 다르게 나타난 공개 자료를 볼 수 있다. | ||
+ | [[https:// | ||
+ | |||
+ | Long Time Query 지원 여부는 해당 시스템이 데이터 웨어하우스 인프라스트럭처(Data Warehouse Infrastructure)에 적합한 시스템인지, | ||
+ | |||
+ | **Data Warehouse Infrastructure** | ||
+ | |||
+ | 수 시간 이상 걸리는 쿼리 수행 가능\\ | ||
+ | ETL 작업: 데이터 변환 및 노이즈 제거, 파티셔닝\\ | ||
+ | 다수 데이터 소스에 대한 통합\\ | ||
+ | 애드혹 질의(Ad-hoc Query)\\ | ||
+ | 타조(Tajo), | ||
+ | |||
+ | **Distributed Query Engine ** | ||
+ | |||
+ | 수 초에서 수 분 까지 걸리는 쿼리를 수행하는 데 최적화\\ | ||
+ | 빠른 응답을 가지는 애드혹 질의\\ | ||
+ | 중간 데이터 크기와 지원에 따라 질의가 다소 제약됨\\ | ||
+ | 임팔라(Impala), | ||
+ | |||
+ | \\ | ||
~~DISCUSSION~~ | ~~DISCUSSION~~ | ||