Impala 성능개선 포인트
- Partitioned 테이블의 경우, 파티션 조건 설정
- 통계 정보 생성
- Non-Partitioned 경우
COMPUTE STATS [TABLE];
- Partitioned 경우
COMPUTE INCREMENTAL STATS [TABLE] PARTITION(파티션정보);
- Not in 대신 EXISTS 사용 : Exists 는 T/F만 Return
- like, or 은 CPU 리소스를 많이 사용
- Join 시 큰테이블부터 작은 테이블 순으로 : 뒤에 오는 테이블이 메모리에 올라감
A Left outer join B --대신 B Right outer join A
- 불필요한 order by 사용 X
Discussion