주말과제 (Parquet & Downcast)
2023. 2. 9. 15:45
과제 한 김에 TIL도 작성 0307 (parquet) Parquet ❓ ✅ fastparquet와 pyarrow를 설치 ✅ 파일을 저장할 때 쓰이는 포맷의 종류( excel, csv, xml등등 ) ✅ 복잡한 데이터를 대량으로 처리 & 향상된 성능 & 효율적인 데이터 압축 및 인코딩 체계 제공 ✅ Java, C++, Python 등을 포함한 여러 언어를 지원 Parquet의 강점❓ ✅ 열 단위 압축은 효율적이고 저장 공간을 절약합니다. ✅ 열 값이 동일한 데이터 타입이기 때문에 압축에 유리 ✅ 특정 열 값을 가져오는 쿼리는 전체 행 데이터를 읽을 필요가 없으므로 성능이 향상 ✅ 저장방식 snappy & gzip => gzip이 압축퍼포먼스 좋음 ✅ 데이터가 커지면 커질수록 parquet 사용하면 유리!..