본문 바로가기

pandas5

데이터 분석 고수들이 숨겨두고 쓰는 Pandas 꿀팁 BEST 5 데이터 분석 고수들이 숨겨두고 쓰는 Pandas 꿀팁 BEST 5데이터 분석을 하다 보면 read_csv나 기본적인 인덱싱 정도는 누구나 금방 익히게 됩니다. 하지만 데이터의 크기가 커지고 전처리 로직이 복잡해질수록, "어떻게 하면 더 빠르고, 읽기 쉬운 코드를 짤 수 있을까?" 라는 고민에 빠지게 됩니다.오늘은 주니어 단계를 넘어 '고수'들의 코드를 보면 공통적으로 발견되는 Pandas 핵심 꿀팁 5가지를 정리했습니다. 여러분의 코드를 한 단계 업그레이드해 보세요.1. 가독성의 끝판왕: Method Chaining (.assign 활용)분석 코드를 작성하다 보면 중간 변수(df_temp, df_filtered 등)가 무수히 생성되어 메모리를 낭비하고 흐름을 끊는 경우가 많습니다. 고수들은 Method .. 2025. 12. 9.
파이썬으로 메모리 부족(OOM) 없이 수 기가바이트(GB) 대용량 파일 처리하는 5가지 핵심 전략 "파이썬 대용량 파일처리 노하우" 데이터 엔지니어링이나 백엔드 개발을 하다 보면, 로컬 메모리(RAM) 용량을 훌쩍 넘어서는 거대한 데이터 파일을 처리해야 할 때가 반드시 옵니다. 무심코 read()나 readlines()를 호출했다가 MemoryError를 만나거나, 서버가 먹통이 되는 경험은 누구나 한 번쯤 겪어보셨을 겁니다.오늘은 파이썬에서 메모리를 효율적으로 관리하며 대용량 파일을 우아하게 처리하는 노하우 5가지를 정리해 드립니다.1. 한 번에 읽지 말고 '스트리밍' 하라 (Lazy Evaluation)가장 기초적이지만 중요한 원칙입니다. 파일 전체를 리스트로 메모리에 올리는 것은 자살행위와 같습니다. 파이썬의 파일 객체는 그 자체로 이터레이터(Iterator)입니다. 😢 나쁜 예 (전체 로드).. 2025. 12. 9.
Pandas 로 4분위수 및 4분위범위(IQR) 쉽게 구하기 Pandas 에서 4분위 수 구하는 방법은 크게 두 가지가 있다. 첫번째 quantile, 두번째 describe 이다. 1. quantile 이용 quantile 은 수치 데이터를 크기 순서로 정렬했을 때 0% ~ 100% (0 ~ 1) 위치에 해당하는 숫자를 리턴해 준다. 즉, Q1 은 25% , Q2 는 50%, Q3 는 75%, Q4 는 100% 를 파라미터로 주면 되는데, 각 퍼센트는 소수로 입력하면 된다. (Serise, DataFrame 모두가능) 예를 들면 다음과 같다. >>> import pandas as pd >>> num = pd.Series([1, 2, 3, 4, 5, 6, 7, 8, 9, 10]) >>> Q1 = num.quantile(.25) >>> Q3 = num.quantil.. 2020. 1. 17.
Pandas DataFrame 컬럼 이름 쉽게 변경 df.rename(columns={"변경전":"변경후"}, inplace=True) DataFrame 의 컬럼이름 1개를 가장 쉽게 바꾸는 방법은 위와 같다. 2019. 12. 11.
Pandas DataFrame 이나 Series 를 txt, csv, tsv 파일로 깔끔하게 저장하기 pandas DataFrame 이나 Series 를 기본 txt (csv, tsv 등) 형태 파일로 바꾸고 싶을 경우 참고 # DataFrame 이나 Serises 를 txt 파일로 깔끔하게 바꿀경우 (이건 tsv) sample.to_csv('sample_file.txt', index=False, header=None, sep="\t") 이름이 to_csv 이지 그냥 text 형태로 저장되는 것이면 이걸 사용 index = False : 자동으로 가장 왼쪽 컬럼에 생성된 0 부터 시작하는 인덱스 지울 때 header = None : 헤더 이름 지울 때 sep = "\t" : CSV 파일 기본이 comma 라서, 별도의 구분자를 두려면 변경. 예제는 탭(\t) 으로 바꿔 줌 2019. 11. 27.