표지

[Python] Pandas 대용량 데이터 다루기

목차 1. 데이터 불러오기 1-1. CSV 파일 데이터를 청크 크기로 읽어오기 100만개 이상이 넘어가는 row를 가진 데이터셋을 불러온다면 너무 무거워져서 속도가 매우 느려지게 됨 pandas.read_csv에서 chunksize라는 매개변수 활용 가능 로컬 메모리에 맞추기 위해 한 번에 DataFrame으로 읽어 올 행의 수를 지정 가능 df_chunk = pd.read_csv(r’../input/data.csv’, chunksize=1000000)   1-2. 파일이 안불러와 질 때, 각 Column 타입…

Read More
표지

[파이썬, Python] enumerate() 함수 – 활용, 인덱스 1부터 시작

Python enumerate() 함수 enumerate 함수는 순서가 있는 자료형(list, set, tuple, dictionary, string)을 입력으로 받아 인덱스 값을 포함하는 enumerate 객체를 돌려줌 for문과 함께 사용하면 자료형의 현재 순서(index)와 그 값을 쉽게 알 수 있음     for문에서 enumerate 사용하기 for idx, ch in enumerate([‘가’, ‘나’, ‘다’]): print(idx, ch) # 0 가 # 1 나 # 2 다…

Read More
[Pandas] Dataframe의 행을 반복하는 방법 (iterrows, itertuples, index, loc, iloc)

[Pandas] Dataframe의 행을 반복하는 방법 (iterrows, itertuples, index, loc, iloc)

Pandas Image   * 전체 코드 import pandas as pd from pydataset import data titanic = data(‘titanic’) # titanic 데이터셋 가져오기 df = titanic.sample(5,random_state=90) #랜덤 5개만 가져오기 ## iterrows 행 반복 for index, row in df.iterrows(): print(f”{index=}, {row.age=}, {row[‘sex’]=}”) ## itertuples 행 반복 for row in df.itertuples(): print(f”{row.age=}, {row.sex=}”) ## df.index 사용 for idx in…

Read More
표지

[Python 내장 함수] enumerate() : for문 순서와 요소 값 동시에 반환받기

  더보기 ##필요 선행 지식 1. 파이썬 리스트(List) 정리 및 사용법 2. 파이썬 딕셔너리(Dictionary) 정리 및 사용법 3. 파이썬 조건문 정리 및 사용법 4. 파이썬 반복문 정리 및 사용법   1. enumerate() 함수란?   파이썬에서 반복문(for)에서 순서와 요소를 동시에 반환 받아야 하는 경우가 있다. 이때 파이썬 내장 함수인 enumerate()을 사용하여 순서와 요소 값을 동시에 반환…

Read More
[파이썬, Python] Pandas 모듈 – 3️⃣ 데이터 찾기 isin(), 결측값 알아보기 isna(), 결측값 제거하기  dropna()

[파이썬, Python] Pandas 모듈 – 3️⃣ 데이터 찾기 isin(), 결측값 알아보기 isna(), 결측값 제거하기 dropna()

이전 글에서 사용하던 csv 파일 예제로 데이터프레임을 다뤄보자. korean-idol.csv 0.00MB 더보기 https://coding-yesung.tistory.com/189   [파이썬, Python] Pandas 모듈 – 1️⃣ 판다스 모듈이란?, DataFrame&Series, CSV파일 다루기, 엑셀파일 읽어 1. 판다스(Pandas) ‘웨스 맥키니’가 개발한 라이브러리 데이터 작업을 쉽고 직관적으로 설계된 빠르고 유연한 자료구조(데이터프레임)를 제공하는 모듈 1-1. 판다스 라이브러리 설치하기 !pip install p coding-yesung.tistory.com   1. isin() 정의한 list에…

Read More
[Pandas] 파이썬 판다스 isin 함수 및 not isin 조건 사용 방법

[Pandas] 파이썬 판다스 isin 함수 및 not isin 조건 사용 방법

Python pandas isin / not isin 파이썬의 판다스 라이브러리에서 특정 목록 중에 있는 값들을 조회하고 싶은 경우 유용하게 사용할 수 있는 함수인 isin과 isin 함수의 반대 조건에 대한 사용 방법을 정리해보도록 하겠습니다.   이해를 돕기 위해서 다음과 같은 간단한 데이터프레임 df를 예시로 들어 설명하겠습니다. import pandas as pd a = {“반” : [1, 1, 2,…

Read More

pandas 속도 빠르게 하기 : 벡터 연산

pandas_팁 pandas 속도 빠르게 하기 : 벡터 연산 판다스를 쓰다 보면 속도가 중요해질 타이밍이 종종 온다. 이 블로그를 통틀어서 몇 번이나 강조하지만, 데이터를 분석하는 입장에서는 데이터를 이것 저것 수정해보면서 여러 방법으로 돌려보는 것이 굉장히 중요하다. 하지만 이럴 때마다 비효율적인 방법을 사용해서 코드 하나 실행하는 데 몇 분, 심하면 한 시간이 넘게 이나 걸린다는 것은 재앙에…

Read More
Scroll to Top