[빅분기] 데이터 전처리 정리

롤 랭킹 데이터 : https://www.kaggle.com/datasnaek/league-of-legendsDataUrl = ‘https://raw.githubusercontent.com/Datamanim/pandas/main/lol.csv’

 

데이터 로드하기 pandas.read_csv()

pandas.read_csv("csv 파일명 or 경로")

import pandas as pd

df = pd.read_csv("https://raw.githubusercontent.com/Datamanim/pandas/main/lol.csv")

 

로드한 df 파일을 확인해보면 뭔가 이상하다.

\를 기준으로 구별이 필요하다.

 

.read_csv 옵션에서 sep='\t'를 추가하여 로드해주기

df = pd.read_csv("https://raw.githubusercontent.com/Datamanim/pandas/main/lol.csv", sep="\t")

 

데이터 상위 5개, 하위 5개 행 출력 df.head(), df.tail()

df.head(), df.tail() ()안에 숫자는 변경 가능, defalt는 5.

# 상위 5개 행
df.head(5)

# 하위 5개 행
df.tail(5)

 

데이터의 행과 열의 개수 확인 df.shape

df.shape # (51490, 61)

 

df.shape를 이용해서 행과 열의 개수를 각각 확인 할 수 있다.

# 행 개수 확인
df.shape[0] # 51490

# 열 개수 확인
df.shape[1] # 61

 

전체 컬럼 출력하기 df.columns

df.columns

print(df.columns)

print 함수로 출력하면 좀 더 깔끔하게 확인 할 수 있다. 출력 결과를 확인하면 리스트로 묶여있는 걸 확인 할 수 있는데 인덱싱을 사용해서 n원하는 인덱스의 특정 컬럼명을 불러올 수 있다.

df.columns[0] # gameId

 

데이터 타입 확인하기 df.info(), .dtpye

# Series 
df['열이름'].dtype

# DataFrame 
df.info()

 

Series가 여러개 모이면 DataFrame이 된다.

# Series
df['열이름']

# Dataframe
df[['열이름']]

데이터셋의 인덱스 구성 df.index

df.index # RangeIndex(start=0, stop=51490, step=1)

 

데이터 셋의 인덱스 구성은 변경이 가능하다.