판다스 데이터 값 정렬 인덱스 초기화 sort_values().reset

사용한 데이터 셋

DataUrl = ‘https://raw.githubusercontent.com/Datamanim/pandas/main/lol.csv’

df.sort_values("컬럼명").reset_index(drop=True)

원하는 column 기준으로 정렬, 예시는 gameDuration이라는 컬럼 기준 으로 변경

데이터프레임.sort_values()를 사용하여 정렬

# 오름차순 정렬
df.sort_values("gameDuration")

# 내림차순 정렬
df.sort_values("gameDuration", ascending = False)

gameDuration 컬럼 기준으로 오름차순 정렬하는데(defalt) 실제 데이터프레임은 변경하지 않고 새로운 데이터프레임 반환

내림차순 정렬하고 싶다면 ascending 옵션을 False로 변경

[주의] 따로 저장하지 않으면 기존 데이터프레임 변경 없음

df.sort_values('gameDuration')
df # 기존 데이터프레임 변경되지 않음

sorted_df = df.sort_values('gameDuration') # 새로운 데이터프레임에 할당해줄 것

변경된 인덱스 확인

.index 호출하면 gameDuration 컬럼 기준으로 오름차순 정렬된 데이터프레임 순서대로 인덱스를 담고있는 Index 객체 반환

df.sort_values("gameDuration").index

gameDuration 컬럼에 중복된 값이 있는 경우 기존 인덱스 순서 유지(defalt)

새로운 index 부여

.reset_index 하면 정렬된 데이터 프레임의 기존 인덱스는 index라는 새로운 열로 저장되고, 지정한 정렬 기준으로 인덱스가 0부터 다시 부여됨

df.sort_values("gameDuration").reset_index()

.reset_index 옵션으로는 drop=True, inplace=True 가 있음

inplace=True하면 덮어쓰기 기존 데이터프레임 유지

기존 index 삭제

drop=True 옵션을 달면 기존 인덱스 정보가 담긴 index 열이 삭제

df.sort_values('gameDuration').reset_index(drop=True)

Pandas 두 날짜의 차이 계산 datetime.timedelta() (0)	2024.11.23
Pandas 이동평균 구하기 rolling().mean() (0)	2024.11.23
Pandas dt.to_period() 메서드 (0)	2024.11.23
[TIL] 넘파이 numpy reshape, flatten (0)	2024.11.11
[TIL] 부스트코스 넘파이 NumPy (1)	2024.11.11

판다스 데이터 값 정렬 인덱스 초기화 sort_values().reset_index()