데이터분석
29 Jupyter- DataFrame 심화
장수우
2024. 1. 8. 23:17
학습주제
- DataFrame - 심화
주요 학습 내용
- .apply(func)의 여러 열 데이터 활용하기
- .apply(lambda_func)
Income을 달러 -> 원화로 변경 - .astype(dtype)로 형변환
- NA는 형변환이 불가하다
- int64는 64비트를 표현 가능한 범위를 사용
- int 8은 8비트로 표현 가능한 범위를 사용
- .replace()
- .where()
- 조건에 맞는 데이터가 아니면 NA를 반환한다.
- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.where.html
- https://pandas.pydata.org/docs/reference/api/pandas.Series.where.html
이런식으로 은닉도 가능하다
- .agg()
- 지정된, 즉(axis)을 기준으로 하나 이상의 연산을 사용하여 데이터를 집계(aggregate)하는 기능을 제공한다.
- 주의 : agg()는 numeric_only=True가 안된다.
- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.agg.html
- https://pandas.pydata.org/docs/reference/api/pandas.Series.agg.html
- 지정된, 즉(axis)을 기준으로 하나 이상의 연산을 사용하여 데이터를 집계(aggregate)하는 기능을 제공한다.
- copy() : 데이터프레임 / 시리즈의 복제
값은 같아도 주소는 다르다 - 멀티인덱스 / 멀티인덱싱
- 하나 이상의 인덱스 레벨을 가지는 인덱스 구조
- 데이터프레임이나 시리즈의 다차원적인 인덱싱을 지원하기 위해 사용한다.
- 멀티인덱스로 인해 데이터를 계층적(hierarchical)으로 조직화
- 다양한 차원에(Multi-level서 데이터에 접근 가능
- 멀티인덱스 생성은 데이터프레임 또는 시리즈를 생성할 때 인덱스를 array같은 형태로 지정
- 방법 1
- 방법 2
- .get_level_values(level)
- 멀티인덱스를 활용해 조회하기
- 특정 여러 row 조회
- 뒤에 : 를 생략하면 에러가 나옵니다
- 뒤에 : 를 생략하면 에러가 나옵니다
공부하면서 어려웠던 점
- 직접 활용하기 까진 많은 연습이 필요할것 같다 ㅎㅎ
반응형