학습주제
- DataFrame 활용
주요 학습 내용
- .loc
- 인덱스 레이블로 행 조회
- 메소드(함수)가 아닌 속성(property)
- .loc[]는 주로 레이블을 기반으로 행과 열에 접근하는데 사용, boolean 배열과 함께 사용도 가능하다
- 없는경우 대처법
- if...else...
- try...except...
- if...else...
- .duplicated() : 동명이인이 발생하는 경우
- loc[] vs iloc[]
- loc는 label, iloc는 index position을 사용하여 단일 행 또는 여러 행을 선택한다.
- index(index lablel)는 문자일 수도, 숫자일 수도 있다.
- index position은 고정이다. (파이썬의 리스트 인덱스)
- 헷갈리지 않는다면 괜찮지만, 가능하면 index label 숫자는 피하도록 하자
- index의 중복값이 우려된다면 그땐 index label이 정수여도 괜찮다
- iloc를 통한 행과 열 지정하여 조회
- iloc[index_position] > Series
- iloc[[index_position]] > DataFrame
- iloc[[index_position1, 2, 3]] > DataFrame
- iloc[index_position, column_position]
- iloc[[index_position], column_position]
- iloc[[index_position], [column_position]]
- iloc[index_position, [column_position]]
- 편하게 사용할 수 있는 건 iloc 같으나
- 유의미하고 명확하게 사용하게 되는 건 loc
- '특정 누구를 찾는다'라고 할 땐 loc이 유리
- 정렬을 하다보면 index position은 바뀌기 마련.
- 때문에 '특정 행에서 특정처리를 한다'는 상황은 가능한 loc을 지향
- .isnull()
- null 요소가 있는지 확인하는 메서드
- NA를 발견하면 True로 반환한다.
- .notnull()
- .isnull()과 반대로 NA가 아닌 걸 발견하면 True로 반환한다.
- Broadcasting이란?
- 공간지각능력이 있으면 이해가 쉽다.
- numpy에서 Array, Pandas에서 DataFrame또는 Series의 모양이 다른 경우에 연산이 가능하도록 모양을
처리하는 방법 - numpy
- pandas
- == 를 이용한 조건문
- 비트연산자(Bitwise operators)를 이용한 다중 조건문
- mask1 & mask2를 사용합시다.
- & 는 and 연산을 한다.
- | 는 or, ~는 not
- 범위 지정 필터링 between
- Series.betwwen(left, right, inclusive='both')
- Series의 메소드
- 주어진 범위 안에 있는 요소를 가진 불리언 시리즈를 반환하는 메소드
- 주어진 시리즈의 각 요소가 left와 right 사이에 있는 경우에 해당하는 위치에 True를 포함하는 불리언 벡터를
반환한다 - NA값은 False로 처리한다.
- Series.betwwen(left, right, inclusive='both')
https://pandas.pydata.org/docs/reference/api/pandas.Series.between.html
공부하면서 어려웠던 점
- 이번도 마찬가지,, 과제를 해보면서 익혀나가야 겠다
반응형
'데이터분석' 카테고리의 다른 글
30. 문자열 제어 및 DataFrame 재구성 (0) | 2024.01.09 |
---|---|
29 Jupyter- DataFrame 심화 (0) | 2024.01.08 |
27. Jupyter 사용 (1) | 2024.01.08 |
26. Pandas (1) | 2024.01.04 |
25. 트랜잭션 및 SQL 고급 문법 (0) | 2023.12.30 |