데이터분석

28. Jupyter- DataFrame

장수우 2024. 1. 8. 22:31
학습주제
  • DataFrame 활용
주요 학습 내용
  • .loc
    • 인덱스 레이블로 행 조회
    • 메소드(함수)가 아닌 속성(property)
    • .loc[]는 주로 레이블을 기반으로 행과 열에 접근하는데 사용, boolean 배열과 함께 사용도 가능하다
  • 없는경우 대처법
    • if...else...
    • try...except...
  • .duplicated() : 동명이인이 발생하는 경우
  • loc[] vs iloc[]
    • loc는 label, iloc는 index position을 사용하여 단일 행 또는 여러 행을 선택한다.
    • index(index lablel)는 문자일 수도, 숫자일 수도 있다.
    • index position은 고정이다. (파이썬의 리스트 인덱스)
    • 헷갈리지 않는다면 괜찮지만, 가능하면 index label 숫자는 피하도록 하자
    • index의 중복값이 우려된다면 그땐 index label이 정수여도 괜찮다
  • iloc를 통한 행과 열 지정하여 조회
    1. iloc[index_position] > Series
    2. iloc[[index_position]] > DataFrame
    3. iloc[[index_position1, 2, 3]] > DataFrame
    4. iloc[index_position, column_position]
    5. iloc[[index_position], column_position]
    6. iloc[[index_position], [column_position]]
    7. iloc[index_position, [column_position]]
    • 편하게 사용할 수 있는 건 iloc 같으나
    • 유의미하고 명확하게 사용하게 되는 건 loc
    • '특정 누구를 찾는다'라고 할 땐 loc이 유리
    • 정렬을 하다보면 index position은 바뀌기 마련.
    • 때문에 '특정 행에서 특정처리를 한다'는 상황은 가능한 loc을 지향
  • .isnull()
    • null 요소가 있는지 확인하는 메서드
    • NA를 발견하면 True로 반환한다.
  • .notnull()
    • .isnull()과 반대로 NA가 아닌 걸 발견하면 True로 반환한다.

  • Broadcasting이란?
    • 공간지각능력이 있으면 이해가 쉽다.
    • numpy에서 Array, Pandas에서 DataFrame또는 Series의 모양이 다른 경우에 연산이 가능하도록 모양을
      처리하는 방법
    • numpy
    • pandas
    • == 를 이용한 조건문
    • 비트연산자(Bitwise operators)를 이용한 다중 조건문
      • mask1 & mask2를 사용합시다.
      • & 는 and 연산을 한다.
      • | 는 or, ~는 not
    • 범위 지정 필터링 between
      • Series.betwwen(left, right, inclusive='both')
      • Series의 메소드
      • 주어진 범위 안에 있는 요소를 가진 불리언 시리즈를 반환하는 메소드
      • 주어진 시리즈의 각 요소가 left와 right 사이에 있는 경우에 해당하는 위치에 True를 포함하는 불리언 벡터를
        반환한다
      • NA값은 False로 처리한다.

https://pandas.pydata.org/docs/reference/api/pandas.Series.between.html

공부하면서 어려웠던 점
  • 이번도 마찬가지,, 과제를 해보면서 익혀나가야 겠다
반응형

'데이터분석' 카테고리의 다른 글

30. 문자열 제어 및 DataFrame 재구성  (0) 2024.01.09
29 Jupyter- DataFrame 심화  (0) 2024.01.08
27. Jupyter 사용  (1) 2024.01.08
26. Pandas  (1) 2024.01.04
25. 트랜잭션 및 SQL 고급 문법  (0) 2023.12.30