데이터분석

30. 문자열 제어 및 DataFrame 재구성

장수우 2024. 1. 9. 23:03
학습주제
  • 문자열 제어
  • DataFrame 재구성
  • DtatFrame 결합과 병합
  • 시계열 제어
주요 학습 내용
  • .str
    • 문자열 메소드를 실행할 때는, .str이 먼저 나온다고 생각하자
    • Series와 Index에 대한 벡터화된 문자열 함수이다.
    • 반복문을 사용하지 않고도 간단하게 문자열 데이터를 처리할 수 있다.
    • 특정한 메서드에서 다르게 처리하지않는 한 NA 값은 NA 상태로 유지된다.
  • .str.upper(), .str.lower()
    • 대문자, 소문자 변경
  • .str.contains(pat)
    • Series.str.contains(pat, case=True, flags=0, na=None, regex=True)
    • 문자열 Series 또는 Index에서 주어진 패턴 또는 정규식이 포함되어 있는지 확인한다.
    • 주어진 문자열이나 정규식이 다수의 문자열 요소에 대해 포함 여부를 효과적으로 확인한다.
  • .str.startswith(), .str.endswith()
    • 시작이나 끝에 () 포함하는 단어 검색하는 기능
  • .str.replace() : 문자 변경

  • .transpose()
    • 전치행렬 : 행과 열을 교환하여 얻는 행렬, 주대각선을 축으로 반사 대칭을 한다.
    • 행과 열을 반전시키면 된다.
    • 1 3 5                1 2
      2 4 6         =>   3 4         ( 1, 4 위치 대각 고정후 반전)
                              5 6
    • 줄여서 .T로 사용가능하다
    • 전치행렬 2번 != 원본
    • 전치 2번했더니 모든 열의 dtype이 object로 변경되었다. 열의 데이터 타입을 일치 시켜야하기에 문자열로 변환
      -> 모든 데이터 웬만하면 문자열로 가능하기 때문이다.
  • .stack()
    • 데이터프레임의 구조를 재조정하는데 유용하다
    • columns에 다중 인덱스가 있는 데이터프레임에서 사용하면 컬럼 인덱스가 로우 인덱스 레벨로 이동한다.
    • 컬럼을 로우로 "압축"하는 작업을 수행한다.
  • melt()
    • 넓은 형식으로 구성된 데이터프레임을 긴 형식으로 변환하여 데이터를 재구성
    • 함수를 사용하면 하나 이상의 열을 식별자 변수(id_vars)로 설정하고, 나머지 열인 측정 변수(value_vars)를
      행 방향으로 언피벗하여 두 개의 비식벼랒열인 varialbe과 value만 남게되는 형태로 데이터 프레임을 변환.


 

 

공부하면서 어려웠던 점
  • 이렇게 기본적인 속성, 메소드와 jupyter_note북 사용법을 배웠는데 차차 프로젝트 하면서 익혀가야할 것 같다. 
반응형

'데이터분석' 카테고리의 다른 글

32-(1). 확률과 통계  (2) 2024.01.14
31. 정규화, 데이터 스케일링  (2) 2024.01.10
29 Jupyter- DataFrame 심화  (0) 2024.01.08
28. Jupyter- DataFrame  (0) 2024.01.08
27. Jupyter 사용  (1) 2024.01.08