데이터분석

46-(2). 통계 개념과 용어

장수우 2024. 2. 1. 20:59
학습 주제
  • 기본 개념과 용어 정의
  • 행렬 연산과 성질
  • 고유벡터와 고유값
  • 특이값 분해
  • 주성분 분석
  • 확률 이론의 기본정의
  • 확률 분포
  • 확률론적 모델링과 추론
주요 학습 내용
  • 선형대수
    • 수 들이 모여있는 개념과 관련된 식을 연구하는 수학의 한 분야
      - 수가 모여 있다 : 벡터 혹은 행렬
    •  수를 다루는 학문에서 수의 연산을 빠르고 효과적으로 하기 위해 사용하는 도구
    • 수의 집합을 기하학적인 형상으로 적용하여 표현한다
      - 시각적이고 직관적으로 수의 값을 이해
      - 기하학적으로 의미를 갖는 다양한 변환을 수학적으로 정의할 수 있다.
    • 컴퓨터 그래픽스, 엔지니어링, 물리학, 컴퓨터 과학, 머신러닝 등 다양한 분야에서 응용된다.
    • 특히 머신러닝에서는 데이터를 표현하고 변환하는데 필수적인 도구로 사용한다.
  • 수의 집합
    • 숫자 : 특정한 방향으로 줄을 서듯 모일 수 있다.
      - 방향을 보통 차원이라고 부른다.
      - 숫자들이 얼마나 모이는지에 따라 크기가 정해진다.
    • 스칼라 : 다른 숫자와 함께하지 않고 홀로 존재하는 수 = 0차원
    • 벡터 : 한쪽 방향(차원)으로만 숫자가 모인 형태 = 1차원  ex)(2, ) / (2, 1)
    • 행렬 : 두 방향으로 숫자가 줄을 선 형태 = 2차원   ex) (2, 2)
    • 텐서 : 벡터와 행렬을 일반화한 개념    ex) (3,3,3) 큐브모양이라 생각하면 편하다
      - 0 차원 텐서 = 스칼라, 1차원 = 벡터, 2차원 = 행렬
  • 데이터를 백터 혹은 행렬의 형태로 변환 가능하다
    • 사람의 정보 : [나이 : 17, 혈액형 : A, MBTI : ENTP , 키 : 170, 시험 평균 : 60]
    • [17, A, ENTP, 170, 60]의 정보들이 모여 변환가능
  • 행렬도 수의 집합이므로 연산이 가능하다
    • 행렬 뿐 아니라, 벡터 , 모든 종류의 텐서에 적용 가능하다
    • 행렬의 덧셈과 뻴셈은 같은 크기의 행렬끼리만 가능하다
      - 같은 자리에 있는 원소끼리 연산을 element-wise operation이라고 한다.
    • (1 2) + (1 2 3)   = 연산 안된다
      (3 4)    (3 4 5)
      (1 2) + (1 2) = element-wise operation
  • 행렬의 곱셈
    • 하나의 행렬의 각 행과 다른 행렬의 각 열 간의 내적을 의미한다.
      - 내적 = 벡터 간의 연산을 의미한다.
      - 두 벡터의 동일한 위치에 있는 원소를 곱한 후, 그 결과를 모두 더하는 연산 (결과는 스칼라)
      - a = [1 2 3] / b = [4 5 6]
      - a * b = 1*4 + 2*5 + 3*6 = 32
    • element-wise operationrk 아 아니므로 행렬의 크기가 달라고 연산이 가능하다.
    • 대신 앞선 행렬의 열과 뒷 행렬의 행의 크기가 같아야 한다.
  • 전치 행렬 (Transpose)
    • 하나의 행렬이 주어질 때, 행과 열을 바꾼 행렬
    • A 행렬의 크기가 m * n 이라면
    • A 행렬의 전치 행렬은 A^T 로 표기하고 크기는 n * m 이 된다.
    • 대각선 원소는 전치 과정에서 그대로 유지
    • 만약 A = A^T인 경우, A를 대칭 행렬이라고한다.
    • 곱셈의 순서도 바뀐다.
      - (AB)^T = B^T * A^T
  • 역행렬 (Inverse Matrix)
    • 특정 행렬 A에 어떤 행렬 B를 곱해보니 결과가 항등 행렬 이라면 B를 A의 역행렬이라 한다
    • 모든 행렬이 역행렬을 갖는 것은 아니다
    • A 행렬이 역행렬을 가지려면, A는 반드시 가역(또는 비특이, non-singular) 해야한다.
      - 수학적 표현 : det(A) != 0 을 만족해야한다
      - ax = 1 을 만족하는 x를 찾고자 한다면 a != 0 이 아니여야 한다.
      - '가역적' 이라는 표현은 원래 상태(I)로 돌릴 수 있음을 알아야한다.
    • (A^-1)^-1 = A
    • (AB)^-1 = B^-1 * A^-1
    • (A^T)^-1 = (A^-1)^T
  • 선형 변환 (Linear Transformation)
    • 어떤 벡터(v)는 벡터 크기 만큼의 차원 공간에 존재
    • 여기에 특정 행렬(A)를 곱해서 새로운 벡터(v')을 만들었다고 가정하면
    • v와 v'은 A 행렬에 의해 방향이 바뀐다.
    • 특정 벡터에 어떠한 행렬을 곱하면 벡터의 방향 혹은 크기가 변경된다.
    • 벡터의 방향과 크기의 변경을 선형 변환 이라고 한다.
  • 고유벡터(Eigenvector) 와 고유 값(Eigenvalue)
    • 특정 행렬 (A)의 입장에서 본다면
    • 행렬 A는 다양한 벡터를 곱할 수 있다.
       

    • Av = 람다v 인 벡터 존재 가능
    • 람다 : 임의의 상수
      - A행렬에 임의의 벡터 v 를 곱하니, 그 결과가 벡터 v의 크기를 상수 람다 배 한 벡터와 같다
    • 그런 벡터 v를 고유벡터
    • 그런 상수 람다를 고유값이라 한다.
    • 행렬 A의 고유벡터는 행렬 A의 값이 가장 많이 분산되는 방향을 나타낸다.
    • 분산이 많이 된다는 것은 많은 정보력을 갖고 있다 볼 수 있다.
    • 데이터가 담아온 행렬을 A라고 보면, 데이터가 담고 있는 여러 정보 중 가장 의미가 큰 방향이 고유 벡터가 된다..
    • 해당 방향으로 얼만큼 분산이 이루어졌는지 분산의 크기를 나타내는 정도가 고유값이다.
    • 고유 벡터와 고유값은 복수개가 가능
    • 고유값을 기준으로 나열된 고유벡터는 해석력이 큰 방향의 순서를 의미
    • 의미를 유지한 상태로 데이터를 전처리 하거나, 행렬 계싼을 간화하 하는 과정에서 사용한다.
  • 특이값 분해 (Singular Value Decomposition, SVD)
    • 소인수 분해같은 행렬에도 비슷한 과정이 있다.
      - 복잡한 행렬 A (m * n)을 더 간단한 세 가지 행렬(U, Σ, V^T) 로 분해
    • A = U * Σ * V^T
      - U의 열 벡터들은 A의 왼쪽 특이 벡터로 AA^T의 고유 벡터
      - V의 열 벡터들은 A의 오른쪽 트깅 벡터로 A^T A의 고유 벡터
      - Σ의 대각선 위의 값들로 A의 특이값
    • 위의 과정을 SVD 라고 한다
  • 고유벡터와 고유값 , SVD의 관계
    • 둘 다 특정 행렬 A에서 정보를 뽑아내는 과정이다.
    • 고유벡터와 고유값은 행렬 A가 정사각 행렬일 경우에만 사용 가능하다.
    • SVD 는 직사각 행렬 A에 대해 사용 가능하다
    • SVD가 좀 더 일반적인 경우를 나타내고
    • 고유벡터와 고유값은 SVD의 스페셜 케이스다.
  • AA^T 란?
    • A행렬의 크기가 (m * n) 이라고 할 때,
    • 정사각 행렬이 아니므로 바로 고유벡터와 고유값 분석을 할 수 없다.
    • 행렬 A에서 행과 열 방향으로 나눠 따로 
    • 행 사이의 관계를 따로 보고 열 사이의 관계를 따로 보고자 한다.
    • AA^T는 (m * n)의 크기를 가지고 있어 고유벡터와 고유값 분석이 가능하다.
    • AA^T는 원래 행렬 A의 행 사이의 관계도가 데이터의 형태로 존재하며
    • 정보력 중 분산이 크고 중요한 의미를 갖는 방향 벡터가 U 행렬 안에 정리될 것
    • A^T A도 마찬가지
    • 단 원본 행렬 A의 열 사이의 관계를 바탕으로 고유값 및 고유벡터 분석 진행한다.
  • Σ
    • AA^T 혹은 A^T A 의 고유값의 제곱근 값을 A 의 특이값이라고 함
      - AA^T 의 고유값과 A^T A 의 고유값은 서로 같음
      - Σ 행렬은 A 의 특이값을 대각선 위치에 갖고 있고
      - 대각선을 제외한 나머지 모든 값은 0 
      - 고유값 분석과 마찬가지로  행렬 A의 선형 변환에서 중요한 스케일링 정보를 포함하고 있음
  • m * n 크기를 갖는 행렬 A
    • A = U * Σ * V^T
    • U (왼쪽 특이 벡터들)
      • 크기 : m × m
      • 원본 행렬 A의 행 정보를 바탕으로 중요도를 파악
    • A (오른쪽 특이 벡터들) 
      • 크기 : n × n
      • 원본 행렬 A의 열 정보를 바탕으로 중요도를 파악
    • Σ(특이값들)
      • 크기 : m × n
      • 행렬 A 선형 변환 과정에서 영향을 미치는 스케일링 정보(특이값)를 포함

  • 확률
    • 특정한 사건이 일어날 가능성을 수치로 표현
    • 0 ~ 1사이의 값을 갖는다.
    • 일반적으로 확률(Probability)의 P를 활용해 확률을 표시
    • 어떠한 사건인지 사건을 알려주는 확률 변수(probability variable) x를 활용
    • P(x) : 확률 변수 x가 특정 값을 가질 확률
    • 만약 P(x = 3) 이라 하면 확률 변수가 특정한 값인 3을 가질 확률을 의미한다.
    • 기본적인 확률 계산
      - 합의 법칙 : 두 사건 A와 B가 서로 베타적이라면, A 또는 B 확률 : P(A) + P(B)
      - 곱의 법칙 : 두 사건 A와 B가 서로 독립일 때, A와 B가 동시에 발생할 확률 : P(A) * P(B)
      - 조건부 확률 : 사건 B가 일어난 상태에서 사건 A가 일어날 확률 : P(A|B)
  • 확률 분포
    • 확률 변수가 취할 수 있는 값들과
    • 그 값들이 발생하는 확률을 설명하는 개념
      - 이산 확률 분포(Discrete Probability Distribution)
      - 연속 확률 분포(Continuous Probability Distribution)
  • 이산 확률 분포
    • 확률 변수가 취할 수 있는 값이 개별적이고 셀 수 있는 경우
    • 확률 분포이므로 각 변수에 해당하는 확률 값의 총 합은 1
      - ex) 주사위(1~6) 에서 각 숫자가 나올 확률 1/6
  • 연속 확률 분포
    • 확률 변수가 연속적인 범위의 값(실수 범위의 값)을 취할 수 있을 때 적용
    • 확률 분포이므로 가능한 모든 확률 변수 전 구간의 적분 값은 1
    • 변수의 범위가 실수 이므로 딱 하나의 구체적인 값에 대한  확률은 
      - 정규 분포 : 평균이 0, 표준편차가 1인 정규 분포 = 표준 정규분포
  • 분포와 확률 변수
    • 확률 변수는 실험, 관찰, 또는 무작위 과정의 결과로 나타날 수 있는 수치적인 값
    • 확률 변수는 확률 분포에 영향
    • 확률 분포를 알 고있다면 확률 변수를 임의로 생성할 수 있다.
      - Sampling 과정 이라고 한다
    • 특정 분포 D를 따르는 확률 변수 X를 n개 샘플링 하면 아래와 같이 표현이 가능
      - X1, X2, ..., Xn ~ D
      ex) 동전 던지기 분포에서 하나의 데이터를 샘플링 하면 앞면이 나왔고 ,
           정규 분포에서 하나의 데이터를 샘플링 해서 나온 값은 0.02421 나왔다
  • 확률론적 모델링
    • 주어진 데이터를 확률 이론의 관점에서 해석하고 모델을 설계하는 과정을 의미한다.
      - 수학적인 모델을 통해 데이털르 분석 및 활용하는 과정
    • 데이터가 특정 확률 분포를 따른다고 가정
      - 데이터에 존재하는 불확실성(noise)을 인정하면서
    • 이 분포는 데이터의 특성을 분석하거나 미래의 사건에 대한 예측에 활용된다.
  • 모델의 예측과 데이터
    • 머신 러닝 모델의 출력은 확률론적 관점에서 예측된 결과물
    • 따라서 실제 결과물과 차이가 있을 수 있다.
    • 일반적으로
      - 모델의 예측 = y hat
      - 시렞 정답 = y
    • 사용하는 입력 데이터 X
    • X와 y를 포함해 일반적으로 전체 학습 데이터라고 한다.
공부하면서 어려웠던 점
  • -
반응형

'데이터분석' 카테고리의 다른 글

47-(2). 선형 회귀  (0) 2024.02.02
47-(1). 지도학습과 대표 알고리즘  (0) 2024.02.02
46-(1). Colab, ML 기초와 배경  (0) 2024.02.01
45. Tableau  (2) 2024.01.31
44. 다양한 시각화 툴  (1) 2024.01.30