46-(2). 통계 개념과 용어

데이터분석

46-(2). 통계 개념과 용어

장수우 2024. 2. 1. 20:59

학습 주제

기본 개념과 용어 정의
행렬 연산과 성질
고유벡터와 고유값
특이값 분해
주성분 분석
확률 이론의 기본정의
확률 분포
확률론적 모델링과 추론

주요 학습 내용

선형대수
- 수 들이 모여있는 개념과 관련된 식을 연구하는 수학의 한 분야
  - 수가 모여 있다 : 벡터 혹은 행렬
- 수를 다루는 학문에서 수의 연산을 빠르고 효과적으로 하기 위해 사용하는 도구
- 수의 집합을 기하학적인 형상으로 적용하여 표현한다
  - 시각적이고 직관적으로 수의 값을 이해
  - 기하학적으로 의미를 갖는 다양한 변환을 수학적으로 정의할 수 있다.
- 컴퓨터 그래픽스, 엔지니어링, 물리학, 컴퓨터 과학, 머신러닝 등 다양한 분야에서 응용된다.
- 특히 머신러닝에서는 데이터를 표현하고 변환하는데 필수적인 도구로 사용한다.
수의 집합
- 숫자 : 특정한 방향으로 줄을 서듯 모일 수 있다.
  - 방향을 보통 차원이라고 부른다.
  - 숫자들이 얼마나 모이는지에 따라 크기가 정해진다.
- 스칼라 : 다른 숫자와 함께하지 않고 홀로 존재하는 수 = 0차원
- 벡터 : 한쪽 방향(차원)으로만 숫자가 모인 형태 = 1차원 ex)(2, ) / (2, 1)
- 행렬 : 두 방향으로 숫자가 줄을 선 형태 = 2차원 ex) (2, 2)
- 텐서 : 벡터와 행렬을 일반화한 개념 ex) (3,3,3) 큐브모양이라 생각하면 편하다
  - 0 차원 텐서 = 스칼라, 1차원 = 벡터, 2차원 = 행렬
데이터를 백터 혹은 행렬의 형태로 변환 가능하다
- 사람의 정보 : [나이 : 17, 혈액형 : A, MBTI : ENTP , 키 : 170, 시험 평균 : 60]
- [17, A, ENTP, 170, 60]의 정보들이 모여 변환가능
행렬도 수의 집합이므로 연산이 가능하다
- 행렬 뿐 아니라, 벡터 , 모든 종류의 텐서에 적용 가능하다
- 행렬의 덧셈과 뻴셈은 같은 크기의 행렬끼리만 가능하다
  - 같은 자리에 있는 원소끼리 연산을 element-wise operation이라고 한다.
- (1 2) + (1 2 3) = 연산 안된다
  (3 4) (3 4 5)
  (1 2) + (1 2) = element-wise operation
행렬의 곱셈
- 하나의 행렬의 각 행과 다른 행렬의 각 열 간의 내적을 의미한다.
  - 내적 = 벡터 간의 연산을 의미한다.
  - 두 벡터의 동일한 위치에 있는 원소를 곱한 후, 그 결과를 모두 더하는 연산 (결과는 스칼라)
  - a = [1 2 3] / b = [4 5 6]
  - a * b = 1*4 + 2*5 + 3*6 = 32
- element-wise operationrk 아 아니므로 행렬의 크기가 달라고 연산이 가능하다.
- 대신 앞선 행렬의 열과 뒷 행렬의 행의 크기가 같아야 한다.
전치 행렬 (Transpose)
- 하나의 행렬이 주어질 때, 행과 열을 바꾼 행렬
- A 행렬의 크기가 m * n 이라면
- A 행렬의 전치 행렬은 A^T 로 표기하고 크기는 n * m 이 된다.
- 대각선 원소는 전치 과정에서 그대로 유지
- 만약 A = A^T인 경우, A를 대칭 행렬이라고한다.
- 곱셈의 순서도 바뀐다.
  - (AB)^T = B^T * A^T
역행렬 (Inverse Matrix)
- 특정 행렬 A에 어떤 행렬 B를 곱해보니 결과가 항등 행렬 이라면 B를 A의 역행렬이라 한다
- 모든 행렬이 역행렬을 갖는 것은 아니다
- A 행렬이 역행렬을 가지려면, A는 반드시 가역(또는 비특이, non-singular) 해야한다.
  - 수학적 표현 : det(A) != 0 을 만족해야한다
  - ax = 1 을 만족하는 x를 찾고자 한다면 a != 0 이 아니여야 한다.
  - '가역적' 이라는 표현은 원래 상태(I)로 돌릴 수 있음을 알아야한다.
- (A^-1)^-1 = A
- (AB)^-1 = B^-1 * A^-1
- (A^T)^-1 = (A^-1)^T
선형 변환 (Linear Transformation)
- 어떤 벡터(v)는 벡터 크기 만큼의 차원 공간에 존재
- 여기에 특정 행렬(A)를 곱해서 새로운 벡터(v')을 만들었다고 가정하면
- v와 v'은 A 행렬에 의해 방향이 바뀐다.
- 특정 벡터에 어떠한 행렬을 곱하면 벡터의 방향 혹은 크기가 변경된다.
- 벡터의 방향과 크기의 변경을 선형 변환 이라고 한다.
고유벡터(Eigenvector) 와 고유 값(Eigenvalue)
- 특정 행렬 (A)의 입장에서 본다면
- 행렬 A는 다양한 벡터를 곱할 수 있다.
- Av = 람다v 인 벡터 존재 가능
- 람다 : 임의의 상수
  - A행렬에 임의의 벡터 v 를 곱하니, 그 결과가 벡터 v의 크기를 상수 람다 배 한 벡터와 같다
- 그런 벡터 v를 고유벡터
- 그런 상수 람다를 고유값이라 한다.
- 행렬 A의 고유벡터는 행렬 A의 값이 가장 많이 분산되는 방향을 나타낸다.
- 분산이 많이 된다는 것은 많은 정보력을 갖고 있다 볼 수 있다.
- 데이터가 담아온 행렬을 A라고 보면, 데이터가 담고 있는 여러 정보 중 가장 의미가 큰 방향이 고유 벡터가 된다..
- 해당 방향으로 얼만큼 분산이 이루어졌는지 분산의 크기를 나타내는 정도가 고유값이다.
- 고유 벡터와 고유값은 복수개가 가능
- 고유값을 기준으로 나열된 고유벡터는 해석력이 큰 방향의 순서를 의미
- 의미를 유지한 상태로 데이터를 전처리 하거나, 행렬 계싼을 간화하 하는 과정에서 사용한다.
특이값 분해 (Singular Value Decomposition, SVD)
- 소인수 분해같은 행렬에도 비슷한 과정이 있다.
  - 복잡한 행렬 A (m * n)을 더 간단한 세 가지 행렬(U, Σ, V^T) 로 분해
- A = U * Σ * V^T
  - U의 열 벡터들은 A의 왼쪽 특이 벡터로 AA^T의 고유 벡터
  - V의 열 벡터들은 A의 오른쪽 트깅 벡터로 A^T A의 고유 벡터
  - Σ의 대각선 위의 값들로 A의 특이값
- 위의 과정을 SVD 라고 한다
고유벡터와 고유값 , SVD의 관계
- 둘 다 특정 행렬 A에서 정보를 뽑아내는 과정이다.
- 고유벡터와 고유값은 행렬 A가 정사각 행렬일 경우에만 사용 가능하다.
- SVD 는 직사각 행렬 A에 대해 사용 가능하다
- SVD가 좀 더 일반적인 경우를 나타내고
- 고유벡터와 고유값은 SVD의 스페셜 케이스다.
AA^T 란?
- A행렬의 크기가 (m * n) 이라고 할 때,
- 정사각 행렬이 아니므로 바로 고유벡터와 고유값 분석을 할 수 없다.
- 행렬 A에서 행과 열 방향으로 나눠 따로
- 행 사이의 관계를 따로 보고 열 사이의 관계를 따로 보고자 한다.
- AA^T는 (m * n)의 크기를 가지고 있어 고유벡터와 고유값 분석이 가능하다.
- AA^T는 원래 행렬 A의 행 사이의 관계도가 데이터의 형태로 존재하며
- 정보력 중 분산이 크고 중요한 의미를 갖는 방향 벡터가 U 행렬 안에 정리될 것
- A^T A도 마찬가지
- 단 원본 행렬 A의 열 사이의 관계를 바탕으로 고유값 및 고유벡터 분석 진행한다.
Σ
- AA^T 혹은 A^T A 의 고유값의 제곱근 값을 A 의 특이값이라고 함
  - AA^T 의 고유값과 A^T A 의 고유값은 서로 같음
  - Σ 행렬은 A 의 특이값을 대각선 위치에 갖고 있고
  - 대각선을 제외한 나머지 모든 값은 0
  - 고유값 분석과 마찬가지로 행렬 A의 선형 변환에서 중요한 스케일링 정보를 포함하고 있음
m * n 크기를 갖는 행렬 A
- A = U * Σ * V^T
- U (왼쪽 특이 벡터들)
  • 크기 : m × m
  • 원본 행렬 A의 행 정보를 바탕으로 중요도를 파악
- A (오른쪽 특이 벡터들)
  • 크기 : n × n
  • 원본 행렬 A의 열 정보를 바탕으로 중요도를 파악
- Σ(특이값들)
  • 크기 : m × n
  • 행렬 A 선형 변환 과정에서 영향을 미치는 스케일링 정보(특이값)를 포함

확률
- 특정한 사건이 일어날 가능성을 수치로 표현
- 0 ~ 1사이의 값을 갖는다.
- 일반적으로 확률(Probability)의 P를 활용해 확률을 표시
- 어떠한 사건인지 사건을 알려주는 확률 변수(probability variable) x를 활용
- P(x) : 확률 변수 x가 특정 값을 가질 확률
- 만약 P(x = 3) 이라 하면 확률 변수가 특정한 값인 3을 가질 확률을 의미한다.
- 기본적인 확률 계산
  - 합의 법칙 : 두 사건 A와 B가 서로 베타적이라면, A 또는 B 확률 : P(A) + P(B)
  - 곱의 법칙 : 두 사건 A와 B가 서로 독립일 때, A와 B가 동시에 발생할 확률 : P(A) * P(B)
  - 조건부 확률 : 사건 B가 일어난 상태에서 사건 A가 일어날 확률 : P(A|B)
확률 분포
- 확률 변수가 취할 수 있는 값들과
- 그 값들이 발생하는 확률을 설명하는 개념
  - 이산 확률 분포(Discrete Probability Distribution)
  - 연속 확률 분포(Continuous Probability Distribution)
이산 확률 분포
- 확률 변수가 취할 수 있는 값이 개별적이고 셀 수 있는 경우
- 확률 분포이므로 각 변수에 해당하는 확률 값의 총 합은 1
  - ex) 주사위(1~6) 에서 각 숫자가 나올 확률 1/6
연속 확률 분포
- 확률 변수가 연속적인 범위의 값(실수 범위의 값)을 취할 수 있을 때 적용
- 확률 분포이므로 가능한 모든 확률 변수 전 구간의 적분 값은 1
- 변수의 범위가 실수 이므로 딱 하나의 구체적인 값에 대한 확률은
  - 정규 분포 : 평균이 0, 표준편차가 1인 정규 분포 = 표준 정규분포
분포와 확률 변수
- 확률 변수는 실험, 관찰, 또는 무작위 과정의 결과로 나타날 수 있는 수치적인 값
- 확률 변수는 확률 분포에 영향
- 확률 분포를 알 고있다면 확률 변수를 임의로 생성할 수 있다.
  - Sampling 과정 이라고 한다
- 특정 분포 D를 따르는 확률 변수 X를 n개 샘플링 하면 아래와 같이 표현이 가능
  - X1, X2, ..., Xn ~ D
  ex) 동전 던지기 분포에서 하나의 데이터를 샘플링 하면 앞면이 나왔고 ,
  정규 분포에서 하나의 데이터를 샘플링 해서 나온 값은 0.02421 나왔다
확률론적 모델링
- 주어진 데이터를 확률 이론의 관점에서 해석하고 모델을 설계하는 과정을 의미한다.
  - 수학적인 모델을 통해 데이털르 분석 및 활용하는 과정
- 데이터가 특정 확률 분포를 따른다고 가정
  - 데이터에 존재하는 불확실성(noise)을 인정하면서
- 이 분포는 데이터의 특성을 분석하거나 미래의 사건에 대한 예측에 활용된다.
모델의 예측과 데이터
- 머신 러닝 모델의 출력은 확률론적 관점에서 예측된 결과물
- 따라서 실제 결과물과 차이가 있을 수 있다.
- 일반적으로
  - 모델의 예측 = y hat
  - 시렞 정답 = y
- 사용하는 입력 데이터 X
- X와 y를 포함해 일반적으로 전체 학습 데이터라고 한다.

공부하면서 어려웠던 점

'데이터분석' 카테고리의 다른 글

47-(2). 선형 회귀 (0)	2024.02.02
47-(1). 지도학습과 대표 알고리즘 (0)	2024.02.02
46-(1). Colab, ML 기초와 배경 (0)	2024.02.01
45. Tableau (2)	2024.01.31
44. 다양한 시각화 툴 (1)	2024.01.30

현재글46-(2). 통계 개념과 용어

Soo 배움일지

데브코스, 유데미 러닝크루, kaggle, Tableau, Jupyter_notebook, 유데미 코리아, 유데미 스터디, 머신러닝, matplotlib, 데이터분석, 게임 bm, 오블완, SQL, use_case, 마케팅, 시각화, 티스토리챌린지, 앙상블분석, A/B Test, GPT,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Soo 배움일지

46-(2). 통계 개념과 용어

'데이터분석' 카테고리의 다른 글

'데이터분석'의 다른글

티스토리툴바

46-(2). 통계 개념과 용어

'데이터분석' 카테고리의 다른 글

'데이터분석'의 다른글

관련글

티스토리툴바