통계 8

[통계] 코퓰라 함수(Copula Function)(3) - 시뮬레이션

코퓰라 함수에서는 여러 변수들을 유니폼 분포로 변환한 후, 이들 간의 의존성을 코퓰라 함수가 모델링하여 결합하는 과정을 거친다고 했다. 이번 포스팅에서는 2개의 정균분포에 대해 시뮬레이션 해보았다.먼저 필요한 패키지들 불러오기!# 필요한 패키지 불러오기# !pip install copulasimport copulasimport numpy as npimport matplotlib.pyplot as pltfrom scipy.stats import normfrom copulas.multivariate import GaussianMultivariate  1 단계. 확률 변수(정규분포) 샘플 생성Original data로 정규분포에서 샘플링하기. 두 변수의 상관관계는 0.8로 설정# 샘플 크기n = 1000# 변..

통계 2025.03.03

[통계] 코퓰라 함수(Copula Function)(2) - 코퓰라 정의

이전 포스팅에서 누적분포 함수 $F_X(x)$는 0~1 사이의 값을 가진다고 했다.서로 다른 확률분포를 가진 변수들이 동일한 기준에서 비교될 수 있도록 CDF를 변환하여 균일분포(Uniform Distribution)으로 만들수 있다. $$ U = F_X(x)$$ Copula 함수는 다변량 분포함수와 주변확률밀도함수를 연결시키는 함수로, 다음과 같이 정의할 수 있다. $$C(F_1(x_1), F_2(x_2),F_3(x_3), ...,  F_n(x_n)) = Prob(X_1 \leq x_1, X_2 \leq x_2, X_n \leq x_n )$$이때, $F_i(X_i) = Prob(X_i \leq x_i)$ 로 확률변수 $X_i$의 누적분포함수(CDF)이다. 코퓰라 함수의 속성단조성: 각 변수에 대해 단조..

통계 2025.02.26

[통계] 코퓰라 함수(Copula Function)(1) - 누적분포, 다변량 분포, 확률밀도함수, 주변확률밀도함수

Copula는 하나의 확률적 도구로, 여러 확률변수(Random Variable)들의 연결성(종속성)을 나타낸다. 코퓰라 함수를 설명하기 전에,기본적인 분포에 대한 개념을 알아야 이해할 수 있기 때문에 먼저 설명하고자 한다.간단하게 어떤 의미인지만 설명하고 상세한 수학적 정의 등은 생략함! 1. 확률밀도함수(Probability Density Function, PDF)- 확률 변수의 분포를 나타내는 함수. 대표적으로 정규분포가 있음.- 표기는 다음과 같이 나타내고 확률변수 X가 x값을 가질 확률을 의미한다. $$ f_X(x) = Prob(X=x)  $$  2. 누적분포함수(Cumulative Distribution Function, CDF)- 확률변수가 특정 값보다 작을 확률을 나타냄.- 누적분포함수에 ..

통계 2025.02.25

[통계] 그랜저 인과관계(Granger Casuality)

시계열 데이터 공부하다가 알게된 그랜저 인과관계,  나중에 쓸 수도 있기에 다시 보기 위한 개념정리~~   그랜저 인과관계란, 두개의 시계열 데이터의 선후 관계를 확인할 수 있는 방법이다.명칭 때문에 원인과 결과를 분석하는 것으로 생각할 수 있지만 흔히 알고 있는 인과관계랑은 다른 개념으로,표현도 인과관계가 아닌 그랜저 인과관계가 있다라고 한다.  그랜저 인과관계는 두 개의 시계열 데이터 A, B가 있을 때 두 데이터 간의 선행이 어떻게 되는지 선형 회귀분석을 통해 확인할 수 있다. 그랜저 인과관계 검증은 시계열 데이터가 정상성을 띈다는 가정을 하고 있기에분석 전에 먼저 시계열 데이터 간 정상성이 있는지 확인해 보고 정상성이 아닌 경우 처리 후에 사용을 해야한다. 귀무가설은 다음과 같이 설정할 수 있다...

통계 2025.02.20

[통계] 제 1종 오류, 제 2종 오류

통계 구글링 좀 해본 사람이라면 한번 쯤 들어봤을 1종 오류와 2종 오류데이터 관련 자격증 공부에도 한번씩 나오는 개념이라 포스팅해 본다ㅎㅎ기존에 알고있는 통계 개념에서 크게 벗어나지 않음ㅎㅎ 통계가설이나 유의수준 등에 대한 개념을 알고 보면 이해가 빠를듯(참고하기)https://yunnbi.tistory.com/8 [통계] 유의수준, 유의확률 이해하기통계에서는 내말이 맞다! 라는 걸 주장하기 위해 가설을 세우고 이 가설을 확률로서 증명한다.  가설은 '귀무 가설'과 '대립가설'로 나눌 수 있다. 먼저 대립가설이란,내가 주장하고자 하는 가yunnbi.tistory.com 제 1종 오류, 제 2종 오류에 대해 찾아보면 다음과 같은 표를 많이 볼 수 있다.표로 정리한게 글로 설명하는 거보다 직관적이긴 하다ㅎ..

통계 2025.02.19

[통계] 신뢰구간(confidence interval, CI) 이해하기

통계에서 중요한 신뢰구간을 알아보자! 신뢰구간은 통계적 유의성을 판단할 때 p-value(유의확률) 말고도 추가적으로 볼 수 있는 지표이다. 단순히 p-value를 구해서 통계적 유의검정을 하는 것보다 더 많은 정보를 구할 수 있다. 흔히 말하는 95% 신뢰구간이란, 단순히 95% 신뢰할 수 있는 값을 의미하는 건 아니다. 95% 신뢰구간이란 샘플링을 100번 해서 100개의 평균을 구했을 때, 100개 중 95개는 95% 신뢰구간에 해당하는 구간에 들어간다는 의미이다. 예를 들어, '한국 사람의 키의 평균은 170이다.' 라는 귀무가설을 검정 해보자귀무가설, 대립가설의 수식은 다음과 같다. $$H_0 : \bar{x} = 170$$ $$H_1 : \bar{x} ≠ 170$$ 유의수준은 0.05이고 가설..

통계 2023.08.20

[통계] 분산(Variance), 표준편차(SD), 표준오차(SE)

매번 봐도 헷갈리고 와닿지 않는 분산, 표준편차, 표준오차를 정리해 보려고 한다. 명칭만 봐서는 어떤 의미인지 쉽게 이해가 안된당ㅋㅋ 1. 분산(Variance), 표준편차(Standard Deviation, SD) 분산과 표준편차 둘다 각각의 데이터가 평균으로 부터 얼마나 떨어져 있는지를 측정하기 위해 사용한다. 예를 들어, 전국에 있는 사람들 중 100명을 뽑아서 그 사람들의 키를 구했다고 하자. 이때 구한 평균과 각각의 키를 뺀 값을 '편차' 라고 한다. 편차: $ x_{i} - \bar{x} $ 이때 $x_{i}$는 $i$번째 사람의 키이고 $\bar{x}$는 100명의 키의 평균을 의미한다. 만약 100명의 평균 키가 170이고 $i$번째 사람의 키가 179이면 편차는 9이다. 분산은 이 편차 ..

통계 2023.08.20

[통계] 유의수준, 유의확률 이해하기

통계에서는 내말이 맞다! 라는 걸 주장하기 위해 가설을 세우고 이 가설을 확률로서 증명한다.  가설은 '귀무 가설'과 '대립가설'로 나눌 수 있다. 먼저 대립가설이란,내가 주장하고자 하는 가설을 의미한다.귀무가설은 대립가설에 반대되는 가설로 볼수 있다. 예를 들어, 내가 주장하고 싶은 가설이 '한국인의 평균 키는 170 미만이다'라면귀무가설은 '한국인의 평균 키는 170 이상이다'가 된다. 수식으로 간단히 나타내면 다음과 같이 나타낼 수 있다. 이때 H0는 귀무가설, H1은 대립가설을 의미하며 $\bar{x}$는 한국인 키의 평균이다. $$H_0 : \bar{x} \geq 170 $$$$H_1 : \bar{x}  이제 내가 주장한 가설이 맞는지 확인을 해야 하는데 통계에서는 내가 주장한 가설이 맞는지를 ..

통계 2023.08.02