정규분포와 표준화
23년 이전 글/통계

정규분포와 표준화

정규분포(Normal distribution)

가우시안분포(Gaussian distribution)이라고도 부르며, 연속확률분포 중 하나

 

  • 정규분포의 모양은 평균과 표준편차에 의해 결정되며, 이때의 분포를 N(μ, σ^2)로 표기한다
  • 평균(μ)을 중심으로 좌우대칭인 종모양(bell shape)이다
  • 확률변수 X가 취할 수 있는 값의 범위는 -∞ < X < ∞이다. 양극단으로 갈수록 X축에 무한히 접근하지만 X축에 닿지는 않는다.
  • 분포의 평균(μ)과 표준편차(σ)가 어떤 값을 갖더라도, 정규분포의 곡선과 X축 사이의 전체 면적은 1이다.
  • 관찰값의 99.7%가 +- 3σ안에 속해 있다

평균과 표준편차에 따른 다양한 정규분포 (출처: 위키백과)

 

중심극한정리

모집단에서 취한 표본의 평균값들의 분포는 평균값을 중심으로 하는 정규분포에 가까워진다

  • 한 번 추출한 표본수가 클수록 정규분포의 중심은 모집단의 평균 값에 가까워짐
  • 가설 검정과 신뢰구간의 근간

 

표준화의 필요성

값의 스케일이 다른 두 변수가 있을 때 스케일 차이를 제거하고 관측값이 평균을 기준으로 얼마나 떨어져 있는지를 나타낼 때 사용 ex) 모의고사에서 과목별 난이도가 다름에도 점수 평균이 동일하게 평가 되는 문제 해결

표준화 과정

1. 원래 값에서 평균을 뺀다

  • 중심화 : 관측값에서 평균을 뺌
  • 같은 70점이라도 어느 쪽이 상대적으로 평균보다 큰 값인지 작은 값인지 확인 가능
  • 예1) 각 학생의 과학점수 - 과학평균
  • 예2) 각 학생의 국어점수 - 국어평균

2. 결과값을 표준편차로 나눈다.

  • 척도화(scaling) : 얼마나 평균에서 먼 값인지가 상대적인 척도로 계산

표준화 식

 

표준정규분포

정규분포를 표준화

  • 평균이 0이고, 표준편차가 1인 정규분포(0, 1^2)
  • X 대신 Z를 확률변수로 쓰기 때문에 Z-분포라고도 함
  • 확률변수 Z가 취할 수 있는 값의 범위 : -oo < Z < oo
  • 표준정규 곡선과 Z축 사이의 면적의 합이 1인 것도 정규분포와 동일

표본표준정규분포

 

반응형

'23년 이전 글 > 통계' 카테고리의 다른 글

통계학이란?  (0) 2022.06.06
가설검정  (0) 2022.06.06
확률 이론  (0) 2022.06.05
기초 통계량, 확률  (0) 2022.06.05
통계학 중요 용어 및 개념 간단 정리  (0) 2022.06.05