정규분포(Normal distribution)
가우시안분포(Gaussian distribution)이라고도 부르며, 연속확률분포 중 하나
- 정규분포의 모양은 평균과 표준편차에 의해 결정되며, 이때의 분포를 N(μ, σ^2)로 표기한다
- 평균(μ)을 중심으로 좌우대칭인 종모양(bell shape)이다
- 확률변수 X가 취할 수 있는 값의 범위는 -∞ < X < ∞이다. 양극단으로 갈수록 X축에 무한히 접근하지만 X축에 닿지는 않는다.
- 분포의 평균(μ)과 표준편차(σ)가 어떤 값을 갖더라도, 정규분포의 곡선과 X축 사이의 전체 면적은 1이다.
- 관찰값의 99.7%가 +- 3σ안에 속해 있다
중심극한정리
모집단에서 취한 표본의 평균값들의 분포는 평균값을 중심으로 하는 정규분포에 가까워진다
- 한 번 추출한 표본수가 클수록 정규분포의 중심은 모집단의 평균 값에 가까워짐
- 가설 검정과 신뢰구간의 근간
표준화의 필요성
값의 스케일이 다른 두 변수가 있을 때 스케일 차이를 제거하고 관측값이 평균을 기준으로 얼마나 떨어져 있는지를 나타낼 때 사용 ex) 모의고사에서 과목별 난이도가 다름에도 점수 평균이 동일하게 평가 되는 문제 해결
표준화 과정
1. 원래 값에서 평균을 뺀다
- 중심화 : 관측값에서 평균을 뺌
- 같은 70점이라도 어느 쪽이 상대적으로 평균보다 큰 값인지 작은 값인지 확인 가능
- 예1) 각 학생의 과학점수 - 과학평균
- 예2) 각 학생의 국어점수 - 국어평균
2. 결과값을 표준편차로 나눈다.
- 척도화(scaling) : 얼마나 평균에서 먼 값인지가 상대적인 척도로 계산
표준정규분포
정규분포를 표준화
- 평균이 0이고, 표준편차가 1인 정규분포(0, 1^2)
- X 대신 Z를 확률변수로 쓰기 때문에 Z-분포라고도 함
- 확률변수 Z가 취할 수 있는 값의 범위 : -oo < Z < oo
- 표준정규 곡선과 Z축 사이의 면적의 합이 1인 것도 정규분포와 동일
반응형
'23년 이전 글 > 통계' 카테고리의 다른 글
통계학이란? (0) | 2022.06.06 |
---|---|
가설검정 (0) | 2022.06.06 |
확률 이론 (0) | 2022.06.05 |
기초 통계량, 확률 (0) | 2022.06.05 |
통계학 중요 용어 및 개념 간단 정리 (0) | 2022.06.05 |