산포를 공부하는 이유
- 중심으로부터 데이터가 흩어진 정도를 산포라 함
- 중심성향의 측도는 데이터가 어떻게 분포되어 있는가에 대해 아무런 정보를 제공하지 않음
- 평균만으로 데이터를 비교하려는 것은 의사결정의 위험성을 높임 예) 물의 깊이, 성적, 평균수익률
산포의 척도
범위(range)
- 계산이 쉽다
- 극단적인 데이터만을 사용하는 단점이 있음 -> 데이터의 분포무시, 극단값에 민감
분산(variance)
- 데이터가 평균으로부터 얼마나 퍼져 있는가
- 평균으로부터 제곱편차에 대한 산술평균
- 측정단위의 제곱된 값이어서 사용에 약간의 어려움이 있음
표준편차(standard deviation)
- 분산의 루트(square root)값
- 데이터의 원래 단위를 사용하여 분산에 비해 활용하기 쉬움
- 산포척도 중 가장 널리 사용된다
분산과 표준편차의 특징
- 항상 0보다 같거나 크고, 모든 데이터 값이 같을 경우에만 0이 됨
- 동일한 값을 데이터 값에 더하거나 빼주어도 분산이나 표준편차는 변하지 않음
변동계수(coefficient of variation: CV)
- 월급의 표준편차 = 20만원, 학생들 성적의 표준편차 = 15점 -> 비교가 가능할까?
- 표준편차를 평균의 퍼센트로 표시 ( 평균 대비 표준편차의 비율)
- 데이터의 상대적 산포
변동계수의 사용
- 다른 단위를 가진 변수들의 비교(월급 vs 시험성적)
- 단위는 같으나 평균에 큰 차이가 나는 변수들의 비교( CEO의 수입 vs 일용노동자 수입)
변동계수 예제
- 학생수와 직장인 연봉
- 강의실 당 학생수를 알아보니 표본평균은 44명, 표본표준편차는 8명이었다. CV는?
- 직장인들의 연봉에 조사 결과 표본 평균은 2,940만원, 표본 표준편차는 165만 6천 5백원이었다. CV는?
- 강의실 당 학생수의 CV가 직장인 연봉의 CV보다 크므로 강의실 당 학생수의 산포가 크다고 할 수 있다.
반응형
'23년 이전 글 > 통계' 카테고리의 다른 글
데이터의 표현 (0) | 2022.06.13 |
---|---|
기술통계학 (0) | 2022.06.07 |
통계 변수 (0) | 2022.06.06 |
통계학이란? (0) | 2022.06.06 |
가설검정 (0) | 2022.06.06 |