23년 이전 글/통계
데이터의 표현
점도표 (Dot plot) 자료의 가능한 값들을 나타내는 수평선을 따라서 각 관측치를 하나의 점으로 표현 완전히 같거나 아주 비슷한 값들을 "누적"되는 형태로 표현 분포의 모양, 최대값, 최소값을 한 눈에 볼 수 있음 점도표 예제 줄기-잎 도표(Stem-leaf display) 도수분포와 히스토그램의 단점 자료에 포함된 각 값들의 정확한 값을 알 수 없음 각 구간 내에 값들이 어떻게 분포하는지 알 수 없음 줄기-잎 도표의 장점 각 관측치의 실제값이 유지됨 각 자리수의 값들이 도표에 표시됨 각 관측값은 2개의 부분으로 나누어짐 앞자리 수 -> 줄기, 뒤에 오는 수-> 잎 줄기들은 수직 축에 표현되고 잎들은 수평 축에 다른 값들과 서로 쌓이는 형태로 표현 분위수 산포, 분포의 형태를 측정하는 방법 중 하나 ..
데이터의 위치
산포를 공부하는 이유 중심으로부터 데이터가 흩어진 정도를 산포라 함 중심성향의 측도는 데이터가 어떻게 분포되어 있는가에 대해 아무런 정보를 제공하지 않음 평균만으로 데이터를 비교하려는 것은 의사결정의 위험성을 높임 예) 물의 깊이, 성적, 평균수익률 산포의 척도 범위(range) 계산이 쉽다 극단적인 데이터만을 사용하는 단점이 있음 -> 데이터의 분포무시, 극단값에 민감 분산(variance) 데이터가 평균으로부터 얼마나 퍼져 있는가 평균으로부터 제곱편차에 대한 산술평균 측정단위의 제곱된 값이어서 사용에 약간의 어려움이 있음 표준편차(standard deviation) 분산의 루트(square root)값 데이터의 원래 단위를 사용하여 분산에 비해 활용하기 쉬움 산포척도 중 가장 널리 사용된다 분산과 표..
기술통계학
데이터를 표현하는 통계적 방법 위치(location) 척도 데이터의 대표값: 산술평균, 가중평균, 중앙값, 최빈값 등 산포(dispersion) 척도 데이터가 퍼져있는 정도 범위, 평균절대편차, 분산, 표준편차, 변동계수 비대칭도(Skewness) 자료집단이 대표치를 중심으로 좌/우 어느쪽으로 치우쳐 있는지, 치우쳤다면 얼마나 치우쳐 있는지 보여줌 피어슨 비대칭계수 (Pearson`s CS) 첨도(Kurtosis) 분포의 뾰족한 정도 측정 첨도계수(Coefficient of kurtosis, CK) 위치척도 데이터 집합의 중심 경향을 기술하는데 사용되는 값 위치척도 종류 평균 중위수 최빈값 산술 평균은 가장 널리 사용되는 위치척도임 산술평균_모평균 μ는 모평균을 의미하며 그리스어 소문자 "뮤"를 활용하여..
통계 변수
변수의 종류 정성적(qualitative) 변수 비수치적인 특성치 또는 속성으로서 관찰 또는 기록된 변수 ex) 성별, 음료수 선호도, 눈의 색깔 정량적(quantitative) 변수 수치적으로 기록된 변수 ex) 계좌에 있는 잔액, 자동차 배터리의 수명, 회사의 직원 수 이산형변수와 연속형변수로 분류됨 이산형변수(discrete variable) 대개 수를 센(counting) 것의 결과 두 값 사이에 차이(gap)가 존재 예:집의 침실 수, 대학수업 분반의 학생 수 연속형변수(continuous variable) 대개 측정(measurement)의 결과 특정한 범위 내의 어떤 값도 가질 수 있다고 가정 예: 타이어 내부의 공기압, 올란도에서 샌디에고까지의 비행시간 변수의 종류 요약 측정의 척도(lev..