반응형
통계의 이해
통계 분석 : 특정 집단을 대상으로 자료를 수집하여 대상집단에 대한 정보를 구하고, 적절한 통계 분석 방법을 이용하여 의사결정(통계적 추론)을 하는 과정
표본조사
표본집단을 선별 <> 모집단
신뢰수준 : ex) 95% : 100번 조사시 동일한 결과가 95번
오차범위 : 결과값에 대한 오차범위
% : 100을 기준으로 할 때 차지하는 비율
%포인트 : 퍼센트간 차이
표본추출방법
단순랜덤추출법 : N개의 모집단에서 n개의 데이터를 무작위로 추출
계통 추출법 : 모집단의 원소에 차례대로 번호를 부여한 뒤 일정한 간격을 두고 데이터를 추출하는 방법
집락(군집:Cluster)추출법 : 여러 집락으로 구분한 뒤, 단순랜덤추출법에 의하여 선택된 집락의 데이터를 표본으로 사용, 각 집단은 동질적/집락 내 데이터는 이질적
층화 추출법 : 데이터를 여러 집단으로 구분하지만 각 집단은 서로 이질적이면서 군집 내 데이터들은 서로 동질적
비례층화추출법 : 각 군집별로 추출되는 데이터의 개수는 전체 데이터 분포의 비율과 동일
불비볘층화추출법
측정과 척도
측정 : 표본조사를 실시하는 경우 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하게 관측해 자료를 얻는 것
척도 : 관측 대상의 속성을 측정하여 그 값이 숫자로 나타나도록 일정한 규칙을 정하여 바꾸는 도구
척도의 종류
질적 척도 | 명목척도 | 어느 집단에 속하는지 |
순서척도(서열척도) | 명목척도이면서 서열관계를 갖는 자료 | |
양적 척도 | 구간척도(등간척도) | 양 측정 가능 + 두 구간 사이에 의미 O |
비율척도 | 구간척도이면서 절대적 기준 0이 존애 + 사칙연산가능 |
기술통계와 추리통계
기술통계 | 표본 자체의 속성이나 특징을 파악하는데 중점을 두는 데이터 분석 통계 자료를 요약 조직화, 단순화하는데 목적 표본을 설명해주는 데이터의 최솟값, 최댓값, 중위수 등 |
추리통계(추론통계) | 수집한 데이터를 바탕으로 '추론 및 예측'하는 통계 기법 |
확률
독립사건 | 서로에게 영향을 주지 않는 두개의 사건 |
배반사건 | A와 B에 대하여 교집합이 없는 경우 동시에 일어날 수 없는 사건 |
확률변수 | 무작위 실험을 했을 때 특정 확률로 발생하는 각각의 결과는 수치적 값으로 표현하는 변수 |
확률분포 | 확률변수의 모든 값과 그에 대응하는 확률이 어떻게 분포하고 있는지 이산확률분포의 확률 함수 : 확률질량함수 연속확률분포의 확률 함수 : 확률밀도함수 |
이산확률분포
이산확률변수 | 확률변수가 취할 수 있는 실수 값의 수를 셀 수 있는 변수 |
베르누이 분포 | 확률 변수 X가 취할 수 있는 값이 두 개인 경우 (실패, 성공) |
이항 분포 | n번의 베르누이 시행(성공 or 실패)에서 k번 성공할 확률의 분포 |
기하 분포 | 성공 확률이 p인 베르누이 시행에서 처음으로 성공이 나올 때까지 k번 실패할 확률의 분포 |
다항 분포 | n번의 시행에서 각 시행이 3개 이상의 결과를 가질 수 있는 확률의 분포 |
포아송 분포 | 단위 시간 또는 단위 공간 내에게 발생할 수 있는 사건의 발생 횟수에 대한 확률분포 |
연속확률분포
연속확률분포 | 셀 수 없는 변수 |
균일 분포 | 연속형 확률변수 X가 취할 수 있는 모든 값에 대하여 같은 확률을 갖고 있는 분포 그래프 아래 면적의 넓이는 확률의 총합인 1이다. |
정규분포 | 분포의 모양은 평균값에 가장 많이 몰려 있고 평균에서 멀어질수록 빈도수가 낮은 종 모양의 그래프 표준정규분포 : 평균이 0, 표준편차가 1 |
t-분포 | 자유도가 n인 t분포는 평균이 0이고 좌우가 대칭인 종 모양의 그래프지만 정규분포보다 두꺼운 꼬리를 갖는다. 자유도가 커질수록 t분포는 정규분포에 가까워 진다. 자유도 : 표본자료들이 모집단에 대한 정보를 주는 독립적인 자료의 개수 |
카이제곱 분포 | 표준정규분포를 따르는 확률변수의 제곱의 합 X는 자유도가 n인 카이제곱분포를 따른다. 모평균과 모분산을 모르는 두 개 이상의 집단 간 동질성 검정 또는 모분산 검정을 위해 활용된다. |
F분포 | 분산분석을 위해 활용 |
기타
첨도 | 뾰족한 정도를 나타내는 측도 3에 가까울수록 정규분포 모양 |
왜도 | 확률분포의 비대칭 정도를 나타내는 측 왜도 값(r)<0 : 평균<중앙값<최빈값 왜도 값(r)>0 : 최빈값<중앙값<평균 |
공분산 | 두 확률변수 X, Y의 상관 정도 문제점 : 어느 정도의 선형성을 갖는지 알 수 없음 |
상관계수 | -1(반대) < 0(상관관계없음) < 1(비례) |
추정
모수의 추정 | 모수 : 모집단의 확률분포 및 특성 표본조사를 실시하여 모수 추정 |
점추정 | 모평균을 하나의 특정한 값이라고 예측 불편추정량 : 모수를 추정할 때 추정값과 실제 모수값의 기댓값이 0으로 어느 한쪽에 편향되지 않아 이상적인 값(최소분산) |
구간추청 |
가설검정
모집단의 특성에 대한 주장 또는 가설을 세우고 표본에서 얻은 정보를 이용해 가설이 옳은지를 판정하는 과정
귀무가설 | '차이가 없다' = '같다' 귀무가설의 기각을 통해 입증하고자 하는 주장 관철 |
대립가설 | 귀무가설에 반대되는 가정 증명하고자 하는 가설 |
1종오류 | 사실인데 틀렸다고 결정하는 오류 |
2종오류 | 거짓인데 옳다고 결정하는 오류 |
유의수준 | 귀무가설이 참인데도 이를 잘못 기각하는 오류를 범할 확률의 최대 허용 한계 1종 오류과 2종 오류는 반비례 관계 -> 1종 오류를 허용할 수 있는 최대 유의수준을 설정 |
유의확률 | p-value는 귀무가설을 지지하는 정ㄷ p-value(유의확률) < α(유의수준) : 귀무가설 기각 |
비모수검정
모수 검정 | 비모수검정 |
표본의 정규성이 반드시 확보 되어야 함 | 정규분포임을 가정할 수 없는 경우 |
등간척도, 비율척도 | 명목척도, 서열척도 |
평균 | 중앙값 |
피어슨 상관계수 | 스피어만 상관계수 |
One sample t-test, two sample t-test, paired t-test, one way anova | 부호 검정, Wilcoxon 부호순위 검정, Mann-Whitney검정, Kruskal Wallis 검정 |
반응형
'자격증 > ADsP' 카테고리의 다른 글
[ADsP 미어캣 온라인 스터디 11기] Day 10 3과목 기초통계 (0) | 2025.02.08 |
---|---|
[ADsP 미어캣 온라인 스터디 11기] Day 8 3과목 데이터 마트 (0) | 2025.02.05 |
Q-Q (Quantile-Quantile) Plot을 사용하여 데이터의 정규성을 판단하는 방법 (0) | 2025.02.05 |
[ADsP 미어캣 온라인 스터디 11기] Day 7 R기초와 데이터 마트 (0) | 2025.02.03 |
[ADsP 미어캣 온라인 스터디 11기] Day 6 2과목 분석 거버넌스 체계 수립 (0) | 2025.02.03 |