반응형
데이터마트의 이해
데이터마트
데이터 웨어하우스로부터 특정 사용자가 관심을 갖는 데이터들을 주제별, 부서별로 추출하여 모은 비교적 작은 규모의 데이터 웨어하우스
데이터 전처리
데이터 정제 : 결측값과 이상값을 처리
분석 변수를 처리 : 변수 선택, 차원 축소, 파생변수 생성 등
데이터 마트 개발을 위한 R 패키지 활용
reshape 패키지 | 20개에 가까운 함수 보유 melt() : 데이터를 특정 변수를 기준으로 녹여서 나머지 변수에 대한 세분화된 데이터를 만들 수 있다. cast() : melt에 의해 녹은 데이터를 요약을 위해 새롭게 가공할 수 있게 도와준다. cast(melt저장값, 열값, 계산) |
sqld 패키지 | 표준 SQL문장을 활용하여 R에서 데이터프레임을 다루는 것을 가능하게 해주는 패키지 |
plyr 패키지 | apply 함수를 기반으로 데이터를 분리하고 다시 결합하는 가장 필수적인 데이터 처리 기능을 제공한다. ddply() : R의 plyr 패키지에서 제공하는 함수로, 데이터를 그룹별로 나눈 후(split), 각 그룹에 함수를 적용하고(apply), 결과를 다시 결합(combine)하는 역할을 한다. 즉, 데이터를 그룹화하여 요약하거나 변환할 때 유용하다. |
data.table 패키지 | 특정 칼럼별로 주솟값을 갖는 인덱스를 생성하여 연산 및 검색을 빠르게 수행할 수 있는 데이터 구조 기존 데이터프레임보다 적게는 4배에서 크게는 100배에 가까운 빠른 속도로 데이터를 탐색, 연산, 정렬, 병합할 수 있게 한다. |
데이터 탐색
탐색적 데이터 분석(EDA ; Exploratory Data Analysis)
데이터를 이해하고 의미 있는 관계를 찾아내기 위해 데이터의 통곗값과 분포 등을 시각화하고 분석
붓꽃(iris) 데이터를 이용한 예
결측값
존재하지 않는 데이터
NA(Not Available)
결측값 처리를 위한 대표적인 패키지로 Amelia와 DMwR2 패키지가 있다.
결측값 대치 방법
단순 대치법 | 데이터를 삭제 많은 경우 대량의 데이터 손실이 발생할 수 있다. 함수 : complete.cases (결측값 O False / X True) |
평균 대치법 | 평균 혹은 중앙값으로 결측값을 대치 비조건부 평균 대치법 -> 평균값으로 대치 조건부 평균 대치법 -> 실제 값들을 분석하여 회귀분석을 활용 함수 : DMwR2 패키지의 centralImputation |
단순확률대치법 | 평균 대치법에서 추정량 표준 오차의 과소 추정 문제를 보완하고자 고안된 방법 K-Nearest Neighbor : 주변 K개의 데이터 중 가장 많은 데이터로 대치하는 방법 K값이 너무 작으면 이상치에 민감할 수 있으며, K값이 너무 크면 근처 데이터들의 특성을 반영할 수 없기 때문에 적절한 K 값의 선정이 매우 어렵다. |
다중 대치법 | 여러 번의 대치를 통해 n개의 임의 완전자료를 만드는 방법 (3단계) 결측값 대치 -> 분석 -> 결합 |
이상값
다른 데이터와 비교했을 때 극단적으로 크거나 작은 값
이상값판단
ESD | 평균으로부터 '표준편차 3'만큼 떨어진 값들을 이상값으로 인식하는 방법 정규분포에서 99.7%의 자료들은 '표준편차 3' 안에 위치하므로 전체 데이터의 약 0.3%를 이상값으로 구분한다. |
사분위수 | 사분범위에서 1.5분위수를 벗어나는 경우 이상치로 판단한다. Q1-1.5*IQR(하한 최솟값)보다 작거나 Q3+1.5*IQR(상한 최댓값)보다 큰 값은 이상값으로 간주한다. |
반응형
'자격증 > ADsP' 카테고리의 다른 글
Q-Q (Quantile-Quantile) Plot을 사용하여 데이터의 정규성을 판단하는 방법 (0) | 2025.02.05 |
---|---|
[ADsP 미어캣 온라인 스터디 11기] Day 7 R기초와 데이터 마트 (0) | 2025.02.03 |
[ADsP 미어캣 온라인 스터디 11기] Day 6 2과목 분석 거버넌스 체계 수립 (0) | 2025.02.03 |
[ADsP] R에서 aov()와 anova()의 차이 (0) | 2025.02.03 |
[ADsP 미어캣 온라인 스터디 11기] Day 5 2과목 분석 마스터플랜 (107 ~ 115p) (0) | 2025.02.02 |