자격증/ADsP

[ADsP 미어캣 온라인 스터디 11기] Day 8 3과목 데이터 마트

사락연 2025. 2. 5. 21:46
반응형

 

 

데이터마트의 이해

데이터마트

데이터 웨어하우스로부터 특정 사용자가 관심을 갖는 데이터들을 주제별, 부서별로 추출하여 모은 비교적 작은 규모의 데이터 웨어하우스
 

데이터 전처리

데이터 정제 : 결측값과 이상값을 처리
분석 변수를 처리 : 변수 선택, 차원 축소, 파생변수 생성 등
 

데이터 마트 개발을 위한 R 패키지 활용

reshape 패키지 20개에 가까운 함수 보유
melt() : 데이터를 특정 변수를 기준으로 녹여서 나머지 변수에 대한 세분화된 데이터를 만들 수 있다.
cast() : melt에 의해 녹은 데이터를 요약을 위해 새롭게 가공할 수 있게 도와준다.
cast(melt저장값, 열값, 계산)
sqld 패키지 표준 SQL문장을 활용하여 R에서 데이터프레임을 다루는 것을 가능하게 해주는 패키지
plyr 패키지 apply 함수를 기반으로 데이터를 분리하고 다시 결합하는 가장 필수적인 데이터 처리 기능을 제공한다.
ddply() : R의 plyr 패키지에서 제공하는 함수로, 데이터를 그룹별로 나눈 후(split), 각 그룹에 함수를 적용하고(apply), 결과를 다시 결합(combine)하는 역할을 한다. 즉, 데이터를 그룹화하여 요약하거나 변환할 때 유용하다.
data.table 패키지 특정 칼럼별로 주솟값을 갖는 인덱스를 생성하여 연산 및 검색을 빠르게 수행할 수 있는 데이터 구조
기존 데이터프레임보다 적게는 4배에서 크게는 100배에 가까운 빠른 속도로 데이터를 탐색, 연산, 정렬, 병합할 수 있게 한다.

 

 
 

데이터 탐색

탐색적 데이터 분석(EDA ; Exploratory Data Analysis)

데이터를 이해하고 의미 있는 관계를 찾아내기 위해 데이터의 통곗값과 분포 등을 시각화하고 분석
붓꽃(iris) 데이터를 이용한 예
 

결측값

존재하지 않는 데이터
NA(Not Available)
결측값 처리를 위한 대표적인 패키지로 Amelia와 DMwR2 패키지가 있다.
 

결측값 대치 방법

단순 대치법 데이터를 삭제
많은 경우 대량의 데이터 손실이 발생할 수 있다.
함수 : complete.cases (결측값 O False / X True)
평균 대치법 평균 혹은 중앙값으로 결측값을 대치
비조건부 평균 대치법 -> 평균값으로 대치
조건부 평균 대치법 -> 실제 값들을 분석하여 회귀분석을 활용
함수 : DMwR2 패키지의 centralImputation
단순확률대치법 평균 대치법에서 추정량 표준 오차의 과소 추정 문제를 보완하고자 고안된 방법
K-Nearest Neighbor : 주변 K개의 데이터 중 가장 많은 데이터로 대치하는 방법
K값이 너무 작으면 이상치에 민감할 수 있으며, K값이 너무 크면 근처 데이터들의 특성을 반영할 수 없기 때문에 적절한 K 값의 선정이 매우 어렵다.
다중 대치법 여러 번의 대치를 통해 n개의 임의 완전자료를 만드는 방법
(3단계) 결측값 대치 -> 분석 -> 결합

 

이상값

다른 데이터와 비교했을 때 극단적으로 크거나 작은 값
 

이상값판단

ESD 평균으로부터 '표준편차 3'만큼 떨어진 값들을 이상값으로 인식하는 방법
정규분포에서 99.7%의 자료들은 '표준편차 3' 안에 위치하므로 전체 데이터의 약 0.3%를 이상값으로 구분한다.
사분위수 사분범위에서 1.5분위수를 벗어나는 경우 이상치로 판단한다.
Q1-1.5*IQR(하한 최솟값)보다 작거나 Q3+1.5*IQR(상한 최댓값)보다 큰 값은 이상값으로 간주한다.

 

반응형