시계열 분석
일정 시간 간격으로 기록된 자료들에 대하여 특성을 파악하고 미래를 예측하는 분석방법
자기상관성
자기상관계수 | 시간의 흐름, not 시점 시차증가시 감소 |
부분자기상관계수 | 특정 요소 배제 특정 시점 이후 급격히 감소 |
서로 이웃하는 자료들끼리 일종의 상관관계를 가진다는 뜻
배부분의 시계열 자료는 자기상관성을 가져서 공분산은 '0'이 아님
상관성을 나타내는 것 : 공분산
상관성 정도는 나타내는 것 : 상관계수
자료
비정상성 시계열 자료(일반적)
시계열 분석을 수행하려면 정상성 자료로 변환해야 함!
정상성 시계열 자료
정상성 조건
1) 일정한 평균 | 모든 시점에 대하여 평균이 일정해야 함 차분을 통해 정상화 한 시점의 자료 값에서 전 시점의 자료 값을 빼는 것 |
2) 일정한 분산 | 모든 시점에 대하여 분산이 일정해야 함 변환을 통해 정상화 자료 값에 지수 혹은 로그를 취해 변환 |
3) 시차에만 의존하는 공분산 | 공분산은 단지 시차에만 의존하고 특정 시점에 의존하지 않는다. |
R 스크립트 자동줄바꿈을 위한 옵션 설정!
[Tools] - [Global Options...] - [Code] 에서 Soft-wrap R source files 체크박스 체크
이렇게 설정하면 코드가 길어져서 화면을 벗어나게되면 자동으로 줄바꿈이 된다.
✅ rnorm(100) 자체는 단순한 숫자 벡터일 뿐이지만,
✅ 값의 순서를 시간적 흐름으로 해석하면 시계열 데이터처럼 사용할 수 있음
즉, data가 시계열 데이터가 아니라 "임의의 시계열 데이터 벡터"라고 부르는 이유는, 우리가 "시간적인 순서를 가정하고 사용할 수 있기 때문"입니다.
📌 시계열 데이터에서 data[x]를 사용하는 경우
시계열 데이터는 시간 순서(time index) 가 중요한 데이터입니다.
data[x]는 특정 시간 지점의 데이터를 선택할 때 유용하게 쓰입니다.
✅ data[x]는 기본적인 벡터 인덱싱 문법이며, 시계열 데이터뿐만 아니라 모든 벡터에서 사용 가능
✅ 하지만 시계열 데이터에서 특정 시점 데이터를 선택할 때도 자주 사용됨
자기상관계수
자기상관계수(ACF) | '특정한 시점'이 아니라 '시간의 흐름'에 따른 변수 간의 상관관계 변화 |
부분자기상관계수(PACF) | 두 시계열 확률변수 간에 다른 시점의 확률변수 영향력은 통제하고 상관관계만 보여준다. |
- rate가 일반적인 수치형 벡터(numeric vector) 라고 가정
- ts(rate)를 사용하면 벡터를 시계열 객체(time series object) 로 변환
- 기본적으로 frequency = 1로 설정되며, start와 frequency를 지정할 수도 있음
- 정상성(Stationarity)이란, 평균과 분산이 시간에 따라 일정한 특성을 갖는 시계열 데이터를 의미
- diff() 함수는 차분(differencing) 을 수행하여 데이터의 추세(trend)를 제거하는 역할
- differences = 2 → 2회 차분(second-order differencing)
- 1차 차분: Xt - Xt-1
- 2차 차분: (Xt - Xt-1) - (Xt-1 - Xt-2)
📌 왜 차분을 하는가?
- 대부분의 시계열 데이터는 추세(trend) 를 가짐 → 정상성이 없음
- 차분을 통해 비정상(non-stationary) 데이터 → 정상(stationary) 데이터로 변환
PACF(부분 자기상관 함수) 확인
- PACF(Partial Autocorrelation Function, 부분 자기상관 함수)
- 시차(lag)별 상관성을 분석하여 적절한 AR(p) 차수를 결정하는 데 사용
PACF에서 중요한 것은:
✔ 파란 점선(신뢰구간, confidence interval)
- 통계적으로 유의미한(신뢰구간을 벗어난) 시차(lag)를 찾는 것이 핵심
- 이 값이 AR(p) 모델에서 적절한 p 값이 됨
1️⃣ xts 패키지 설치
- xts (eXtensible Time Series) 패키지는 시계열 데이터(Time Series) 를 다루는 데 유용한 R 패키지입니다.
- zoo 패키지를 확장한 형태이며, 금융 데이터 분석 및 시계열 처리에 자주 사용됩니다.
- xts 객체를 활용하면 날짜 기반의 데이터 조작이 편리해집니다.
2️⃣ forecast 패키지 설치
- forecast 패키지는 시계열 예측(Forecasting) 을 위한 가장 강력한 패키지 중 하나입니다.
- ARIMA, ETS, TBATS, STL 분해 등 다양한 예측 모델을 제공합니다.
- dependencies = T 옵션은 의존 패키지(dependencies)도 함께 설치하겠다는 의미입니다.
h는 **forecast() 함수에서 예측할 기간 (혹은 미래 데이터 포인트의 개수)**을 설정하는 인자입니다. 이 값은 예측하려는 미래의 시간 범위를 나타냅니다.
h의 역할:
- h는 "horizon"의 줄임말로, 미래의 예측 시점을 의미합니다. 예를 들어, h = 5이면 모델은 현재 시점 이후 5기간에 대해 예측합니다.
- 예측하려는 기간의 길이를 설정하는 것인데, 이 기간은 시계열 데이터의 특성에 따라 달라질 수 있습니다. 예를 들어, 주간 데이터라면 h = 5는 5주 후를 예측하는 것이고, 월간 데이터라면 5개월 후를 예측하는 것입니다.
시계열 분석 기법
이동평균법 | 일정 기간별로 자료를 묶어 평균을 구하는 방법 단점 : 장기적인 추세를 파악하는데 효과적이나 기간에 따라 평균의 수가 감소 |
지수평활법 | 최근 데이터에 가중치를 부여해 평균을 계산 |
시계열 모형
1) 자기회귀모형(AR) | 이전 시점 자료값들의 선형결합 백색 잡음 : 현재의 시점이 이전 시점과의 상관관계가 존재하지 않는 서로 독립적인 시계열 자료 |
2) 이동평균(MA) | 이전 시점의 백색잡음들의 선형결합 항상 정상성 만족 |
3) 자기회귀누적이동평균모형 | |
4) 분해 시계열 |
'자격증 > ADsP' 카테고리의 다른 글
[ADsP 미어캣 온라인 스터디 11기] Day 16 인공신경망 분석 (0) | 2025.02.22 |
---|---|
[ADsP 미어캣 온라인 스터디 11기] Day 15 (0) | 2025.02.22 |
[ADsP 미어캣 온라인 스터디 11기] Day 12 3과목 다변량 분석 (0) | 2025.02.13 |
[ADsP 미어캣 온라인 스터디 11기] Day 11 3과목 회귀분석 (0) | 2025.02.13 |
[ADsP 미어캣 온라인 스터디 11기] Day 10 3과목 기초통계 (0) | 2025.02.08 |