https://www.youtube.com/watch?v=U_CHoMjaOSE&list=PLvCgf6iu6Pq2qKK1YgMUgzpnkmrKcLd7O
시계열이란?
시간의 흐름에 따라 일정한 간격마다 기록한 통계계열을 시계열 데이터라고 하며, 이 계열의 시간적 변화에는 여러 원인에 기인한 변동이 포함되어 있다.
관측결과 x는 시간 t에 따라서 변동하는 양이므로 그 시계열은 (Xt)로 표시된다. (즉, '일변량 자료'인 Yi와 수집된 시점인 Xi(즉, 시간 t)와의 관계)
내부구조를 포함하고 있는 자료이다. 내부구조란 자기상관, 추세, 계절변동을 의미한다.
1. 시계열 그림(Time Series Plot)
주기성, 추이를 확인한다!
주기성 : 규칙적인 주기 또는 간격으로 기능을 수행하는 일
추이 : 일이나 형편이 시간의 경과에 따라 변하여 나감. 또는 그런 경향.
미니탭/엑셀 -> 셀서식으로 시간 형식 지정
2. 추세분석(Trend Analysis)
추세(Trend) : 어떤 현상이 일정한 방향으로 나아가는 경향
일정한 방향은 '증가' 또는 '하락'의 경우로 나뉨
추세분석(Trend Analysis) : 과거의 추세치가 앞으로도 게속되리라는 가정 하에 과거의 시계열 자료들을 분석해 그 변화 방향을 탐색하는 미래 예측 방법.
과거 데이터로 모형화할 수 있다면(모형의 파라미터 알 수 있다면), 미래 데이터를 예측할 수 있다.
어떤 모형이 맞는지를 fitting하여 유형 찾기!
fitted된 데이터 모형~~
추세 모형이 얼마다 정확한지?
MSD(실제값과 예측값의 차이), MAD(데이터와 같은 단위의 평균 정확도), MAPE(백분율의 정확도)
3. 분해(Decomposition)
분해 : 시계열에 '계절 성분'이 있을 때 예측 값을 구하려는 경우, 또는 단순히 성분 요소의 특성을 조사하려는 경우에 이 절차를 사용
계절(변동)성분 : 일정 주기마다 주기적으로 증가/감소하는 성분
추세(변동)성분 : 시간에 따라서 증가/감소하는 성분
불규칙(변동)성분 : 설명이 불가능한 성분
->각각을 분해해서 해석, 재결합하여 예측하는 모델식을 꾸며본다!
㉠승법 모델(Multiplicative Model) : 계절변동의 진폭이 증가/감소하는 형태
(승법 모델의 경우, 데이터가 증가하면 계절 패턴도 증가한다고 가정한다)
특정 시점의 관측치(Ot)=추세성분(Tt)*계절성분(St)*불규칙성분(It)
1단계) 점차 증가하는 경향 : 추세변동
ⅰ 최소제곱법을 이용한 추세선 적합 : 직선 식을 만듦. 단순 회귀
Y = 22.2 + 0.6529*t ; 분해된 값 얻음. 추세 성분 제거된 데이터
ⅱ 계절 성분을 얻기 위해 추세 제거(Detrend) : 상대적 비교가 가능해지면, 순수한 계절 성분 파악 가능.
계절 성분만 남게 되면, 각 계절 별 진폭을 파악할 수 있다.
alpha 파라미터 값을 구해야 한다!
즉, 추세값 예측 -> alpha를 곱해서 계절 성분을 반영하여 최종 예측 값을 얻는 구조
(그림참고) 모든 데이터에 대해서 적합값을 1로 보고, 상대적인 값을 구하는 것이다.
ⅲ 계절 성분을 얻기 위해 평활화(Smoothing) : 들쭉날쭉 하는 값들을 부드럽게, 매끈하게 만든다. 불규칙한 오차, 해석할 수 없는 변동들이 평균에 의해 데이터 속에서 뭍힐 수 있다.
불규칙 성분을 제거하기 위해 평활화 수행!
단일이동평균 : 데이터를 공통으로 묶어서 계속해서 평균하는 형식
중심이동평균 : 데이터 묶음이 홀수인 경우 중간 값, 짝수인 경우 ~~
단일지수평활, 이중지수평활, Winters방법
==>"평활화된 자료" (Raw Seasonals)
이동평균 대비 그 시점의 값의 비율 -> 값의 Balance가 맞춰지는 효과
2단계) 여름에 판매량이 높아짐 : 계절변동
ⅰ 계절변동지수 얻기(alpha)
계절별 중앙값을 얻은 후, 하나의 계절 주기 내 평균을 구하고, 이 평균을 1로 보고 각각의 계절별 중앙값의 상대적 크기를 구한다.
alpha1=0.474, alpha2=1.217, alpha3=1.684, alpha4=0.625(계절변동지수)
ⅱ 필요시 계절변동조정
명절과 같은 특정한 시기에 발생한 소비 증가가 특수한 사건으로 발생된 변동임을 감안하여 해석에서 제외시킴으로써 통계 간 관계파악과 일반적 움직임을 해석하는 용도로 사용한다. 이것을 계절 변동 조절이라고 한다. 단, 판매 예측에서는 이를 포함해야 한다.
Deseasoned Data = 원자료/계절변동지수
원 자료를 계절 변동 지수로 나누어준다. (Trend / Deseasoned Data)
3단계 ) 예측
다음 여름 판매량 예측
선형 예측식 * 계절변동 지수
㉡ 가법 모델(Model) : 계절변동의 진폭이 추세에 따라 대체로 일정한 경우
일정한 진폭 패턴인 경우 가법 모델을 적용한다.
Detrend의 경우, 실제값에서 적합값을 빼주어 Detred 수행
c.f 승법모형에서는 나누어 줌
<정리>
승법 모형 = 추세 요인 * 순환 요인 * 계절 요인 * 불규칙 요인
가법 모형 = 추세 요인 + 순환 요인 + 계절 요인 + 불규칙 요인
추세 요인(Trend factor)은 인구, 자원, 자본재, 기술의 변화 등과 같은 요인들에 의해 영향을 받는 장기 변동 요인으로서, 급격한 충격이 없는 한 지속되는 특성이 있다. '10년 주기의 세계경제 변동 추세' 같은 것이 추세 변동의 예라고 할 수 있다.
순환 요인(Cycle factor)은 경제활동의 팽창과 위축과 같이 불규칙적이며 반복적인 중기 변동 요인을 말한다. 주식투자가들이 '건설업/반도체업/조선업 순환주기'를 고려해서 투자하자는 것이 예라고 할 수 있다.
계절 요인(Seasonal factor)은 12개월(1년)의 주기를 가지고 반복되는 변화를 말하며, 계절의 변화, 공휴일의 반복, 추석 명절의 반복 등과 같은 요인들에 의해 발생한다.
불규칙 요인(Irregular/Random factor, Noise)은 일정한 규칙성을 인지할 수 없는 변동의 유형을 의미한다. 천재지변, 전쟁, 질병 등과 같이 예상할 수 없는 우연적 요인에 의해 발생되는 변동을 총칭한다. 경제 활동에 미미한 영향을 미치기도 하지만 때로는 경제생활에 지대한 영향을 주기도 한다.
4. 이동평균(Moving Average)
MSE(Mean of the Squared Error)?
'평균'으로 추정한다면?
-추세(증가/감소)가 존재하는 경우에는 다른 추정량이 필요하다
-데이터의 1/n 만큼 동일한 가중치를 부여한다. 이것이 부적합한 경우 이동 평균으로 추정한다.
MSD(MSE와 같은 개념) 구하기?
2개씩 평균을 구한 후 이를 이용하여 다음 시점의 결과를 예측하고 MSD 구하기
(이전 두 시점의 데이터의 평균으로 다음 시점의 데이터를 예측하는 꼴)
멀리 떨어진 시점의 결과를 예측할 경우 동일한 예측값이 나온다는 단점이 있다!
예측값의 신뢰구간 이용해 상황에 따라 적절히 선택할 수 있다.
판매량이 줄어들 것 같은 경우 예측에 대한 95% 신뢰구간의 하한을 최종 예측값으로 선택
중심이동평균(Centered Moving Average)
장점 : 이동평균 이용해 단기간 예측 가능하다.
단점 : 차수가 증가해도 마지막의 평균값이 유지된다
5. 단일지수 평활(Single Exponential Smoothing)
<개념 간단 정리>
이동 평균 : 부분군내 각 데이터에 1/n 만큼씩 동일하게 가중
지수 평활 : 최근 관측치일수록 더 많은 가중치를 주기 위해 오래된 관측치의 가중치를 지수 함수적으로 감소시킨 접근
단일지수 평활 : 지수 함수적으로 가중치가 부여된 평활화, '추세 변동'과 '계절 변동'이 없는 경우에 사용
이중지수 평활 : '단일지수 평활'을 두 번 적용, '선형 추세'가 존재할 경우에 유용
삼중지수 평활 : '지수평활'을 세 번(즉, 지수 함수적으로 가중되는 파라미터가 3개 존재)할 경우, '추세'뿐만 아니라 '계절 변동' 모두 포함된 경우에 적절, 미니탭 메뉴에는 'Winters방법'으로 표기
"단일지수 평활"의 특징
-'기본 평활화 방정식(Basic Equation of Exponential Smoothing)'이라 불림
-상수 'Alpha'를 '평활 상수'라 부른다. Alpha의 범위는 일반적으로 0이상 1이하로 주로 쓰인다.
->Alpha를 조정해가면서 오차가 가장 적은 지점을 선택한다.
장점 : 예측의 갱신이 쉽다, 직관적이고 사용이 용이하다, 이상점이나 개입의 존재 시 ARIMA 모형보다 형상을 덜 받는다.
단점 : 평활상수 alpha의 선택이 임의, 특정모형 하에서만 최적으로, 이론적으로 미흡하다, 예측구간을 구하기 어렵다, 개별적인 시계열의 특성이 무시된다, 추세변동, 계절변동이 모형에서 고려되지 않는다.
+참고
6. 이중지수 평활(Double Exponential Smoothing)
예측 = 전체 평활 + 추세 평활
ARIMA(0,2,2)
7. Winters의 방법(Holt-Winters Method)
삼중 지수 평활 : 계절성분은 반드시 존재! 추세와 계절이 존재할 때 사용
승법/가법 모형 두 가지 다 해보고 오차가 낮은 것을 선택함
계산 방법 생략~~
8. 자기상관이 있는 경우의 처리
자기 상관 : 두 개의 column을 가지고 상관분석을 했을 때 유의한 경우
자기 회귀 모형 (Autoregressive Models)
'Stay Hungry Stay Foolish > Statistics Major' 카테고리의 다른 글
통계학 개요 (0) | 2023.06.19 |
---|
댓글