계량경제학 시리즈 1(http://econclass.egloos.com/1733546), 2(http://econclass.egloos.com/1734756)에 이어, 이번엔 시계열분석을 정리해볼까 한다. 굳이 시계열분석을 정리하는 이유는, 한국에서 통계학과 석사과정에 있을때 세부전공이 시계열이었다는 아련한 향수라는 지극히 개인적인 이유와, 경제학 실증연구에서 시계열 데이터를 다루어야 하는 경우가 상당히 많기 때문이다. 물론 덧글로 시계열도 정리해달라는 얘기도 있긴 했지만, 지금 같이 공부하는 박사과정 친구들 중에서도 시계열분석의 기본적인 로직에 대한 이해 없이 분석방법들만 무작정 들이미는 경우도 종종 보아왔던 것도 이 글을 쓰는 이유 중 하나이다. 데이터 분석 방법이나 통계분석 패키지를 마치 자판기에서 커피 뽑아 마시듯 여기는 사람들이 많이 있는데, 엄밀히 말하자면 데이터 분석은 테크닉이 아니라 아트(art)다. 근저에 깔린 논리와 개념을 이해하고 아는만큼 정확하게 데이터 자체의 특징에 잘 맞는 방법을 사용하여 분석할 수 있다. 사실 시계열이 언뜻 복잡하기만 한 수식으로 뒤덮여서 어렵게 보이기는 하지만, 앞서 계량경제학 포스팅에서와 마찬가지로, 수식의 밑에 깔린 논리를 이해하기만 한다면 그리 어렵기만 한 것도 아니다. 하여, 이 포스팅에서는 최대한 수식을 배제하고, 시계열 데이터의 특성과 개념을 중심으로 다루기로 한다.
시계열 데이터의 특성을 이해하기 위해서는 확률과정(stochastic process)이라는 수학적인 개념을 먼저 이해해야 한다. 어떤 확률변수 Y가 있다고 하자. 그리고 이 확률변수의 각 시점에 따른 관찰값이 {y_i}={y_1, y_2, ... , y_t}로 주어져 있다고 해보자. 각 시점에서의 y_i는 특정한 확률과정을 따르는 확률변수 Y의 실현값(realisation)이다. 예를 들어, 매일 아침 10시에 혈압을 잰다고 해보자. 한 달간 혈압을 측정했을 때, 30개의 데이터를 확보했다. 혈압이 특정한 확률과정을 따른다고 하면, 매일 측정한 데이터 각각은 이러한 확률과정을 따르는 혈압이라는 확률변수가 실제로 관찰된 실현값이 되는 것이다. 여기서 시계열 데이터가 일반적인 선형모형에서 가정하고 있는 데이터와의 중요한 차이점이 드러나는데, 바로 실현값이 딱 하나 뿐이라는 점이다. 즉, 해당 시점에서 관찰가능한 확률변수는 오로지 한 개 뿐이기 때문에, 이를 바탕으로 모형을 추정할 수 없다는 문제점이 발생한다. 활용 가능한 데이터는 각 시점마다 한 개씩 t시점의 t개이고, 특정 확률과정에 따른 유일한 데이터를 가지고 모형을 만들기 위해서는 어떻게 해야할지에서부터 고민을 시작하는거다.
이런 문제점을 해결하기 위해 stationarity의 개념을 들고온 것이다. stationarity란, 임의의 j1, j2, ... , jn에 대하여 (Y_t, Y_t+j1, ... , Y_t+jn)의 결합확률분포(joint distribution)가 시점 t에 의존하지 않고 j1, j2, ... , jn에만 의존한다고 정의한다. 직관적으로 보자면, 전체 활용 가능한 데이터 t개를 동일한 구간으로 나누었을 때, 각 구간 내에서 관찰된 데이터들의 확률과정이 관찰된 시점 그 자체와는 상관없이 구간의 크기에만 의존하므로, 동일한 갯수의 연속된 관찰값에 대해서는 시차와 상관없이 같은 확률과정을 따른다고 여기는 것이다. stationarity의 개념을 도입함으로서 단 한 개의 관찰값이라는 문제점을 해결하여 시차에 따른 복수의 활용가능한 데이터를 확보할 수 있는 것이다. 따라서, stationary data의 경우는 일반적인 선형모형에서 쓰는 OLS, MLE 등의 추정, 검정법을 그대로 사용할 수 있다.
stationarity를 만족하는 데이터라고 할지라도, 시차에 따라 각 시점마다 분포의 파라미터가 변한다는 문제점이 아직 남아있다. 이 부분을 보완하기 위해서 ergodicity의 개념을 도입하는데, 특정 기간 내에서 관찰된 T개의 데이터의 sample moment가 T가 커짐에 따라서 전체 확률분포의 moment와 확률적으로 근접한다는 개념이다. 즉, E[y_T]→μ as T→∞이면 ergodic for the mean, 즉 1차 moment인 mean에 대해서 ergodicity이고, 이는 2차, 3차, n차 moment까지 동일하게 확장 가능하다. ergodicity가 의미하는 바는 선형모형에서의 대수의 법칙(law of large numbers)이다. 즉, 시점마다 확률과정을 다르게 추정해야 한다는 문제점이 있지만, stationary data가 ergodicity를 만족한다면 해당되는 시차만큼의 구간에서는 대수의 법칙에 따라 점근적으로 동일분포를 따른다고 볼 수 있다.
여기까지 요약하자면, stationarity와 ergodicity는 유일한 관찰값(single realisation)이라는 문제점을 보완할 수 있는 개념이고, 이 두 가지를 만족하는 데이터는 선형모형에서와 동일한 추정, 검정을 통해 모델링이 가능하다.
그럼 어떻게 시계열 데이터를 모델링 할 것인지에 대한 얘기로 넘어가자. 기본적으로는 선형모형과 동일하다. CLRM에서의 제일 첫 번째 가정, fixed regressor를 돌이켜 생각해보자. 이 가정은 종속변수를 비확률적 요인과 확률적 요인으로 구분한다. 마찬가지로 시계열 데이터도 확률적 요인과 비확률적 요인으로 구분하는 것이 기본적인 모델인 Wold theorem이 말하고 있는 것이다. 즉, Y_t=Y_1t+Y_2t로 나타내는데, Y_1t는 과거 관찰값으로 예측할 수 없는 regular part이고, Y_2t는 과거 관찰값으로 완벽하게 표현할 수 있는 deterministic part이다.
본격적으로 stationary model을 말하기 전에 알아야 하는 개념이 white noise다. (시계열에서는 좀 미리 알아둬야 하는 개념들이 좀 많다..) 다음의 네 가지 조건을 만족하는 확률과정을 white noise라고 한다. (1) E(ε_t)=0 (평균이 0), (2) E(ε^2_t)=σ^2 (분산이 일정), (3) E(ε_tε_s)=0, t≠s (시점이 다른 관찰값은 uncorrelated), (4) ε_t와 ε_s는 독립. Wold theorem에서 Y_1t에 해당되는 regular part가 white noise로 표현되는 부분이다. 시계열분석 모형에서는 각 시차의 white noise process를 통해 특정 시점에서의 확률과정을 추정한다. 즉, 특정 시점에서의 확률과정은 white noise process의 선형결합으로 표현할 수 있다. 이를테면, 햇빛은 그냥 보면 무색이지만, 프리즘을 통해 햇빛을 빨강부터 보라까지의 7가지 색의 결합으로 분해할 수 있는 것과 같다.
stationarity & ergodicity를 만족하는 데이터에 대해서는 MA(moving average) 또는 AR(autoregressive)로 모델링 할 수 있다. 쓰다보니 또 길어져서, MA, AR 모형부터는 다음 포스팅에서 계속 이어서 써볼 참이다. 다음 포스팅에서는 MA, AR 모형의 특징과 추정법, 의미를 다룰 예정이고, 이 모형을 frequency domain으로 바꿔서 표현하는 이유에 대해서 다루도록 할 것이다. 아마도 이게 길어지면 그 다음 포스팅에서 nonstationarity의 경우 어떤 확률과정을 따르고, 어떻게 모형화 할 것인지 등, nonstationarity data에 대하여 집중적으로 다루고, 그 외의 continuous time model, heteroskedasiticity를 다루는 모델 등 특수 문제들을 언급할 예정이다.
ps. stationarity의 개념에 대해 추가설명 (weak stationarity & strict stationarity)
왼쪽의 그래프는 추세가 있는 stationary process이다. 그래프를 보면 stationarity에 대한 개념을 더 직관적으로 이해할 수 있을 것 같아서 좀 더 부연설명을 하자면, stationarity는 강한 의미의 stationarity와 좀 관대한 기준의 stationarity로 구분한다. 강한 의미의 stationarity는 앞서 설명한 것과 같이 정의되는데, 문제는 시점마다 하나씩의 관찰값만으로는 그 결합확률과정을 알 수 없다는 것. 그래서 실제로 stationarity의 개념을 데이터 분석에 활용 가능토록 하기 위해 확률과정이 동일하다는 개념을 2차 모먼트까지만으로 제한한 것이 weak stationarity이다. 즉, 1차 모먼트인 평균, 2차 모먼트인 분산/공분산만 놓고 stationarity 기준에 부합되는지 아닌지를 보는 것이다. 옆의 그래프에서와 같이, 평균은 시점 그 자체가 아니라 시차(이 경우에는 시차 10)에 의존하며, 분산(빨간색 화살표)은 일정하고, 각 시점이 다른 데이터끼리는 서로 독립임을 알 수 있다. 쉽게 얘기해서, weak stationarity는 데이터를 같은 크기의 구간으로 어디를 잘라서 보더라도 1차, 2차모먼트까지 일치하는 확률과정을 말한다.