ARIMAX와 Granger Causality
본 프로젝트는 경희대학교 산업경영공학과 학도들과 진행한 프로젝트로, 코로나와 같은 질병 팬데믹 상황이 금융 시장 예측에 유효한 변수로 작용하는지를 통계적인 방법으로 검정하고자 한 프로젝트이다.
기간 : 2024.03 ~ 2024.12
주제 : ARIMAX와 Granger Causality를 이용한 COVID-19와 국내 ETF 가격 사이의 통계적 유의미성 검증
목적 : COVID-19 변수가 ETF 시장 같은 금융 시장의 수익률 예측력을 향상하는데 도움이 되는가
1. Introduction
코로나19 팬데믹은 전 세계 금융 시장에 큰 영향을 미치며 전례 없는 수준의 불확실성과 변동성을 야기하였다. 경제가 멈추고 공급망이 붕괴되면서 투자자들은 다양한 금융상품으로 피난처를 찾았고, 그 중 상장지수펀드(ETF)가 유동성, 분산투자 이점, 투명성으로 인해 인기 상품으로 떠올랐다. 한국의 경우, 팬데믹 기간 동안 투자자들이 리스크를 헤지하고 개별 섹터의 변화하는 역학을 활용하려는 목적으로 섹터별 ETF가 주목받았다.
본 연구는 한국 섹터 ETF가 코로나19 팬데믹에 어떻게 대응했는지 분석함으로써 글로벌 위기 시 섹터 역학 관계에 대한 이해에 기여하고 향후 시장 혼란에 대응하고자 하는 투자자들에게 실행 가능한 인사이트를 제공하고자 한다.
2. Data
2.1. Collection
코로나19 관련 데이터와 ETF 가격 데이터를 수집하였다. 코로나19 데이터는 한국데이터거래소(KDX)를 통해 수집했으며, 수집된 코로나19 데이터 중 누적 확진자 수와 누적 사망자 수를 주요 외생변수로 채택하였다. ETF 가격 데이터는 네이버증권 홈페이지의 웹 크롤링을 통해 3개 ETF 상품의 33개 개별 섹터를 수집하였다. 데이터 수집 기간은 코로나19 사태의 진행 상황을 반영해 2020년 2월 27일부터 2023년 4월 20일까지로 설정하였다.
변수명 | 설명 |
누적 확진자 수 | 2020년 2월 27일부터 2023년 4월 20일까지 코로나 누적 확진자 수 |
누적 사망자 수 | 2020년 2월 27일부터 2023년 4월 20일까지 코로나 누적 사망자 수 |
인덱스 명 | 섹터명 |
KODEX (16) | 2차전지, 건설, 경기소비재, 기계장비, 미디어엔터테인먼트, 반도체, 보험, 에너지화학, 운송, 은행, 자동차, 증권, 철강, 필수소비재, 헬스케어, IT |
TIGER (9) | 경기방어, 반도체, 방송통신, 소프트웨어, 은행, 중공업, 증권, 헬스케어, 화장품 |
TIGER200 (8) | 건설, 경기소비재, 산업재, 생활소비재, 에너지화학, 철강소재, 커뮤니케이션서비스, IT |
2.2. Preprocessing
ETF 일일 종가 데이터의 경우 시계열 데이터의 정규성을 확인하기 위해 수익률로 살펴보기로 했다. 수익률 변화를 적용하기 전과 후의 데이터에 대해 ADF 검정과 KPSS 검정을 수행하여 정규성 여부를 검증했습니다.ADF 테스트의 경우 귀무가설(H0)은 '데이터가 정규성을 따르지 않는다'이며, KPSS 테스트의 경우 귀무가설 H0은 '데이터가 정규성을 따른다'이다. 각 테스트에서 정규성에 대한 가설 검증은 5%의 유의 수준에서 수행되었다. 수행 결과는 다음과 같다.
데이터 | 테스트 종류 | p-value | 정규성 여부 |
일일 종가 데이터 | ADF-test | 0.63 (>0.05) | X |
KPSS-test | 0.01 (<0.05) | X | |
5일 수익률 데이터 | ADF-test | 0.00 (<0.05) | O |
KPSS_test | 0.08 (>0.05) | O |
표에 나타난 것처럼 5일 수익률 데이터에 대해서는 두 검정 결과 모두 정규성을 보장하는 것으로 나타났다. 코로나19 확진자 및 사망자의 경우, 데이터를 5일간의 변화율 데이터로 변환하여 ETF 데이터와 규모를 일치시킨 다음 분석하였다.
3. Methodology
3.1. ARIMAX
ARIMAX는 복잡한 시계열 데이터 패턴을 잘 포착하고 과거 데이터와 이동평균 요인을 결합해 미래 값을 예측하기 때문에 외생 변수(코로나19 확진자 및 사망자 수)를 포함해 종속 변수인 ETF 가격에 영향을 미치는 다양한 요인을 고려할 수 있다. 이를 통해 코로나19 외생 변수(확진자 및 사망자 수)가 국내 ETF 시장과 상관관계가 있는지 확인할 수 있다.
$$
y_t = c + \sum_{i=1}^p \phi_i y_{t-i} + \sum_{j=1}^q \theta_j \varepsilon_{t-j} + \sum_{k=1}^K \beta_k x_{k, t} + \varepsilon_t
$$
3.2. Granger Causality
Granger Causality는 단순한 상관관계가 아니라 한 시계열이 다른 시계열의 미래 가치를 예측하는 데 유용한지 평가하므로 코로나 데이터가 실제로 ETF 시장에 인과관계가 있는지 아니면 단순히 우연한 변화인지 판단할 수 있다. 인과관계가 발견되면 외생 변수를 중요하게 고려해야 한다는 것을 시사하므로 투자 전략이나 정책 결정을 내릴 때 중요한 기준이 될 수 있다.
$$y_t = \alpha_0 + \sum_{i=1}^{p} \alpha_i y_{t-i} + \sum_{j=1}^{q} \beta_j x_{t-j} + \varepsilon_t$$
검정에서는 두 변수에 대해 F-test를 진행하는데, Granger Causality에 대한 F-test는 다음과 같다
$$F = \frac{\left( RSS_R - RSS_U \right) / q}{RSS_U / \left( N - p - q - 1 \right)}$$
3.3. K-Means Clustering
K-Means Clustering은 유사한 특성을 가진 ETF 섹터를 그룹화하는 데 사용되었다. 이를 통해 팬데믹에 대한 섹터의 시장 반응 패턴을 파악하고 금융 시장 내 특정 그룹 간의 구조적 분리를 파악할 수 있었다.
$$J = \sum_{j=1}^{k} \sum_{x_i \in C_j} \lVert x_i - \mu_j \rVert^2$$
4. Results
4.1. ARIMAX Results
ARIMAX 모델의 최적 파라미터(p, d, q)를 결정하기 위해 다양한 조합을 탐색하고 AIC와 BIC를 기준으로 최적의 모델을 선택하였다. 모델의 파라미터는 최대 가능성 추정을 사용하여 추정하였다.
그 결과 33개 중 8개의 섹터가 유의미한 상관관계를 갖는 섹터로 선정됨으로써 코로나 파생 변수와 ETF 가격 변동성 간의 상관관계를 확인할 수 있음을 나타낸다.(통계적 유의성은 일반적으로 사용되는 약한 기준인 p-값 0.1 이하로 정의됨). 이 8개 섹터에서는 외생변수의 회귀계수가 0이라는 귀무가설이 기각되어 외생변수가 포함된 모형인 ARIMAX 모형이 기본 ARIMA 모형보다 더 적합하다는 것을 나타낸다.
TIGER 200의 커뮤니케이션서비스 ETF와 코로나 확진자 수 결과 사이의 상관관계가 가장 강력하고 통계적으로 유의미하게 나왔고, 헬스케어, 은행, 증권, 보험, IT 섹터가 그 뒤를 잇는다.
이전 연구에서는 코로나19 기간 동안 주식 시장의 전체적인 변동성에 대한 검증만 수행된 반면, 우리의 연구에서는 코로나19 팬데믹으로 인해 특히 영향을 받은 주식 시장 내 섹터를 확인했다.
4.2. Granger Causality Results
코로나19 관련 외생변수(확진자 수 및 사망자 수)가 국내 섹터 ETF에 인과관계가 있는지 그랜저 인과관계 검정을 통해 분석한다. 코로나19 외생변수가 국내 섹터 ETF에 미치는 영향을 다양한 기간에 걸쳐 실증적으로 살펴본다.
4.2.1. Methods and Experimental Design
그랜저 인과관계를 분석하기 위해 단기, 중기, 장기적 관점을 반영하기 위해 20일, 40일, 60일, 120일 등 다양한 기간 (window)을 사용했다. 각 ETF에 대해 코로나19 사망자 수와 확진자 수를 외생 변수로 하여 테스트를 독립적으로 수행한 후, F-test를 통해 날짜별, 국내 섹터 ETF별 각 지연에 대한 p-값을 계산하고 가장 낮은 p-값을 기준으로 최적의 지연을 결정하였다.
4.2.2. Extracting time series bins with Granger Causality
확진자 및 사망자 수에 따른 window 크기(20, 40, 60, 120)별 최적 지연의 p-값을 히트맵으로 시각화하였다. 이는 국내 섹터 ETF에서 코로나 바이러스 외생변수가 그랜저 인과관계를 갖는 시계열 구간을 추출하기 위해 수행되었다. 히트맵의 Y축에는 국내 섹터 ETF의 이름을, X축에는 외생변수 데이터가 있는 2020-02-27부터 2023-03-23까지의 시계열 날짜를 8일 간격으로 삽입하였다. P값이 낮을수록 빨간색으로 칠해진다.
국내 섹터 ETF에서 사망자 수 외생변수가 그랜저 인과관계를 갖는지 여부에 대해 기간, ETF 섹터, 시계열에 걸쳐 통계적으로 유의미한 결과를 확인하였다. 위 이미지의 예시를 살펴보면, 코로나19 발생 초기 기간(2020년 2월 27일~3월 25일)에는 ETF 섹터와 window에 관계없이 p-값이 낮아지는 경향이 있음을 알 수 있다. 이는 모든 ETF 섹터가 코로나19 발병 초기에 코로나 바이러스 사망자 수 변수에 통계적으로 유의미한 영향을 미쳤음을 의미한다. 또한 120의 window를 기준으로 할 때 ETF 섹터에 관계없이 코로나19 후기(2022년 4월 5일~2022년 10월 5일)에 p-값이 더 낮은 경향이 있는 것으로 나타났다. 이는 모든 ETF 섹터가 코로나19 후반기에 코로나 사망자 수 변수에 통계적으로 유의미한 영향을 미쳤다는 것을 의미한다. 그랜저 인과관계 테스트를 사용하여 20, 40, 60, 120의 윈도우 크기를 비교한 결과, 윈도우 크기가 120일 때 유의 수준 이하의 p-값을 가진 구간차원이 더 많이 관찰되었다.
4.3. K-Means Clustering
K-Means Clustering을 사용하여 ARIMAX 모델에서 코로나19 외생변수가 통계적으로 유의미한 영향을 미치는 섹터 ETF가 그랜저 인과관계 테스트에서도 유의미한 p값을 가진 구간을 자주 기록하는지 분석하였다. 이를 위해 K-Means Clustering 결과를 분산형 차트로 시각화하였다.
분석을 위해 X축은 그랜저 인과관계 검정에서 특정 부문의 외생변수(확진자 수, 사망자 수)의 p-값이 0.05 이하로 기록된 총 횟수로 설정하고, Y축은 해당 부문의 외생변수가 아리맥스 모델에 포함되었을 때의 p-값으로 설정하였다. 마지막으로 K-Means Clustering을 수행하여 어떤 외생변수와 섹터가 함께 군집화되는지 확인하였다.
최적의 클러스터 수는 Calinski-Harabasz 지수를 통해 총 12개로 도출되었다. K-평균 클러스터링 결과는 분산형 차트의 오른쪽 상단에 위치한 섹터가 하나의 클러스터로 그룹화되었음을 보여준다. 이 결과는 ARIMAX 모형에서 외생변수가 모형의 예측력에 통계적으로 유의미한 영향을 미쳤으며, 그랜저 인과관계도 분석된 8개 섹터 ETF 중 3개 섹터에서 유의미한 것으로 나타났다: TIGER 200 커뮤니케이션서비스(확진자 수), TIGER 200 IT(사망자 수), KODEX 보험(확진자 수) - 우측 상단 노란색 군집
5. Discussion
본 연구는 코로나19 팬데믹 기간 동안 국내 섹터 ETF가 팬데믹 외생변수(확진자 수 및 사망자 수)에 어떻게 반응했는지 분석하여 팬데믹과 금융시장 간의 관계를 이해하는 데 중요한 시사점을 제시한다.
- ARIMAX 모델 분석을 통해 특정 섹터 ETF, 특히 TIGER200 커뮤니케이션서비스, KODEX 헬스케어, TIGER200 IT가 코로나19 사망자 수와 상관관계가 있음을 발견했다. 이러한 결과는 비대면 경제로의 전환, 의료 서비스에 대한 수요 증가 등 팬데믹이 특정 섹터에 가져온 경제적, 사회적 변화를 반영한다.
- Granger Causality Test는 팬데믹 초기 및 후기 단계에서 외생변수와 ETF 간의 인과관계가 더 강한 시기를 확인했다. 특히 팬데믹 초기(2020년 초)에는 대부분의 섹터가 확진자 수와 사망자 수 모두에서 유의미한 인과관계를 보였다. 팬데믹 중기(2021년 7월 1일~2021년 10월 30일)에는 특정 부문이 확진자 수에, 팬데믹 말기(2022년 4월 5일~2022년 10월 5일)에는 특정 부문이 사망자 수에 유의미한 인과관계를 보였다. 이는 팬데믹 충격이 시장 참여자들의 심리와 투자 패턴에 미치는 영향이 시간이 지남에 따라 변화했음을 시사한다.
- Granger Causality Test는 윈도우 크기 20과 120을 비교하여 윈도우 크기가 120일 때 p값이 유의 수준 아래로 떨어지는 구간차원이 더 많다는 것을 관찰한다. 이는 시계열 데이터에서 볼 수 있는 장기적인 의존성과 밀접한 관련이 있다. 윈도우 크기가 작으면 데이터 구간차원이 짧아 단기 변동성(노이즈 포함)에 민감할 수 있다. 반면에 창 크기를 확장하면 데이터의 장기 패턴을 포착할 수 있으므로 외생 변수의 누적 또는 구조적 효과를 더 명확하게 파악할 수 있다.
- K-Means Clustering 분석 결과, ARIMAX 모델에서 유의미한 영향을 받은 일부 업종만이 Granger Causality Test에서도 유의미한 것으로 나타났다. 이는 팬데믹 변수의 영향이 모든 업종에 균일하게 반영되는 것이 아니라 특정 업종에 강하게 반영된다는 것을 보여준다.
6. Conclusion
이 연구는 코로나19 팬데믹이 한국 섹터 ETF에 미친 영향을 심층 분석하여 팬데믹 외생변수가 금융시장에 미치는 구체적인 영향을 정량적으로 파악했습니다. 주요 결론은 다음과 같습니다.
- ARIMAX 모델 분석 결과 팬데믹 외생변수가 특정 섹터 ETF의 가격 변동성에 유의미한 영향을 미친다는 것을 확인했습니다. 특히 통신 서비스, 헬스케어, IT 섹터는 팬데믹 기간 동안 언택트 경제와 헬스케어 서비스 수요 증가에 큰 영향을 받았다.
- Granger Causality Test 결과, 팬데믹 초기 및 후반에 섹터 ETF와 외생변수 간의 인과관계가 더 강하다는 것을 확인했습니다. 이는 외생적 충격이 금융시장에 미치는 영향이 시간이 지남에 따라 변화한다는 것을 보여준다.
- K-Means Clustering 분석에 따르면 ARIMAX와 Granger Causality Test 모두에서 유의미한 섹터 수가 제한되어 있어 팬데믹 변수의 영향이 모든 섹터에 동일하게 영향을 미치지 않았음을 시사한다.
- ARIMAX 및 Granger Causality Test의 통계적 유의성은 코로나 바이러스 외생 변수를 독립 변수로 추가하면 ETF 가격 예측 성능이 향상된다는 것을 시사한다.
Github Link
Github Link" target="_blank" rel="noopener" data-mce-href="http://Github Link">http://Github Link
'Projects' 카테고리의 다른 글
[Time Series] 탄소배출권 가격 예측 프로젝트 (2) | 2024.09.05 |
---|---|
[Financial Time Series & RL] 시계열 분석과 강화학습을 이용한 국내 주식 트레이딩 (0) | 2024.06.27 |
[Financial Time Series & NLP] 뉴스 기사와 감성 분석을 통한 Netflix 주식 종가 예측 (5) | 2024.02.29 |
[Computer Vision] Yolov5 모델을 기반으로 한 CCTV 이미지 객체 검지 (0) | 2024.02.20 |