(메인) : 리스크 헷지 기반 ETF 추천 프로젝트
프로젝트 요약
1:1 상관 분석을 통해 같은 섹터 내에서 주가가 서로 반대로 이동하는 경향성을 가진 ETF들을 발견한다.
특정 ETF를 선택했을 때, 같은 섹터 혹은 다른 섹터에 특정 ETF와 반대 경향성을 보이는 ETF를 추천하여 리스크를 헷지하도록 돕는다.
*헷지 : 파라미터 변동으로 인한 가격 위험을 제거하여 손실을 방지하는 행위
프로젝트 과정
- 데이터 수집
- ETF상품: KODEX, TIGER 사용
- KODEX: 삼성자산운용사 ETF 상품
- TIGER: 미래에셋자산운용사 ETF 상품
- 외 17개 브랜드…
- 네이버증권 크롤링
- Yahoo Finance 크롤링
- 섹터ETF 일별 시세
- yfinance 모듈 활용
- 데이터 가공
- 섹터ETF 일별 시세 데이터들을 하나의 window로 통일
- ex: (2020-03-01 ~ 2024-03-01)로 모든 섹터ETF의 기간을 맞춤
- Date(날짜)와 close(종가)를 제외한 모든 feature(열) 삭제
- 시계열 데이터의 정상성 보장을 위한 차분 or 변화율 변환 수행 후, 새로운 열에 삽입
- 정상성: 시계열 데이터의 특성이 시간의 흐름에 따라 변하지 않는다는 것을 의미한다. 즉, 관측값은 시간에 의존적이지 않다는 것을 의미한다. 데이터가 정상성을 가진다는 것은 평균과 분산이 안정화되어 있어 분석하기 쉽다는 것을 의미한다.
- 차분: 각 관측값을 해당 관측값과 앞 시점의 관측값의 차이로 대체하여 전 기간에 걸쳐 평균이 일정한 정상 시계열로 변환하는 방법
- 변화율 변환: 각 관측값을 해당 관측값과 앞 시점의 관측값의 변화율로 대체하여 정상 시계열로 변환하는 방법
- 데이터 분석
-
Correlation Analysis: 같은 섹터 내 각 ETF의 주가 변동 경향성의 상관관계를 1대1로 분석
양의 상관관계가 높은 섹터끼리는 주가가 함께 움직이는 경향이 있다고 판단
음의 상관관계가 높은 섹터는 주가가 반대로 움직이는 경향이 있다고 판단
- 비선형 상관 분석 사용
- 스피어만 상관계수(Spearman correlation coefficient)
- 켄달의 순위 상관계수
- 필요한 경우 Copula, VAR 등의 비선형 관계 분석 도구 활용
- *추가: 상관계수 계산 시, 섹터ETF끼리 유사하다고 판단할 threshold(임계값)이 필요
- *추가: 얼마나 유사한지 보여주는 척도를 계산할 필요가 있음
- ex: KODEX_반도체 섹터와 KODEX_헬스케어 섹터는 87% 유사함
-
Volatility Analysis: 상관 관계가 있는 두 ETF의 비율을 조절했을 때 어느 정도의 리턴 상승/하락과 리스크 상승/하락이 있을지 분석하여 추천점을 파악
최대 리턴 상승 & 최소 리스크 상승
최소 리턴 하락 & 최대 리스크 하락
- 각 ETF의 수익률의 표준편차를 통해 변동성 측정
- 비율을 조정하며 반복적으로 비교하여, 높은 변동성이 있는 경우와 낮은 변동성이 있는 경우를 각각 도출
- 비율 조정 기능을 추가로 만들어서, 사용자의 입력에 따라 어느 정도의 변동성이 생기는지 도출