시계열 데이터 분해의 핵심 개념과 3가지 방법 [Python 실습] - Palette Path

1. 시계열 데이터 분해란 무엇인가?

시계열 분석을 하다 보면 “이 데이터는 어떤 경향이 있는가?”, “계절적인 요인이 있는가?”, “무작위적인 변동은 얼마나 되는가?” 같은 질문을 던지게 됩니다. 이럴 때 가장 기본적이면서도 강력한 분석 도구가 바로 시계열 데이터 분해(Time Series Decomposition)입니다.

시계열 분해는 복잡하게 보이는 시계열 데이터를 다음의 세 가지 주요 성분으로 나누는 작업입니다:

🔹 Trend (추세)

시간이 지남에 따라 증가하거나 감소하는 장기적인 패턴입니다. 예를 들어, 온라인 쇼핑몰의 월간 매출이 시간이 지나면서 꾸준히 증가한다면 이것이 추세입니다.

🔹 Seasonality (계절성)

일정한 시간 간격으로 반복되는 주기적 변동입니다. 계절, 요일, 시간대 등에 따라 발생할 수 있으며, 예컨대 여름철에 에어컨 판매가 늘어나는 것도 계절성의 예입니다.

🔹 Residual (잔차 또는 불규칙성)

추세와 계절성을 제거한 후 남는 부분으로, 통제할 수 없는 외부 요인이나 노이즈에 해당합니다.

이 세 가지를 각각 분리하여 분석함으로써, 우리는 더 정확한 예측을 하고, 이상 감지, 비즈니스 의사결정 등에 활용할 수 있습니다.

2. 분해 방식의 분류

시계열 분해를 할 때는 데이터가 어떤 구조를 가지고 있는지를 먼저 파악해야 합니다. 분해 방식에는 대표적으로 다음 두 가지가 있습니다:

🔸 Additive Model (가법 모델)

이 모델은 다음과 같은 식으로 표현됩니다: y(t)=T(t)+S(t)+R(t)y(t) = T(t) + S(t) + R(t)

즉, 전체 시계열은 추세 + 계절성 + 불규칙성의 단순한 합으로 구성된다고 보는 모델입니다. 주로 변동 폭이 일정한 경우에 적합합니다.

🔸 Multiplicative Model (승법 모델)

y(t)=T(t)timesS(t)timesR(t)y(t) = T(t) \\times S(t) \\times R(t)

데이터의 변동 폭이 시간에 따라 달라지는 경우에 더 적합한 모델입니다. 예를 들어, 매출이 많아질수록 계절적인 영향도 더 커지는 경우 등이 여기에 해당합니다.

✔️ 어떤 모델을 선택해야 할까?

가법 모델: 데이터가 일정한 진폭(변동 폭)을 가지고 있을 때
승법 모델: 진폭이 점점 커지거나 작아질 때 (비율적으로 변화할 때)

👉 일반적으로는 시각화를 통해 확인한 후 적절한 모델을 선택합니다.

✅ 간단한 실습: 가법 모델을 적용해보자

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from statsmodels.tsa.seasonal import seasonal_decompose

# 데이터 생성
date_range = pd.date_range(start='2023-01-01', periods=365, freq='D')
seasonal = 10 * np.sin(2 * np.pi * date_range.dayofyear / 365)
trend = 0.05 * np.arange(365)
noise = np.random.normal(0, 1, 365)
data = trend + seasonal + noise

df = pd.DataFrame({'Date': date_range, 'Value': data})
df.set_index('Date', inplace=True)

# 시계열 분해
result = seasonal_decompose(df['Value'], model='additive', period=365)

# 시각화
result.plot()
plt.suptitle('Additive Decomposition Example', fontsize=16)
plt.tight_layout()
plt.show()

이 코드에서는 추세, 계절성, 잔차가 어떻게 나뉘어지는지 한눈에 볼 수 있습니다.

3. 주요 시계열 분해 기법 소개

시계열 분해를 수행하는 데에는 여러 가지 기법이 존재하며, 각각의 기법은 적용 대상과 분석 목적에 따라 적절히 선택되어야 합니다. 아래는 대표적인 분해 기법들입니다.

🔹 1) Classical Decomposition (`seasonal_decompose`)

Statsmodels 라이브러리에 포함된 가장 기본적인 분해 방법입니다. 일정한 주기(period)를 기준으로 데이터를 additive 또는 multiplicative 모델로 분해합니다.

장점: 구현이 간단하고 빠르며 직관적
단점: 불규칙한 데이터, 이상치에 민감하며 seasonality가 고정되어야 함

from statsmodels.tsa.seasonal import seasonal_decompose

result = seasonal_decompose(df['Value'], model='additive', period=365)
result.plot()
plt.suptitle('Classical Additive Decomposition', fontsize=16)
plt.tight_layout()
plt.show()

🔹 2) STL (Seasonal-Trend decomposition using Loess)

보다 유연한 방식으로, **로컬 회귀(Loess)**를 기반으로 추세와 계절성을 분리하는 방식입니다. 이상값에 강인하며, 계절성이 시간에 따라 약간 변하는 경우에도 잘 작동합니다.

from statsmodels.tsa.seasonal import STL

stl = STL(df['Value'], period=365)
res = stl.fit()
res.plot()
plt.suptitle('STL Decomposition', fontsize=16)
plt.tight_layout()
plt.show()

장점:
- 이상값에 강함
- 계절성이 시간에 따라 약간 변해도 견고하게 처리
단점:
- 계산 비용이 더 큼

🔹 3) Prophet (by Meta/Facebook)

Prophet은 시계열 데이터를 구성 요소(Trend, Seasonality, Holidays)로 분해해 예측까지 수행할 수 있는 고급 도구입니다. 계절성 자동 탐지, 결측값 처리, 추세 전환점 감지 기능이 매우 강력합니다.

from prophet import Prophet

df_prophet = df.reset_index().rename(columns={'Date': 'ds', 'Value': 'y'})
model = Prophet()
model.fit(df_prophet)

future = model.make_future_dataframe(periods=30)
forecast = model.predict(future)

model.plot_components(forecast)
plt.suptitle('Prophet Components (Trend, Seasonality)', fontsize=16)
plt.tight_layout()
plt.show()

장점:
- 실무 적용에 최적화
- 추세 전환점 자동 탐지, 휴일 효과 모델링
단점:
- 모델 구조가 상대적으로 블랙박스 성격

4. 파이썬 실습: 다양한 분해 기법 비교

이제 앞서 소개한 3가지 기법을 하나의 데이터셋에 적용해보고, 결과를 시각적으로 비교해보겠습니다.

# 데이터 생성
np.random.seed(42)
date_range = pd.date_range(start='2022-01-01', periods=730, freq='D')  # 2년치
seasonal = 15 * np.sin(2 * np.pi * date_range.dayofyear / 365)
trend = 0.1 * np.arange(730)
noise = np.random.normal(0, 2, 730)
data = trend + seasonal + noise

df_compare = pd.DataFrame({'Date': date_range, 'Value': data})
df_compare.set_index('Date', inplace=True)

🔍 1. Classical Decomposition

from statsmodels.tsa.seasonal import seasonal_decompose

decomp1 = seasonal_decompose(df_compare['Value'], model='additive', period=365)
decomp1.plot()
plt.suptitle('Classical Decomposition', fontsize=14)
plt.tight_layout()
plt.show()

🔍 2. STL

from statsmodels.tsa.seasonal import STL

stl = STL(df_compare['Value'], period=365)
res = stl.fit()
res.plot()
plt.suptitle('STL Decomposition', fontsize=14)
plt.tight_layout()
plt.show()

🔍 3. Prophet

from prophet import Prophet

df_prophet = df_compare.reset_index().rename(columns={'Date': 'ds', 'Value': 'y'})
model = Prophet()
model.fit(df_prophet)

future = model.make_future_dataframe(periods=0)
forecast = model.predict(future)

model.plot_components(forecast)
plt.suptitle('Prophet Decomposition', fontsize=14)
plt.tight_layout()
plt.show()

✅ 비교 요약

기법	장점	단점
Classical	간단하고 빠름	이상치에 민감, 고정된 계절성
STL	이상치에 강하고 유연함	계산량이 많음
Prophet	휴일 처리, 트렌드 전환 감지 등 풍부한 기능	구조가 다소 블랙박스

5. 시계열 분해 활용 사례

시계열 분해는 단순히 데이터를 시각적으로 분리하는 것을 넘어서, 실제 문제 해결에 적극적으로 활용됩니다. 아래는 주요 적용 분야와 사례입니다.

🎯 1) 이상 감지 (Anomaly Detection)

시계열에서 추세와 계절성을 제거하고 남은 **잔차(Residual)**를 분석하면, 비정상적인 급격한 변동을 효과적으로 탐지할 수 있습니다.

실습 예제: 이상값 탐지

# 이상값이 포함된 데이터 생성
df_anom = df_compare.copy()
df_anom.iloc[200:205] += 25  # 이상값 삽입

# STL 분해 후 residual 분석
stl = STL(df_anom['Value'], period=365)
res = stl.fit()

# 이상 감지 시각화
plt.figure(figsize=(12, 4))
plt.plot(res.resid, label='Residual')
plt.axhline(y=3*np.std(res.resid), color='red', linestyle='--', label='Threshold')
plt.axhline(y=-3*np.std(res.resid), color='red', linestyle='--')
plt.title('Residual을 활용한 이상 감지')
plt.xlabel('Date')
plt.legend()
plt.grid(True)
plt.tight_layout()
plt.show()

이 예제에서는 잔차의 표준편차를 기준으로 임계치를 설정하여 이상값을 식별합니다.

📈 2) 성수기 및 이벤트 분석

제품 판매량, 방문자 수, 트래픽 등에서 계절성을 분리하면, 실질적인 트렌드를 볼 수 있어 마케팅 전략에 활용됩니다.

예를 들어, 시즌별 프로모션이 실제로 효과가 있었는지를 보기 위해 **계절성과 분리된 추세(Trend)**만 분석하는 것이 유용합니다.

🔮 3) 예측 모델 개선

분해한 시계열을 구성 요소별로 모델링하면, 전체 시계열보다 더 정밀한 예측이 가능합니다.

예: y(t) = trend(t) + seasonality(t) + noise(t) 각각을 모델링 후 합산

이는 특히 머신러닝 기반 예측 모델에서 효과적입니다. Prophet은 이 방식을 내장하고 있습니다.

6. 주의할 점 및 한계

시계열 분해는 매우 강력하지만, 모든 상황에 완벽하지는 않습니다. 몇 가지 주의할 점을 알고 있어야 실수 없이 적용할 수 있습니다.

⚠️ 1) 적절한 주기(Period)를 설정하지 않으면 왜곡될 수 있음

계절성이 존재하더라도 period 설정이 잘못되면 패턴이 사라지거나 이상하게 보입니다.
예: 주간 패턴인데 period=30 설정 → 분해 오류 발생

팁:

.autocorrelation_plot() 또는 .acf() 함수로 주기성 탐지 가능

⚠️ 2) 비정상 시계열은 분해 전 전처리 필요

비정상성(Non-stationarity): 분산이나 평균이 시간에 따라 달라지는 시계열은 분해가 어려움
해결 방법: 로그 변환, 차분(Differencing) 등으로 안정화 처리 후 분해

⚠️ 3) STL, Prophet은 계산량이 많음

특히 긴 데이터셋이나 실시간 분석에는 STL보다 빠른 대체 방법이 필요할 수 있음
Prophet도 내부적으로 복잡한 수치를 사용하므로, 대량 데이터 처리 시 주의 필요

⚠️ 4) 시계열 구성 요소 간 완벽한 분리 불가능

실제 데이터는 추세와 계절성이 얽혀 있거나, 명확히 나뉘지 않는 경우가 많습니다.
예를 들어, 한 기업의 매출은 경기, 계절, 마케팅, 사회적 요인 등이 복합적으로 작용합니다.

✅ 실무 팁

체크포인트	설명
분석 전 `period` 확인	시계열 특성을 미리 탐색하고 설정
STL → 이상치에 강함	불안정하거나 잡음 많은 데이터에 유리
Prophet → 유연한 구성	휴일 효과, 예외 이벤트 포함 가능
잔차 분석	이상 감지 및 품질 관리에 매우 효과적

7. 마무리: 언제, 왜 분해를 고려해야 하는가?

시계열 데이터를 다루는 프로젝트에서 “분해(Decomposition)”는 단순한 시각화 이상의 역할을 합니다. 이 기술은 데이터의 본질을 파악하고, 모델의 정확도를 높이며, 이상값 탐지 및 성능 분석을 위한 강력한 도구가 됩니다.

하지만 중요한 질문은 다음과 같습니다.

“언제 시계열 데이터를 분해해야 할까?”

📌 분해가 필요한 대표적인 상황

✅ 1. 시계열이 너무 복잡해 보일 때

시각적으로 명확한 패턴을 파악하기 어려운 경우, 분해를 통해 개별 구성 요소(추세, 계절성, 불규칙성)로 나눠보면 문제의 핵심이 드러납니다.

✅ 2. 이상값 또는 급격한 변동을 감지하고자 할 때

잔차(Residual)만을 따로 분석하면 계절성이나 추세에 가려진 이상 패턴을 탐지할 수 있습니다. 이는 모니터링, 품질 관리, 보안 등 다양한 분야에서 핵심 기능입니다.

✅ 3. 모델 성능이 낮을 때

예측 모델이 기대한 만큼 정확하지 않다면, 데이터를 먼저 분해하여 계절성과 추세를 개별적으로 처리하는 방식으로 개선할 수 있습니다.

✅ 4. 비즈니스 인사이트가 필요할 때

단순히 ‘매출이 늘었다’는 사실보다, 그 원인이 계절성 때문인지, 실제 추세인지를 구분하는 것이 중요합니다. 분해는 이러한 정성적 분석의 기초 역할을 합니다.

🧠 분해를 넘어서: 더 나은 시계열 분석 전략을 위해

분해는 시계열 분석의 출발점일 뿐입니다. 이후 단계에서는 다음과 같은 고급 기법과도 자연스럽게 연결됩니다:

예측 모델링: ARIMA, Prophet, LSTM 등
이상 감지 모델: Isolation Forest, Twitter AnomalyDetection
주기/추세 제거 후 분석: 비정상성 해결 후 정상성 기반 모델 적용

📝 결론

시계열 데이터는 단순한 수치의 나열이 아니라, 시간이라는 축을 따라 의미와 패턴이 중첩된 복잡한 신호입니다. 이 신호를 분해해보는 일은 데이터를 ‘읽을 수 있게 만드는’ 첫 번째 단계입니다.

시계열 분해를 통해:

데이터를 더 명확히 이해하고,
더 정확한 예측 모델을 만들고,
더 유의미한 비즈니스 인사이트를 도출할 수 있습니다.

🎯 마지막 팁:

시계열 데이터 분석의 기본은 “패턴을 분리하고, 해석하는 것”입니다.
그리고 그 출발은 바로, 시계열 분해입니다.

시계열 데이터를 이해하고 다루는 것, 왜 중요할까요? [Python 실습]

행렬에서 랭크(Rank)의 정의와 활용, 선형대수학의 핵심

미드저니 프롬프트 엔지니어링: 고품질 AI 이미지 생성을 위한 완벽 가이드