자영업자 조기경보 AI 시스템 v2.0

실제 카드 거래 데이터를 활용하여 자영업자의 폐업 위험을 3-6개월 전에 예측하는 AI 모델

개요

폐업 감지율 85.7%: 실제 위험 매장의 대부분을 조기에 포착
정확도 97.2%: 높은 신뢰도로 위험도 평가
해석 가능: 구체적인 위험 요인과 개선 방안 제시
실시간 분석: 간단한 API로 즉시 예측

V2.0 주요 개선 사항

지표	V1.0	V2.0	개선
Accuracy	94.3%	97.2%	+2.9%p
Recall	68.2%	85.7%	+17.5%p
Precision	76.5%	89.3%	+12.8%p

상세 개선 내역: CHANGELOG_V2.md 참고

빠른 시작

1. 설치

# 레포지토리 클론
git clone https://github.com/yourusername/early_warning_ai_v2.git
cd early_warning_ai_v2

# 의존성 설치
pip install -r requirements.txt

2. 데이터 준비

데이터 파일을 data/raw/ 폴더에 넣기:

data/raw/
├── big_data_set1_f.csv          # 매장 기본 정보
├── ds2_monthly_usage.csv        # 월별 이용 데이터
└── ds3_monthly_customers.csv    # 월별 고객 데이터

3. 모델 학습

Jupyter 노트북을 실행:

jupyter notebook notebooks/train_model.ipynb

또는 Python 스크립트로:

python src/train.py

4. 예측 사용

from src.predictor import EarlyWarningPredictor

# 모델 로드
model = EarlyWarningPredictor.from_pretrained("models/")

# 매장 데이터
store_data = {
    'store_id': 'CAFE_001',
    'industry': '카페',
    'avg_sales': 35,
    'reuse_rate': 20.0,
    'operating_months': 24,
    'sales_trend': -0.08
}

# 예측
result = model.predict(store_data)

print(f"위험도: {result['risk_score']}/100")
print(f"등급: {result['risk_level']}")
print(f"폐업 확률: {result['closure_probability']:.1%}")

출력:

위험도: 78.5/100
등급: 높음
폐업 확률: 78.5%

주요 위험 요인:
  - 매출 감소 추세: 32.5점
  - 고객 수 감소: 25.8점
  - 재이용률 하락: 12.3점

프로젝트 구조

early_warning_ai_v2/
├── README.md                    # 이 파일
├── CHANGELOG_V2.md              # V2.0 개선 사항
├── requirements.txt             # 의존성
│
├── data/                        # 데이터 폴더
│   ├── raw/                     # 원본 데이터 (여기에 CSV 파일 넣기)
│   └── processed/               # 전처리된 데이터 자동 생성)
│
├── models/                      # 학습된 모델(자동 생성)
│   ├── xgboost_model.pkl
│   ├── lightgbm_model.pkl
│   ├── config.json
│   └── feature_names.json
│
├── src/                         # 소스 코드
│   ├── predictor.py             # 예측 클래스
│   ├── feature_engineering.py   # 특징 생성
│   ├── train.py                 # 학습 스크립트
│   └── utils.py                 # 유틸리티
│
└── notebooks/                   # Jupyter 노트북
    └── train_model.ipynb        # 학습 노트북

주요 기능

1. 다중 기간 매출 분석

1개월, 3개월, 6개월, 12개월 추세 동시 분석
단기 위기와 장기 하락 모두 감지

2. 고객 행동 분석

재이용률 변화 추적
신규 vs 기존 고객 비율
연령/성별 구성 변화

3. 계절성 패턴 감지

업종별 계절적 매출 변동 고려
오경보(False Positive) 대폭 감소

4. 앙상블 모델

XGBoost + LightGBM + CatBoost
하이퍼파라미터 자동 최적화
클래스 불균형 처리(SMOTE)

5. 해석 가능한 AI

위험 요인별 점수화
SHAP 값 기반 설명
구체적인 액션 아이템 제공

모델 성능

혼동 행렬 (Test Set)

	예측: 영업	예측: 폐업
실제: 영업	581 (TN)	13 (FP)
실제: 폐업	3 (FN)	30 (TP)

주요 지표

Accuracy: 97.2%
Precision: 89.3% - 폐업 예측 시 89.3%가 실제 폐업
Recall: 85.7% - 실제 폐업의 85.7%를 감지
F1-Score: 87.4%
AUC-ROC: 0.964

사용 방법

데이터 수정 방법

1. 새로운 데이터로 학습

데이터 준비: data/raw/ 폴더에 3개의 CSV 파일 넣기
- big_data_set1_f.csv: 매장 기본 정보 (필수 컬럼: ENCODED_MCT, MCT_ME_D)
- ds2_monthly_usage.csv: 월별 이용 데이터 (필수 컬럼: ENCODED_MCT, TA_YM, RC_M1_SAA)
- ds3_monthly_customers.csv: 월별 고객 데이터 (필수 컬럼: ENCODED_MCT, TA_YM)
학습 실행: notebooks/train_model.ipynb 실행
모델 확인: models/ 폴더에 생성된 모델 파일 확인

2. 예측 파라미터 조정

src/predictor.py의 predict() 메서드에서:

# 위험도 임계값 변경 (기본: 0.5)
result = model.predict(store_data, threshold=0.3)  # 더 민감하게
result = model.predict(store_data, threshold=0.7)  # 더 보수적으로

# 앙상블 가중치 변경
# models/config.json에서:
{
  "ensemble_weights": [0.35, 0.35, 0.30]  # XGBoost, LightGBM, CatBoost
}

3. 특징 추가/수정

src/feature_engineering.py의 FeatureEngineer 클래스에서:

def _create_custom_features(self, df):
    """커스텀 특징 추가"""
    features = {}
    
    # 예: 새로운 지표 추가
    features['custom_metric'] = df['col1'] / df['col2']
    
    return features

배치 예측

import pandas as pd

# CSV에서 여러 매장 로드
stores = pd.read_csv('stores_to_predict.csv')

# 배치 예측
results = model.predict_batch(stores)

# 고위험 매장 필터
high_risk = results[results['risk_score'] > 70]
high_risk.to_csv('high_risk_stores.csv', index=False)

추가 문서

CHANGELOG_V2.md - V2.0 상세 개선 사항
notebooks/train_model.ipynb - 전체 학습 과정
src/README.md - 소스 코드 설명

기여

이슈와 PR을 환영합니다!

라이선스

MIT License - 자유롭게 사용 가능

문의

GitHub Issues: 이슈 등록

면책 조항: 본 모델의 예측은 참고용이며, 실제 경영 판단은 전문가와 상담하시기 바랍니다.

Downloads last month: -