통계

HHI(HerfindahI-Hirschmana Index)

장수우 2026. 1. 1. 19:36

경제학에서 시장 점유율의 집중도를 측정하여 독과점 여부를 판단할 때 사용하는 지표입니다

허핀달-허쉬만 지수의 값이 클수록 산업에서 특정 시장 집중도가 더욱 커진다는 것을 의미합니다.

특정 기업의 시장 점유율이 큰 경우에 보다 높은 가중치를 두게 됩니다.

특정 카테고리의 구매 비중 (0~1)- 제곱을 하는 이유는 점유율이 높은 항목에 가중치를 주기 위해서 입니다. 작은 구매는 무시하고, 굵직한 구매가 어디에 쏠려 있는지 알기 위함입니다.허핀달-허쉬만 지수는 계산 값에 10,000을 곱한 값으로 쓰이기도 하며, 이 경우 최대값은 10,000이 됩니다.

 

시장 내에 소수 기업만이 가지고 있는 과점 시장에서 점유율 격차가 큰 시장에서 시장 집중도를 높게 측정하는 장점이 있습니다.

점유율이 각각 60%, 20%, 15%, 5%인 경우 CR3은 95%이고, HHI는 4,250입니다.

점유율이 각각 35%, 30%, 30%, 5%인 경우에는 CR3은 역시 95%이고, HHI는 3,375입니다.

허핀달-허쉬만 지수는 CRN 값이 같다고 하더라도 시장 점유율이 특정한 기업에 집중되어 있을 때 보다 높은 값을 나타냅니다.

따라서 시장 점유율의 집중 현상을 CRN보다 잘 나타낼 수 있다.

 

단점으로는 시장을 넓게 정의한다 가정했을 때 개별 기업의 점유율이 낮게 평가되어 허핀달-허쉬만 지수가 낮게 측정되고,

시장을 좁게 정의하면 개별 기업의 점유율이 높게 평가되어 허핀달-허쉬만 지수가 높게 측정됩니다.

 

이걸 응용해 고객의 제품 구매 목록, 즉 장바구니 분석에 활용을 한다면 ?

고객이 기업에서 구매를 하는 카테고리의 비중을 확인할 수 있는 지표가 됩니다.

 

HHI 지수는 항상 1/n (분산)dptj 1.0(집중) 사이의 값을 가집니다.

점수 범위 비즈니스 해석 비유
1.0에 근접 고도 집중(Monopoly) 한 카테고리만 90%이상 구매
0.5 ~ 0.7 보통 집중(Concentrated) 메인 카테고리가 있고, 서브가 1~2개 섞임
0.2 ~ 0.5 분산 구매(Diversified) 3~5개의 카테고리를 골고루 삼
0.1 미만 극도 분산 (Highly Fragmented) 다양한 카테고리를 구매

 

user_cat_spend = c1_transactions.groupby(['고객ID', '제품카테고리'])['평균금액'].sum().unstack(fill_value=0)
    user_cat_share = user_cat_spend.div(user_cat_spend.sum(axis=1), axis=0)
    c1_hhi = (user_cat_share**2).sum(axis=1)
    avg_hhi = c1_hhi.mean()

    print(f"  - Cluster 1 평균 HHI: {avg_hhi:.3f}")
    if avg_hhi > 0.6:
        print("  => 결과: [전문가/설치업자형] 특정 카테고리에 고도로 특화됨")
    else:
        print("  => 결과: [오피스/총무형] 다양한 카테고리를 골고루 구매")
[1] Market Basket Analysis (함께 구매하는 품목)
  - Apparel + Nest-USA: 1053번 동시 구매
  - Apparel + Office: 873번 동시 구매
  - Nest-USA + Office: 862번 동시 구매
  - Apparel + Drinkware: 699번 동시 구매
  - Drinkware + Nest-USA: 690번 동시 구매
[2] Category Concentration (구매 집중도 분석)
  - Cluster 1 평균 HHI: 0.493
  => 결과: [오피스/총무형] 다양한 카테고리를 골고루 구매

 

이런식으로 구매하는 품목에 가장 많이 산 카테고리가 뭘까? 라고 묻는 질문에 Nest 라고 단순한 답을 주기 보다는

HHI를 활용하면 Nest를 제일 많이 사긴 하는데 다른것도 꽤 구매를 하네? 그럼 단순한 한명의 고객이 아닌 구매 대행사 거나

기업의 총무팀이라는 가설에 힘을 보태주게 됩니다.

즉 고객의 정체성(Identity)를 입체적으로 생각해 볼 수 있게하는 지표가 되겠습니다.

이 지표로 데이터 분석에서 집중도를 측정할 때 유용하게 사용할 수 있겠습니다.

반응형