1. 인과추론이 필요한 이유
(1.1 ~ 1.2) 기업 A의 매출이 한달 사이에 3배 이상 올랐습니다. 계절성을 고려한다고 해도 3배 이상 오른것은 조금 이상합니다. 유튜브 쇼츠에 최근 기업 A의 상품이 많이 보입니다. 이에 대한 결과로 기업 A의 상품 매출이 증가한 것으로 보입니다. 이처럼 원인을 알아야만 원인에 개입하여 원하는 결과를 만들어 낼 수 있습니다. 이와 같은 방식이 인과추론이며 인과추론은 인과관계를 추론하고 언제, 그리고 왜 다른지 이해하는지 이해하는 과학이라고 할 수 있습니다.
2. 인과관계를 정의하고 추론하는 과정
그러나 인과관계를 추론하는 과정에서 언제나 혼동되는 개념이 있습니다. 바로 연관관계입니다. 현실에서의 어떤 변수가 원인이되어 변화가 일어난다면 인과관계, 그것이 아닐때 연관관계라고 할 수 있습니다. 현실에서는 인과관계 파악은 간단해보이지만 비즈니스에서는 실제 원인인지 파악하는 것이 매우 어렵습니다. 통제된 상황이 아니며 외부의 요인들이 개입했을 가능성이 있기때문입니다. 예를 들어 배달 플랫폼에서 할인 쿠폰을 발급했을때 매출이 증가하였습니다. 이것은 인과관계일까요? 알 수 없습니다. 경기가 좋아져 배달수요가 증가했음을 배제할 수 없기때문이죠 그렇다면 이것이 인과관계임을 증명하기 위해서는 어떻게 해야할까요? 할인 쿠폰을 발급했을 경우와 발급하지 않았을 경우의 매출 차이를 비교하면 됩니다. (p.39)
3. 인과추론의 문제
그럼 인과추론의 목표를 다시 정의해보겠습니다. 인과추론은 실험 대상에게 처치를 했을 경우 결과의 미치는 영향을 학습하는 과정 이라고 할 수 있습니다. (p.41) 완벽한 인과추론을 위해서는 동일한 조건에 반사실 상황(처치를 했을 경우와 처치를 하지 않았을 경우)을 동시에 관측해 비교할 수 있어야합니다. 그런데 이것은 불가능한 상황이므로 측정할 수 있는 사실만을 활용해 처치 효과를 계산하게되면 어떻게 될까요? 이 경우 편향이 존재하게 됩니다.
현실의 예를 들어보죠 쿠폰을 발급한 가게는 배달 매출이 매달 2,000만원(발급 전 1,000만원) 이상 발생합니다. 그러나 쿠폰을 발급하지 않은 가게는 배달 매출이 300만원일때 1,700만원이 순수하게 쿠폰 발급효과라고 볼 수 있을까요? 그렇지 않을 겁니다. 발급전에도 이미 쿠폰을 발급하지 않은 가게보다 700만원 이상 높은 매출을 달성했기 때문입니다.
만약 똑같이 매달 매출이 300만원이 발생하는 가게가 있을때 하나는 쿠폰을 발급하고 하나는 발급하지 않았을때, 익월에 발생하는 매출이 600만원과 300만원이라면 이때는 300만원이 쿠폰 발급 효과로 인한 증분이라고 할 수 있겠죠
이처럼 편향은 인과관계와 연관관계를 다르게 만드는 요소로 편향이 존재하지 않다면 인과관계는 연관관계가 되는것이죠 편향이 존재하지 않는 실험군과 비교군을 만들 수 있다면 처치에 대한 효과를 명확히 측정할 수 있습니다. 이를 다르게 말하면 실험군과 대조군이 서로 교환가능하다면 인과관계를 수치로 표현하는 것이 매우 간단해진다는 것을 의미합니다.
3줄 요약
원인을 찾아 원인에 개입해 원하는 결과를 얻기 위해 우리는 인과추론을 해야합니다. 그러나 현실의 다양한 외부변수들과 처치의 전후를 모두 관측할 수 없다는 사실이 인과추론을 어렵게 만듭니다. 처치 이외의 모든 변수들이 유사한 집단을 추출한다면 우리는 처치에 대한 인과효과를 수치로 표현하는게 간단해집니다.