데이터 분석

분석가의 정리공간

전체 글 7

[발제] 실무로 통하는 인과추론 - ③ 그래프 인과 모델

3.1 인과관계에 대해 생각해보기  이번 장에서 배울 그래프 모델은 인과관계의 기본 언어 중 하나로 그래프 모델은 인과추론 문제를 구조화하여 식별 가정을 명쾌하고 시각적으로 표현하는 강력한 방법임 교차 판매 이메일이 전환에 미치는 영향을 다시 한번 추정해보자 데이터만 보고 독립성 가정이 성립한다고 이야기할 수 없어 실험 대상에게 처치 배정에 관한 메커니즘 정보가 있어야 독립성 가정이 유지됨 3.1.1. 인과관계 시각화 인과관계를 그래프로 표현할때는 어떤것이 원인인지 작성자의 의견이 담기게된다. 측정되지 않은 변수를 그래프에 추가할 수 있으며 이 모든것을 U 노드에 묶어서 표현할 것이다.  교차판매 이메일을 생각해보자 단순히 랜덤하게 대상을 선택하고 이메일을 보내서 성공적으로 전환을 이루어냈지만 그것은 이..

카테고리 없음 2024.05.06

[발제] 실무로 통하는 인과추론 - ② 무작위 실험과 기초 통계 리뷰

3줄 요약 무작위 통제 실험으로 편향을 줄여 실험군과 대조군에서 처치의 효과를 측정할 수 있음 그러나 표본의 수가 적으면 우연(혹은 편향)이 개입할 확률이 높음 그러므로 두 집단의 추정값(평균)의 차이가 있는지 통계적 방법으로 검증해야함 1. 독립성의 가정과 무작위 실험 1.1. 독립성의 가정 실험을 시작하기 전에 실험군과 대조군이 비슷한 조건을 가지고 있어야 한다는 것을 의미합니다. 이를 통해 어떤 차이가 발생했을 때, 그 차이가 우리가 적용한 처치 때문인지 확신할 수 있습니다 이것을 우리는 독립성의 가정이라고 부르며 이를 확보하기 위해 우리는 RCT(Randomized Control Trial: 무작위 통제 실험)를 사용합니다. 우리는 할인을 N월 1일부터 진행할 예정이다. 그렇다면 두 집단의 N월 ..

카테고리 없음 2024.04.21

[발제] 실무로 통하는 인과추론 - ① 인과추론 소개

1. 인과추론이 필요한 이유 (1.1 ~ 1.2) 기업 A의 매출이 한달 사이에 3배 이상 올랐습니다. 계절성을 고려한다고 해도 3배 이상 오른것은 조금 이상합니다. 유튜브 쇼츠에 최근 기업 A의 상품이 많이 보입니다. 이에 대한 결과로 기업 A의 상품 매출이 증가한 것으로 보입니다. 이처럼 원인을 알아야만 원인에 개입하여 원하는 결과를 만들어 낼 수 있습니다. 이와 같은 방식이 인과추론이며 인과추론은 인과관계를 추론하고 언제, 그리고 왜 다른지 이해하는지 이해하는 과학이라고 할 수 있습니다. 2. 인과관계를 정의하고 추론하는 과정 그러나 인과관계를 추론하는 과정에서 언제나 혼동되는 개념이 있습니다. 바로 연관관계입니다. 현실에서의 어떤 변수가 원인이되어 변화가 일어난다면 인과관계, 그것이 아닐때 연관관..

카테고리 없음 2024.04.07

데이터 분석가를 위한 위치 정보 - ② 행정 구역

개요 역삼동의 1월 한달간 지역별 Acquistion 산출해주실래요? 특정 행정구역을 기준으로 이런 요청이 종종 발생하는데. 이는 기본적으로 지역별로 시장점유율이 다르기 때문입니다. 그 때문에 지역별로 다르게 전략을 설계할 수도 있죠 그런데 문제는 이 때 발생합니다. 어.. 그럼 역삼동의 1월 (주민등록)인구랑 보고 싶은데 같이 뽑아주실래요? 언뜻 보았을때는 이상한점이 없습니다. 역삼동의 주민등록인구를 보는게 뭐가 문제지? 결론부터 말하자면 행정안전부에서 제공하는 주민등록인구는 "행정동" 기준으로 제공되며 요청받은 역삼동은 "법정동" 체계이기 때문입니다. 두 체계는 어떤 차이가 있는지 알아보겠습니다. 더보기 그럼 예시로 제시한 역삼동을 네이버 지도에 검색해보겠습니다. 역삼동이라고 표시된 영역에 역삼1동과..

데이터 분석가를 위한 위치 정보 - ① 좌표 체계

위치 정보는 생각보다 많은 것을 이야기해준다. 1. 개요 1.1. 위치 정보란 물리적 공간 내에서의 특정 지점이나 객체의 위치를 정의하고 설명하는 데이터입니다. 이 정보는 주로 지리적 좌표계를 사용하여 표현됩니다. 이러한 위치정보는 데이터 분석가에게 매력적인 정보로 단순히 테이블로 확인하는 것보다 직관적이고 효과적입니다. 제가 업무적으로 사용해본 위치정보는 다음과 같습니다. 휴대폰 위치정보 고객의 버스 승하차 정보 카드사 결제 매장 정보 배달앱의 가게 위치 정보 부동산 호가 정보 및 실거래가 정보 1.2. 왜 위치정보를 확인해야할까? 위치가 비슷하면 상대적으로 특성이 비슷합니다. 당장 우리에게 익숙한 것으로 이야기해보겠습니다. 서울 내의 아파트 가격과 경기도의 아파트 가격이 비슷할까요? 토블러의 지리학 ..

[후기] 데분생 - 오프라인 Meet up

개요 이번주 일요일 강남역에서는 데이터 분석과 관련된 이야기를 나누는 데분생 - 오프라인 Meet up이 있었습니다. 광고, 이커머스, 물류, 게임, 금융 등등 다양한 산업군의 사람들이 모여 자기소개, 발표, 개인 고민에 대한 자유 토론을 진행하였습니다. 3시간이라는 시간이 짧게 느껴질 정도로 의미있는 시간이었습니다. 데분생 오프라인 Meet up을 간단히 요약하고 느낀점들을 작성해보았습니다. - 발표 원문은 하단에링크로 첨부해두었습니다. 문제시 삭제하겠습니다. 세션 1. 자기 소개 약 20명의 자기소개와 각각의 참가자들에게 궁금한 내용들을 질문하는 시간이었습니다. 데분생 혹은 그 외의 채널(데이터야놀자 등)에서 연결된 참가자들과 기존 네트워킹이 강화되고 처음보시는 분들과 새로이 연결될 수 있는 의미있는..

업무회고 2024.02.25

[회고] 3년 2개월간의 재직부터 이직까지

SI회사에서 2020년 3월부터 3년 2개월간 재직했습니다. 그리고 현재 이직하여 9개월간 재직중입니다. 재직기간 동안의 경험과 이직을 결정하기까지의 이야기하고 싶습니다. 1. 입사 그리고 3년간의 재직 2020년 3월, 코로나의 시작과 함께 입사하게 되었습니다. GIS 기반으로 고객사의 데이터 상품을 개발해주는 SI 업체였습니다. 입사 3년간 총 3개의 고객사와 6개의 프로젝트를 했으며 다양한 상품을 개발해왔습니다. 2. 다양한 데이터 상품 개발 경험 2.1. 장단점 SI 업체에 재직하며 다양한 고객사를 만나 느낀 장단점은 다음과 같다. 장점) 다양한 회사의 인프라와 데이터를 경험해 볼 수 있다. 요구사항에 대해 자신이 주도하여 데이터 마트 개발을 할 수 있음 단점) 고객사에 들어갈때마다 새로운 환경에..

업무회고 2024.02.11