데이터 분석

분석가의 정리공간

분석 기술 블로그/비즈니스 분석

데이터 분석가를 위한 위치 정보 - ① 좌표 체계

24새로운시작 2024. 3. 3. 20:09
위치 정보는 생각보다 많은 것을 이야기해준다. 

 

1. 개요 

1.1. 위치 정보란

물리적 공간 내에서의 특정 지점이나 객체의 위치를 정의하고 설명하는 데이터입니다. 이 정보는 주로 지리적 좌표계를 사용하여 표현됩니다. 이러한 위치정보는 데이터 분석가에게 매력적인 정보로 단순히 테이블로 확인하는 것보다 직관적이고 효과적입니다. 제가 업무적으로 사용해본 위치정보는 다음과 같습니다.  

  • 휴대폰 위치정보
  • 고객의 버스 승하차 정보
  • 카드사 결제 매장 정보 
  • 배달앱의 가게 위치 정보 
  • 부동산 호가 정보 및 실거래가 정보 

 

1.2. 왜 위치정보를 확인해야할까?

위치가 비슷하면 상대적으로 특성이 비슷합니다. 당장 우리에게 익숙한 것으로 이야기해보겠습니다. 서울 내의 아파트 가격과 경기도의 아파트 가격이 비슷할까요? 토블러의 지리학 제1법칙은 이것을 잘 설명하고 있죠 

모든 것은 다른 모든 것과 관련이 있다. 그러나 가까운 것은 멀리 있는 것들보다 더 관계 있다.
 Tobler’s Law of Geography, 지리학의 제1법칙

 

그래서 도대체 뭐가 관계 있고 뭘 보라는 이야기일까요? 배달 관련 도메인을 예로 들어 설명해보겠습니다. 

  • 수익 측면
    • 인구수에 차이가 있음 ( 시장에 대한 크기 )  
    • 경쟁 가게의 수  
  • 비용 측면 
    • 가게 임대료에 차이가 있음
    • 배달을 할 수 있는 라이더 수의 차이가 있음
    • 가게에서 판매하는 음식의 재료에 대한 물류비용에 차이가 있음
  • 예시 
    • 서울시 강남구: 시장이 크고 경쟁이 심함, 가게 임대료가 너무 높아 매출 1억 이상이어야 유지 가능 
    • XX시 XX 구: 시장이 작고 경쟁이 적음, 가게 임대료 역시 낮아 매출이 500만원 이상만 되어도 유지 가능 

이 두 지역에 같은 기준을 적용할 수 있을까? 당연히 아닐 것이며 데이터 분석가로서는 이 경우의 어떤 기준을 적용해야할지 고민해봐야한다. 

1.3. 그럼 이야기 할 것은? 

이렇게 흥미로운 위치 정보를 확인하기 위해서는 선행되어야할 지식들이 몇가지 존재합니다. 그 중 먼저 소개드릴 내용은 좌표계에 대한 이야기 입니다. 

 


2. 좌표계 (Coordinate System)  

좌표계는 공간에서 위치를 정의하기 위한 시스템으로 이는 특정 점을 식별하고 표현하는데 활용됩니다. 위치 정보를 분석하기 위해 주로 알아야할 좌표계는 투영좌표계와 타원체 기반 좌표계입니다. 

 

 

2.1. 타원체 기반 좌표계 

  • 지구와 같이 타원체 형태를 근사화 하여 그 위의 점을 정의하는 시스템 
  • WGS84라는 위경도(latitude,longitude) 좌표계로 우리에게 익숙한 좌표계 
  • 장점
    • 글로벌 표준이며 지구상의 모든 위치를 표현할 수 있음 
    • 널리 사용되어 호환성이 높음 
  • 단점
    • 전 지구적인 평균 값을 기반으로 하여 특정 지형이나 지질적 특성을 완전히 반영하지 못함 
      (지구는 완벽한 구형이 아니며, 적도 부근이 약간 부풀어 있고 극지방이 약간 납작한 형태)
    • 지형이 복잡하거나 경사가 심한 지역에 대해서는 면적과 거리 계산이 완벽하지 않을 수 있음 

 

2.2. 투영 좌표계 (UTM)

  • 3차원 지구 표면을 2차원 지도나 평면에 투영하기 위해 사용되는 시스템 
  • 왜곡을 최소화하기 위해 지구를 여러 구역으로 나눠 각 구역마다 지구 표면을 2차원 평면에 투영(UTM 시스템)하여 위치를 표현
  • 대한민국의 특화버전은 UTM-K로 네이버 지도와 국가지점 번호 등에 사용
  • 장점
    • 지역별로 구분되어 있어 해당 구역 내에서는 지리적 왜곡이 최소화 
    • 미터법을 사용하므로 단순 연산으로 거리와 면적을 계산할 수 있음 
  • 단점
    • 특정 구역 내에서 최적화되어 전 지구적인 데이터를 하나의 좌표계로 통합할 수 없음 
    • 구역의 경계 부근에서는 두 구역의 좌표계를 변환해야하는 번거로움이 있음 

 

 

그럼 좌표계가 다르면 어떻게 하지?

 

 

2.3. 좌표계가 다르다면?

타원체 기반인 WGS84(위경도)와 투영 기반인 UTM-K를 비교하려면 어떻게 해야할까? 좌표를 변환하면 됩니다. 다양한 좌표 변환을 제공하는 라이브러리인 Proj4를 이용하면 되는데 이때 아래와 같이 좌표를 표현할 수 있는 수식을 문자열로 입력하면 됩니다. 

Proj4js.defs["EPSG:5179"] = "+proj=tmerc +lat_0=38 +lon_0=127.5 +k=0.9996 +x_0=1000000 +y_0=2000000 +ellps=GRS80 +units=m +no_defs"; -- UTM-K
Proj4js..defs["EPSG:4326"] = "+proj=longlat +ellps=WGS84 +datum=WGS84 +no_defs";//WGS84

 

하지만 저 문자열을 전부 외울순 없겠죠?? 그걸 위한 SRID(공간 참조 식별자)라는 표준이 존재합니다. 

WGS84 (위경도) : EPSG:4326 (4326)
UTM-K: EPSG:5179 (5179)

 

 

마치며 

이 포스트에서 설명한 좌표계가 전부는 아닙니다. 하지만 국내에서 분석할때는 4326과 5179정도만 알고 있더라도 크게 문제가 되진 않습니다. (그렇더라도 테이블 정의서에서 좌표계는 꼭 확인하는게 좋습니다.) 

 

다음에는 행정 구역 체계 (시도, 시군구, 행정동, 법정동, 집계구, 우편번호 등)에 대한 정보로 돌아오겠습니다. 

 

Chat GPT로 만들어진 이미지입니다.