DevGround 2019 세션 요약

2019-06-27

Summary

  • 세션1: 데이터와 머신러닝이 비즈니스와 만날 때 발생할 수 있는 비극들 - 하용호님 (Kakao)

    비즈니스에서 데이터 분석과 머신러닝 도입에서 장애와 성공적인 밸류를 만드는 법

  • 세션2: AI 프로젝트 간지나게 잘 진행하는 법 - 백정상님 (Google)

    AI 프로젝트 셋업을 위해 필요한 것들

  • 세션3: 온라인 게임 데이터 분석 사례와 향후 과제 - 이은조님 (NCSoft)

    현업에서 데이터 분석을 적용하면서 맞닥뜨리는 현실적인 문제들과 해결 아이디어

  • 세션 5: 맛있는 데이터를 물어다주는 멍멍이 - 노상래님 (마켓컬리)

    엑셀 시대에서 실시간 대시보드 & 예측 시스템 시대까지 데이터 분석을 비즈니즈에 도입한 과정

  • 세션 6: MOBILITY X DATA : 모빌리티 산업의 도전 과제 - 변성윤님 (쏘카)

    모빌리티 산업의 데이터와 다양한 문제들에 대해 소개

  • 세션 7: 데이터가 흐르는 조직 만들기 - 양승화님 (마이리얼트립)

    데이터가 흐르는 조직을 위해 시도한 실질적인 노력들

세션1: 데이터와 머신러닝이 비즈니스와 만날 때 발생할 수 있는 비극들 - 하용호님

데이터에서 패턴을 찾아내어 비지니스 기회로

많은 회사들이 업무에 데이터와 머신러닝을 도입하고 싶어하지만 잘 안됨.

왜 -> 많은 사람들이 데이터로 일을 해본 적이 없기 때문

대표적인 잘못된 회사의 데이터 사업 계획 데이터를 모아서 추천도하고 프로파일링도하고.. 유저의 성향을 파악하고 인사이트를 도출 후, 마법의 뿅

구슬이 서말이어도 꿰어야 보배

  • 일단 서말이 안된다 (데이터가 없다)
  • 꿰는 기술이 없다 (관련 전문가가 없다)
  • 보배 (뭐가 보배인지 모른다)

구슬이 서말이어도 꿰어야 보배 -> 가능하려면

-> 엄청난 데이터 필요 -> 엄청난 서버 -> 엄청난 엔지니어 —-> 다없다

1. 일단 서말이 없다.

데이터로 뭐하지 > 추천이나 광고에 쓸거에요 -> 사실 엄청난 데이터가 필요하다

  • 기업의 데이터는 2가지 폼으로 존재 -> 없거나, 쓸 수 없거나 ex) 사장님: 우리 회사 데이터 진짜 많다 오면 뭐든지 할 수 있다. ~다 거짓말이다…~

  • 추천으로 의미가 있기 위해서는 MAU 20만은 필요 (다운로드 기준 100만)
  • 광고기준으로는 적어도 MAU 200민 (다운로드 기준 1000만)
  • 유저마다 수십 수백건 서비스 사용기록이 필요

추천, 광고 등으로 재미보는 회사는 정해져있다

  • 재미보는 회사 -> 커머스: 아마존, 쿠팡
  • 광고로 재미보는 회사 -> 구글, 페이스북, 네이버, 카카오
  • 본업이 추천, 광고를 하는 회사임

회사는 노력을 본질에 집중해야 한다.

  • 초기라면 그냥 인기 순위로도 충분하다.
  • 더 쉽고 빠르고 편한 유저 플로우를 만드는 것이 좋다.

2. 꿰는 기술이 없다.

인력 -> 일단 비싸고 구하기 힘듦

  • 머신러닝 엔지니어 6천
  • 좋은 엔지니어 1억
  • 훌륭한 엔지니어 싯가 -> 일반 대기업은 매력적인 직장이 아님

데이터도 없고 회사의 핵심이 다른 곳에 있기때문에 가지 않음.

선호도: 카카오 > 네이버 > 스타트업 > 통신사들 > 전자회사들 > 그외…

3. 보배: 비지니스와 만남 기술은 이익을 만들어내야함

실패하는 환상적인 만남

  • 뭔가 새로운 것을 도전하고 싶은 상위권자
  • 빅데이터와 머신러닝도 쓰는 간지나는 서비스를 꿈구는 기획자
  • 데이터와 머신러닝을 공부했지만 현업적용은 못해본 열정적인 엔지니어

실패하는 이유

머신러닝을 쓰고 싶다 -> 우리 문제에 어떻게 구겨넣지 (x)

잘못된 곳에 적용하거나 필요하지 않은 상황에 적용

핵심: 메인 비즈니스의 밸류 체인에서 비효율 구간을 찾아야 한다

비지니스 밸류 체인

  • 회사의 메인비지니스 ———————–>
  • 뭔가 멋진것 (새롭게 데이터로 하는 비지니스) —>
  • 새로운 비지니스는 시간이 걸리고 파급이 적다

회사에서 데이터로 밸류를 만들 수 있는 부분: 메인 비지니스 밸류 체인에서 비효율 적인 부분을 효율적으로 하는 것

  • 사람이 감으로 하거나
  • 사람이 하기에 느려지는 부분 (병목인 부분) -> 머신러닝과 데이터를 이용해, 대체하여 자동화 하거나, 판단을 보조하여 빠르게 한다.

복잡해 보인다고 답은 아니다.

예제: 매출을 올리기 위해, 메인 상품 진열 순서는 어떻게 하는게 좋을까? 간단한 데이터 활용 멋있고 간지나는 머신러닝: 유저마다 프로파일하여, 최적을 추천

세상 모든 것은 ROI

1) 룰 베이스 접근으로 60짜리를 빠르게 10개 만들 수 있음 > 600개 2) 머신러닝 접근으로 80짜리를 1개 만들 수 있음 > 80개

기회비용 일단 가장 심플한 방법을 방치하고 말고 빨리 하는 것 심플에서 충분히 뽑아내고 있을 때 머신러닝을 시도하는 것이 좋음

그럼 언제,왜 머신러닝 하는가? 규모가 커지면서, 심플한 방법을 도저히 매니지할 수 없을 때

카카오에서 한 것: 플러스 친구 메시지 최적화

카카오는 뭐로 돈 벌지? 광고(이미 잘하고 있음), 메시지(돈버는 것 -> 플러스 친구 메시지)

플러스 친구 메시지 > 본질과 밸류 체인이 뭐지?

  • 무엇을 보낼 것인가: 컨텐츠 셀렉터
  • 누구에게 보낼 것인가: 반을 잘 할 유저를 선택
  • 효과는 어땠나: 사람이 일일히 분석하지 않도록 로봇 분석가를 개발

세션2: AI 프로젝트 간지나게 잘 진행하는 법 - 백정상님

1. 성공 & 실패하는 머신러닝 프로젝트

멋지고 분위기 좋은 팀(like Brain팀)의 성공조건

  • 세계 최고 수준의 팀을 기반으로
  • 해결하고자 하는 비즈니스 문제가 굉장ㅎ ㅣ크고 아름답고
  • 그 문제를 해결하면 생기는 비즈니스 임팩트가 커야 함
  • 무조건 성공한다는 확신이 있어야함
  • 실패 가능성을 최소화 해야함

실패하는 머신러닝 프로젝트의 이유들

  • 비즈니스에 대한 이해 부족
  • 낮은 데이터 품질 (로그를 쌓는 시간은 전체 개발 시간에 비해 턱없이 부족)
  • 잘못된 머신러닝 사용
  • 편견 또는 확증편향
  • 부족한 인프라 지원
  • 부실한 계획과 거버넌스 부재

머신러닝 프로젝트를 실패하지 않으려면

  • 풀어야 하는 비즈니스의 임팩트가 충분히 크고
  • 비즈니스 도메인 지식이 충분해야 하고
  • 높은 품질의 데이터를 쉽게 획득할 수 있어야 하며
  • 머신러닝이 실제 프로젝트에 도움이 되어야하고
  • 편견이 생기지 않도록 중심을 잡아줄 데이터 사이언티스트가 필요하며
  • 비용 효율적이며 충분한 인프라를 확보하고
  • 충분한 프로젝트 여정에 대한 계획을 기반으로
  • 최고 의사 결정자의 서포트를 충분히 받아 진행해야하며, 그로 인해 충분히 일정이 쪼야여 됨 (기본 유지비가 꽤 큼)

2. AI 프로젝트 셋업

비즈니스 케이스 탐색

  • 크게 생각해야함. Think x 10
  • 팀 유지비 배비 최소 10배를 더 벌어주는 프로젝트여야 함

최초 머신러닝 팀 빌딩

  • 프러덕트 -> 프로덕트 매니저 (1)
  • 비즈니스 -> 비즈니스 분석가 (1)
  • 데이터 사이언스 -> 데이터 사이언티스트 (1)
  • 머신러닝 -> 머신러닝 엔지니어 (1)

프로젝트 예산 => 8억 (투자비용)

  • 팀 인건비 -> 4명 월급 4000만원
  • 인프라 비용 -> 3억 (하둡 클러스터 온프레미스)
  • 소프트웨어 구입 및 구독 (1000만원)
  • 예상 개발 기간 (1년) => 8억 ==> 80억을 버는 프로젝트를 찾아야함

프로덕트 디자인 및 마일스톤 플래닝

  • 쉽게 말하면 제품 기획
  • 풀어야 할 비즈니스 문제를 명확하게 정의
  • 프로적트를 통해 얻는 비즈니스 임팩트를 계측 가능하도록 정의

데이터 디자인

  • 데이터 = 돈
  • 프로턱트에서 필요로 하는 모든 데이터는 수집할 수 있어야 함
  • 비교적 유연하게 변경 가능한 JSON으로 디자인 하는 경우가 많음

밸류 임팩트가 큰 데이터

  • 구조화된 데이터
  • 시계열
  • 이미지
  • 비디오
  • 텍스트
  • 오디오

데이터 파이프라인 구축

  • 데이터의 유실이 없어야 함
  • 중복된 데이터 허용 및 dedup
  • 가급적이면 매니지드 서비스 혹은 ETL플랫폼을 활용

데이터 분석

  • EDA
  • 데이터 상관관계 분석
  • 통계적 검증: 빈도검증, 타당도 검증, z 스코어 검증, t 스코어 검증
  • 고전적 머신러닝 회귀모형 클러스터링
  • 데이터의 품질과 특징을 분석해야 한다
  • 데이터 분석만으로도 문제를 해결하는 경우가 많음. 이 경우에는 바로 비즈니스 임팩트를 만들고 다음 프로젝트를 간지나게 시작한다.
  • 통계나 머신러닝으로 threshold를 구할 수 있다면 룰 베이스 모델 구현

머신러닝 시작

  • 분석 결과에 따른 최적의 모델 선택
  • AI툴셋 - AI hub
  • 모델 개발: 텐서플로, pytorch

모델 학습 및 평가

  • 피쳐 셀렉션의 두 가지 전략: 다 넣자 vs 상관관계에 따라 선택하자
  • 절충안: 다 넣고 상관관계가 높은 피쳐에 웨잇을 더 가하자
  • 피쳐 엔지니어링 & 셀렉션 작업 시작 (data prep등 활용)
  • 모델 배포 > 아무거나 써도 됨

비즈니스 임팩트 실현

데이터 QA의 경우 예전에는 QA 엔지니어가 하다가 최근에는 데이터 엔지니어가 데이터 검증 레이어를 만들어서 ETL툴에서 Validation를 자동화 하는 경우가 많음.

세션 3: 온라인 게임 데이터 분석 사례와 향후 과제 - 이은조님

1. 온라인 게임 데이터의 특징

현실세계와 매우 유사한 환경과 경험 제공

  • 성장 활동: 퀘스트, 레벨얼, …
  • 경제 활동: 사냥/채집, 거래, 경매, …
  • 사회 관계: 친구, 파티, 길드/혈맹, …

거의 모든 종류의 데이터 분석 가능

  • 소셜 네트워크 분석
  • 텍스트 분석
  • 이미지 및 동영상 분석

데이터 활용 사례

  • 게임 현황 지표 및 심화 분석
    • 주요 업데이트 전/후 효과 및 동향파악
    • 매출, 게임 활동 관련 지표
  • 기계 학습 및 통계 모델링
    • 재화 이상 탐지
    • 작업장 탐지
    • 모바일 광고 어뷰징 탐지

2. 불쾌한 골짜기 (Uncanny valley) - Robotics

  • Uncanny valley: 로봇 외형을 점점 인간과 비슷하게 만들다 보면 오히려 이질감이 커지는 지점이 발생함.
  • 데이터 분석 기법을 고도화 하다 보면 오히려 활용성이 떨어지는 순간이 발생함 (처음에는 현황 지표만 볼 수 있게 되어도 성과가 있지만, 고도화된 기법을 도입하다 보니 성과가 떨어지게되었음)

무엇이 불쾌한 골짜기를 만드는가?

  • 데이터
    • 부정확한 레이블
    • Concep drift
  • 모델링
    • 비용을 고려하지 않은 예측 분석
    • 잘못된 테스트 셋 선정
    • 모델의 복잡함
  • 서비스 구현
    • 테스팅 및 디버깅의 어려움

3. 어떻게 불쾌한 골짜기를 해결할 것인가?

데이터

오류의 원인

  • 주관적 편향
  • 불일치
  • 사소한 실수

레이블 오류는 모델의 신뢰도에 직접적인 영향을 끼침

  • 학습할 레이블 양이 많지 않다면?
  • 오탐이 있으면 안되는 민감한 분야라면? (ex. 리니지 일부 영구정지자들 소송 사례)

엄밀한 레이블링 프로세스 구축하기

  • 2인 이상의 운영자가 같은 데이터에 대해 독립적인 판단 후 레이블 결과가 같은 데이터만 학습에 활용
  • 판정 사유 기입 후 누적된 판정 사유를 정형화 및 목록화 하여 활용
  • Leave One Out Cross Validation 사용 -> 99개의 데이터로 모델을 만들고 1개를 판정 -> 데이터가 이상하거나 잘못 레이블링 된 데이터

Weak supervision

낮은 신뢰도를 갖는 레이블로 어떻게 하면 높은 신뢰도의 모델을 만들 수 있을까?

Snorkel: labeling runction과 generative model로 이루어진 기계학습 시스템

  • 레이블에 신뢰도를 부여하여 신뢰도가 높은 데이터는 높은 학습 가중치를 부여하고, 신뢰도가 낮은 데이터는 낮은 학습 가중치를 부여함

불명확한 레이블 문제 -> 확률로 표현

애초에 레이블 기준이 모호한 경우도 있음

  • 이탈 예측: 가입/탈퇴가 불명확한 상황
  • 이탈을 확률로 표현 -> Pareto/NBD model

Concep drift: 시간이 지남에 따라 대상 데이터의 통계적 특성이 변하는 상황

왜 Concept drift 문제가 많이 논의되지 않을까?

  • 학계의 경우 지속성에 대해 고민할 필요가 없음
  • 분야에 따라 데이터의 특성이 변하지 않을 경우: 개와 사람 이미지를 구분하는 모델

온라인 게임의 경우 콘텐츠의 소비속도가 어마어마하게 빠름

  • 빈번한 게임 업데이트 및 이벤트
    • 게임 밸런스의 변화
    • 주요 컨텐츠 삭제 및 추가
    • 비즈니스 모델 변경

어떻게 대처해야 하나?

  • Robust modeling
    • 시간에 영향을 받지 않는 피처로만 모델 구축 (정교함이 떨어짐)
  • Change detection
    • 예측 성능을 지속적으로 모니터링하다가 성능이 떨어지는 시점에 재학습
  • Online learning
    • 학습 / 적용 과정을 분리하지 않고 라이브 환경에서 지속적으로 모델 개선 (추천 분야)
  • Citizen data scientist > 도메인 전문가들이 직접 데이터 분석에 참여 (분석도구, 인프라 제공)

2. 모델링

비용을 고려하지 않은 예측 분석

  • 구매예측 ex. A 상품을 구매할 고객 > 마케팅과 상관없이 구매 (불필요한 마케팅 비용 발생)
  • 이탈예측: 악성 고객이나 잔존 가치가 낮은 고객을 예측 대상에 포함해야 할까? 잔존 가치가 높은 고객에 대한 이탈을 잘 맞추는 것이 중요

사례: 전체 고객을 예측 대상에 포함 vs 충성 고객만 예측 대상에 포함

  • 예측 성능: 1 > 2
  • 기대 이익: 1 « 2

아이디어: 애초에 목적에 맞는 비용함수를 사용할 수는 없을까?

잘못된 테스트 셋 선정

  • 모델 성능 측정에 사용해야 하는 테스트 데이터는 가장 최근 시점의 데이터

모델이 복잡할수록 유관 부서에서 사용할 가능성은 떨어짐

  • 고객 세그멘테이션할때 k-means clustergin을 많이씀 (설명하기 쉬움)

3. 서비스 구현: 테스팅과 디버깅의 어려움

  • 문명 6 AI오류 사건: 산출량(Yield) 관련 설정치 이름 오타

심지어 오류가 있어도 결과가 나온다..(심지어 잘..)

  • word2vec 윈도우 사이즈 사례

세션 5: 맛있는 데이터를 물어다주는 멍멍이 - 노상래님

1. 소개: 마켓컬리와 데이터 농장

마켓 컬리(식료품 전문 유통업체)

최적의 서비스 제공을 위한 상품 소싱/제조, 주문처리, 재고관리, 배송, 데이터 분석, 큐레이션

데이터 농장

하는 업무

  • Ad-hoc
  • IR제작
  • 데이터 프로덕트
  • 알고리즘 프로덕트
  • 대시보드
  • 분석용 데이터베이스 구축

(달리는 차 위에서 바퀴를 교체하는 사진) -> 빠르게 변화하는 회사에서 데이터 시스템 구축

2. 마켓컬리 데이터 시스템의 과거와 현재

지난 4년동안 시행착오

수기로 운영하던 엑셀의 시대

  • 데이터 분석 & 운영 업무에 관련된 대부분의 데이터가 엑셀 자료로 이루어진 시기
  • 데이터 분석에 너무 많은 시간이 소요
  • 통합이 어려움
  • 데이터 수집을 위한 발품팔이

AWS 시대

  • 회사의 급성장으로 인한 예측 시스템의 필요성 대두
  • 인프라를 도입하며 분석용 데이터 인프라 설계
  • 슬랙에서 주요 지표와 전사 공유 시스템 도입: 데멍이

문제점:

  • 데이터 인프라 설계 경험과 지식 부족
  • 데이터 추출이 가속화되면서 추출 업무만 하루에 20개씩 진행 -> 대시보드 개발의 필요성 대두

자체 봇 & 실시간 대시보드 시대

  • 데이터 플랫폼 인프라 확대
  • 주요 지표 대시보드 운영 (고객 현황, 상품 현황, 배송현황 등)
  • 각 기능별 팀별 실시간 대시보드를 통한 업무 효율화
    • 30분 단위 현황 공유
    • D-1 전일 주요 현황 전사공유
    • 운영 데이터 수집 관리
    • 예상 매출액

피드백을 기다리는 야옹이 -> 데이터 운영 시스템에 대한 피드백

데이터와 비즈니스 이해 집중 -> 데이터 인프라 관리 집중 -> 데이터의 가치 활용 집중

3. 데이터를 물어다주는 멍멍이 ‘데멍이’: 데멍이의 역할과 예측 퍼포먼스

데이터 과학으로서의 가치: 예측 시스템 (매출 예측, 물류 예측)

  • 주 예측(과소 예측 경향), 일 예측(과대 예측 경향) > 결합해서 사용 (페이스북 prophet 활용)

퍼포먼스 성과: 월간 예측 성과 오차율 3% (실제값-예측값/실제값) 달성

조직 문화로서의 가치: 공유 시스템: 전사 지표 공유 (담당 팀에게 실시간 지표 공유)

4. 급성장하는 회사에서 데이터는 우리 조직문화에 어떤 기여를 하였는가

데이터 업무의 효율화 > 인사이트 도출 > 같은 눈높이의 공유 문화 > 조직 문화 발전

초기에 인사이트에 집중하지 않고 운영업무 자동화를 먼저 진행했음

세션 6: MOBILITY X DATA : 모빌리티 산업의 도전 과제 - 변성윤님 (쏘카)

주제: 모빌리티에서 어떤 데이터가 있고, 어떤 문제를 풀고 있을까요?

  • 모빌리티 업계 (Car sharing / Ride hailing)의 데이터
  • 모빌리티 업계에서 풀고 있는 문제가 어떤 것이 있을까?

1. Mobility?

사람들의 이동을 편리하게 만드는 각종 서비스 (전통적인 교통 수단 + IT를 결합해 효율과 편의성을 높임)

CES 2019 -> 주요화두로 Concepted Car, Self Driving Car 등

  • Concepted Car: 컨셉을 가지는 차량

    컨텐츠를 즐기는 차량, 회의를 위한 차량 등

  • Map: 고정밀 지도 데이터

    디테일한 정보를 가진 지도데이터가 필요함. 1차선인지 2차선인지, 정보 등

  • Driver Status Monitoring

    운전자가 흡연을 하는지, 졸고 있는지 등 상태를 모니터링해서 알람 및 사고 예방 (주로 컴퓨터 비전 활용)

  • Car Maintenance with AI 차량 유지보수에 소요되는 다양한 것들을 자동으로 탐지하고 Report작성 (오일 누수, 부품 미스매치, 차량 스크래치 등 등)

모빌리티 회사들

서비스

  • Car Sharing: 자동차 공유 비즈니스를 하는 회사
    • Station Base: 지정된 곳에 차량을 반납하는 역 기반의 카셰어링
    • Free Floating: 자동차 반납처가 지정되지 않은 유동식 카셰어링
  • Ride Hailing: 이동을 원하는 소비자와 이동 서비스를 제공하는 사업자를 실시간으로 연결해주는 회사
    • 우버, 타다, 그랩 등등

차량

  • 주차장
  • 자율주행
  • 안전 & 보안
  • 센서

2. 모빌리티의 데이터

데이터의 종류

  • 차량 데이터
  • 좌표, 지리데이터 (GPS, 지리 데이터 등)
  • 센서 데이터 (엔진 상태, 배터리 전압상태, 주유 데이터..)
  • 고객 데이터 (면허 취득 날짜, 사용 이력 패턴, 앱 로그, 결제 데이터)
  • 날씨 데이터 (기상청 날씨 데이터)

왜 재미있을까?

  • 삶과 밀접한 데이터
  • 생활 패턴 반영
  • 큰 의미에서 도시계획 & 사회발전에 밀접
  • 어려워서 매우 재미있음
  • 다양한 데이터의 혼합

모빌리티의 데이터를 보려면

  • NYC Open DATA (Taxi)
  • awesome-public-datasets - transportation 데이터

3. 모빌리티의 다양한 문제들

Car Sharing

ex. 쏘카 경험 여정

  • 쏘카존에서 차량 대기
  • 차량 예약
  • 쏘카존 방문
  • 차량 탑승
  • 차량 이동
  • 차량 반납

데이터 기반 존 및 차량 운영 전략 수립

  • 특정 존 개발 (어디에) / 차량의 가격 설정
  • 어떤 존에 어떤 차량을 넣어야 할까
  • 수요 예측 및 운영 전략 수립
  • 차량 구매 전략 (성수기)

주로 활용하는 방법: Operation Research (수학적 모델링, 통계적 모형, 최적화 기법 등을 활용해 효율적인 의사결정을 돕는 기법)

차량 예약

  • 개인화된 가격 (쿠폰 및 혜택)

차량 퀄리티 관리

  • 소모품 교환 및 세차 주기 최적화
  • 차량 배터리 수명 관리

차량 이용 과정에서 사고 관련

  • 차량별/ 개인별 / 상황별 보험료 산정

운영 정책 효과 분석

  • 신규 상품 기획 (쏘카 구독제 등)
  • 운영

Ride Hailing

타다 경험 여정

  • 차량 호출
  • 차량 배차
  • 차량 도착
  • 고객 탑승
  • 목적지로 출발
  • 도착

차량이 언제 도착할까? (ETA)

  • ETA: 도착 예정 시간 (늦는 경우 고객경험에 악 영향)
  • 머신러닝을 통해 정확한 ETA값 예측

차량 수요 예측 시 탄력 요금제 적용

  • 갑자기 비가 내리는 경우
  • 새벽 2시에 월드컵 결승
  • 불금, 연휴 전날 수요증가

우버의 Surge Pricing: 급증하는 시간대, 지역에 탄력 요금제 설정, 차량 구매 전략에 활용

알고리즘을 오프라인에 바로 적용하는데 큰 리스크 존재: 리스크를 줄이고 실험을 다양하게 하기 위해 시뮬레이션 환경을 구현

  • 머신러닝 모델을 테스트하기 위해 과거 데이터를 기반으로 확률 분포를 통해 시뮬레이션 환경 생성

  • 실제 환경과 비슷하게 구축하는 것이 매우 중요

(SimPY: 간단히 체험할 수 있는 라이브러리)

지도, 네비게이션 문제

  • Route Planning
    • 출발지에서 목적지까지 어떤 경로로 갈 것인가 (최소 시간, 최단 시간)
    • 교통량 예측
    • Map Matching: GPS 데이터와 도로 데이터를 매칭

산업의 성숙도에 따라서 풀어야 하는 문제 단계가 다름

세션 7: 데이터가 흐르는 조직 만들기 - 양승화님 (마이리얼트립)

마이리얼트립 매출이 급성장 중이었는데 데이터에 대한 고민을 하고 있었음.

  • 데이터를 기반으로 일하는 회사를 만들자
  • 데이터를 바탕으로 000 문제를 해결하자

Growth팀에 기대하는 역할

  • 핵심지표 선정 및 관리
  • 데이터 파이프라인 설계 및 구축
  • 주제별 데이터 분석 (차근차근 하면 되는 것)
  • 데이터 추출 및 분석 요청 대응 (당장 시간을 제일 많이 쓰는 것)
  • 데이터 기반으로 일하는 문화 (어떻게 해야 할 지 막막한 것)

혼자 였음.. 분석하려면 야근을 해야되…

1. 데이터 분석 팀과 실무자와의 갈등

실무자 입장

  • 어떤 데이터가 있는지 모르겠음
  • 간단한 요청인데 오래걸려..
  • 요청하고 받았더니 단순 합계, 평균인데,..
  • 업무에 쓸만한 건 없네

분석가 입장

  • 여기저기서 쏟아지는 데이터 추출 요청에 정신이 없다
  • 목적이 000인 것 같은데, 이 데이터를 달라고?
  • 대시보드 만들면 고쳐달라고 하고 잘못했다고 하고
  • 데이터 분석 좀 해보고 싶다 ㅜㅠ

2. 뭐가 문제인가?

문제가 아님

  • 대시보드가 잘 되어 있는데도 계속 요청한다 > 보다보면 궁금한게 생김
  • 조금씩 조건을 바꿔서 자꾸 요청한다 > 쓸만한 인사이트나 아이디어는 데이터를 다양한 각도에서 살펴봐야 답이 나옴

이건 문제

  • 데이터 분석가들이 추출만 하고 있다. > 다른일 할 시간이 없다.
  • 데이터 추출 요청이 명확하지 않아 추출에 시간이 오래걸린다.
  • 데이터 추출 요청하는게 번거롭고 데이터팀의 눈치를 본다.
  • 데이터 분석을 데이터팀에서한 한다.
  • 데이터팀에서 분석한 결과가 서비스에 반영되지 않는다.

3. 지향하는 조직

프로세스와 역량을 갖춘 회사

  • 복잡한 절차 없이, 필요한 데이터를 누구든 찾아볼 수 있고 가공해서 인사이트를 찾을 수 있다.
  • 데이터 분석가들이 본업에 집중할 수 있다.
  • 분석 결과물들이 체계적으로 쌓이고 실제 서비스에 반영된다.

요청자와 분석가의 역할이 명확하게 구분되지 않는 조직

4. 데이터가 흐르는 조직을 만들기 위한 노력

1) 사내교육: 데이터 추출과 분석을 위한 기본 지식 쌓기

데이터 분석을 위한 마인드셋

  • 왜 데이터 분석이 필요하고 내 업무에 어떻게 적용할 것인가

    데이터 분석의 목표: 서비스를 운영하면서 쌓이는 유저 데이터를 바탕으로 서비스를 지속적으로 개선해 나가는 것

SQL

  • 동영상 강의를 지정해서 수강하게 함 (자기주도 학습)
  • 서비스 DB에 대해 설명
  • 써먹을 수 있는 과제를 출제

Excel

  • 실제 업무에서 필요한 문제들을 풀기 위한 스킬들

사내교육이 의미 있으려면

  • 주기적으로 해야함
  • 리더의 의지와 지원이 필요함
  • 배운 걸 즉시 써먹을 수 있는 환경이 지원되어야 함
  • 배운 걸 실제 업무에 써먹고 있는지 체크해야 함 (업무에서 잘 활용하고 있어야 함)

2) 시스템

데이터 파이프라인 만들기

  • 구성원들이 자유롭게 쿼리할 수 있는 환경을 만드는 게 시작

간단한 BI툴에서부터 시작

  • (추천: redash)
  • (추천: Stitch > 데이터 엔지니어 없이 ETL하기)
  • (추천: 빅쿼리)

3) 조직문화

업무환경

  • 리더의 의지 (매우 중요함)
  • 데이터에 대한 폭넓은 접근성

조직구조

  • 낮은 부서간 업무 장벽
  • 고립되지 않은 분석 조직 (R&R이 모호한 구조)

일하는 방식

  • 지표를 명확하게 정의하고 사용해야 함 (사람마다 정의가 다름)
  • 반복되는 실패, 지속적인 실험

좋은 질문을 찾는 노력

(조직구성)

  • 그로스팀 > 데이터 기반 회사를 만드는 조직
  • 크로스셀TF > 데이터에 기반해서 핵심지표를 개선하는 팀

(꼭 데이터가 있어야 시작할 수 있는 건 아님 > 데이터가 없어도 연역적으로 예측했던 사례도 있었음)