데이터야 놀자 2020

2020-10-28

데이터야 놀자 2020

1. LINE Wallet 추천 시스템 CTR 2.5배 올린 이야기 (김경민)

  • 추천 시스템을 실험하며 얻은 인사이트와 내용이 매우 좋았는데, 점심이라 밥먹으며 듣느라 정리를 못했다. 다음에 유튜브에 공개되면 꼭 다시 들어봐야겠다.

2. 오픈소스 쉽게 기여하는 방법 (강민철)

1) 첫 실패담

  • 오픈소스에 기여하고 싶었으나, 깃에 대한 개념이 없었음.
  • 코드를 통째로 maintainer 에게 이메일로 코드를 보냄. 응읽씹

실패 요인

  • 어디서 부터 시작할지 몰라서
  • 코드기여를 통한 기능향상만을 기여라고 착각해서
  • 내 코드에 대한 논의를 할 줄 몰라서
  • 버전관리를 할 줄 몰라서

이후 오픈소스에 다시 관심을 가진 계기:

  • 개인 프로젝트의 한계를 느낌 -> 진짜 고수들의 코드를 보고싶은 욕구

2) 오픈소스 대회에 도전

잔꾀부리기 -> 별로 효율이 좋지 않았음

  • 취약점 진단툴을 돌려보고 고친다.
  • 많은 취약점이 있었지만, 기여할 수 있는 취약점은 1개밖에 없었음

다시 정공법으로 프로젝트의 꼼꼼한 유저, 분석적인 유저 가 되어 분석해보자

  • 유즈케이스를 만들어서 기여하는 형태로 시작해봄
  • 유저의 입장에서 프로젝트를 사용해보니, 구조도 눈에 잘 보이게됨.
  • 문서를 처음부터 끝가지 꼼꼼하게 사용해봄

문서화작업

  • 번역
  • 오타수정
  • 등등
  • 총 119명의 리뷰가 들어갔던 문서화 PR도 있었음

3) 오픈소스 기여 시작할 때 꿀팁들

시작은 어떻게 할까?

  • 첫 시작하기 좋은 오픈소스? 최근까지 활발한 논의가 이루어지고 있는 레포여야 빠른 피드백을 받을 수 있음
  • (이슈 풀리퀘 등에 남긴 메인테이너의 최신화 기준)

무슨 수단으로 기여? git

어떻게 코드 기여를 할 수 있을까?

  • 코드 기여를 하려면 그 프로젝트를 압도할 실력이 필요할까? 네니요
  • 쉬운 컨트리뷰션은 이슈에 있다. 이슈를 해결할 실력이면 된다.
  • 이슈들 중 뉴비들을 위한 GoodFirstLabel 이 있음

우린 무엇을 얻을 수 있을까?

  • 채용시 우대
  • 뛰어난 개발자분들의 피드백과 협업경험
  • 정갈하고 수준높은 코드를 읽고 쓰는 훈련
  • 꼼꼼한/분석적인 유저로써의 사용 테스터로써의 안목
  • 영어실력

느낀점

  • 뭔가 나도 이제 오픈 소스 기여를 해볼 수 있을 것만 같아…! 라는 동기부여를 얻을 수 있었음.

3. DataCosmetics 화장품을 데이터로 바라보기

데이터로 맞춤형 화장품을 찾아가는 재미 인공지능 연구사 맞춤형화장품 조제관리사 자격을 가지고 있음

현실 세계의 화장품

  • 감각적인 브랜드 이미지와 광고 모델이 생각남. 광고에 나오는 분위기나 이미지를 연상
  • 연간 1만 8천종의 신상 화장품이 출시됨. 너무 가지수가 많아서 나에게 맞는 화장품을 찾기 어려움.

화장품을 데이터로 설명할 수 있다면 나에게 꼭 맞는 화장품을 찾을 수 있다.

  • 화장품은 데이터다, 피부는 데이터다.

화장품을 데이터로 바라보기(토이프로젝트)

화장품은 무엇으로 정의되는가?

  • 성분, 카테고리, 제품의 기능이나 효능, 용량대비 가격, 사용감, 발림감 등
  • 그 중 화장품의 전성분 (성분의 전체) 으로 먼저 진행해봄
  • 인터넷에서 스킨케어 화장품을 크롤링하고 살펴봄
  • 브랜드 용량 전성분 제품명 카테고리 가격을 얻을 수 있었음

1만개의 화장품을 조사하여 데이터로 표현

-> 6천가지 전성분의 조합으로 이루어짐 -> 6000차원의 one-hot 벡터로 표현

스킨케어 데이터로 예측에 활용

  • 스킨토너, 로션, 크림인지 (제품의 제형 예측)
  • 기능이나 효능에 대한 예측
  • 사용감, 발림감 등
  • 제품의 인기나 선호도

전성분을 기준으로 정의된 화장품데이터를 이용해서 카테고리르 예측하는 문제로 정의

  • 크림, 로션 -> 0 유분형
  • 스킨 에센스 -> 1 수분형

8,000개 학습 2,000개로 예측하여 XGBoost 사용. 정확도 80%로 예측에 성공

아트랩의 데이터 코스메틱 기획과 런칭

궁극의 올인원 솔루션을 만들수 있을까?

  • 만들수 없다.
  • 사람들마다 원하는 기능이나 사용감이 달랐음

서로 다른 고객에세 서로 다른 솔루션을 제공하려면?

  • 고객의 현재 피부 상황을 파악할 수 있는 데이터가 필요.
  • 복합성 피부 타입(건성 지성,..), 복합적인 피부 고민(뾰루지 홍조,..) 등
  • 평소 피부에 관심이 없거나 잘못이해하고 있는 고객에게도 정확한 데이터를 알수있게 해야함.

피부, 생활패턴, 외부환경, 취향을 분석하여 제공해야하는 화장품을 매칭

-> 데이터코스매틱 매니폴드를 만들게됨.

소비자의 화장품 반을 살펴보기

매니폴드 화장품 와디즈에서 베타 테스트 진행중

소비자의 인식에 대한 실험을 진행함.

  • 감성적인 광고(나를 위한 화장품, 친근하고 따듯한 이미지)와 이성적인 광고(내 피부 데이터, 정확성, 신뢰성)로 A/B테스트를 해보자!
  • 페이스북, 인스타그램에서 감성, 이성 광고 각 5개씩 제작하여 1주일 클릭반응률 실험

실험결과: 이성적인 광고의 효과가 더 좋았다.

  • 소비자들은 이성적인 화장품에 관심이 있다.
  • 소비자들은 데이터코스매틱에 관심이 있다.

느낀점

  • 제품에 대한 가설, 광고를 할 때도 가설 기반으로 작고 빠르게 실험하고 데이터로 잘 검증해서 학습해나가는 조직이라는 인상을 받았음.

4. 대학교 경제학 강의를 힙한 데이터특강으로 피봇팅한 썰

스타트업 대표임 - 증권 데이터, 경제데이터에대해 기사를 자동으로 만들어주는 RPA 서비스

경제학 전공해서 데이터 강의의 어려움

경제분야에서 강의하니 학생들이 배경지식이 없어 너무 어려워함. 시장에 적절한 교재가 없음.

어떻게 강의를 구성했나?

  • 강의안을 블로그로 만듦.
  • 이해하기 쉽게 짤을 많이 만듬.
  • 코드마다 코드에 대한 설명을 적음.
  • 데이터는 현장감 있도록 실제 데이터를 사용함 (상장기업 현황, 캐글-신용카드 이상감지)
  • 통계 중심의 A.I 모형으로. 경제학에서 딥러닝은 다루기는 어려워 회귀모형, 군집모형등 활용.
  • 학생들이 페이지를 방문하는걸 측정해서 KPI 피드백 페이지를 구성

5. 크로키닷컴 - UX 개선 필살기 커맨드 AB

지그재그의 ab테스트 프로세스

UX팀 기능 개발 프로세스

주제선정 - 킥오프/아이데이션 - 디자인 - 개발 - a/b테스트 - 프로덕트 적용

  • 명확한 a/b테스트를 하여 개선안의 의미를 파악하는 것이 중요

a/b테스트 단계

시작 전)

1) 성과지표설계: 정확히 어떤 목표를 가지고 성과를 분석할 건지 확실해야함

  • 유저의 검색을 늘리고싶다/불편하다 -> UI개선 -> 실제로 검색량이 늘었는가? -> 검색량, 재방문율
  • 중요 성과 지표: 검색량과 유저의 재방문 비율, side effect(이탈률, 다른 화면의 영향)

2) 테스트설계 특정 조건 및 규모를 감안하여 유저군을 선정해야함

지그재그 a/b 테스트 플랫폼이 있음.

  • s3, athena 이용
  • 실험을 원하는 세그먼트를 선정할 수 있음.

3) 화면로그설계 UI에 변경에맞게 성과를 측정할 수 있도록 로그를 설계해야함.

시작 후

1) 데이터 모니터링 테스트 후 진행과정 혹은 사이드 이펙트를 보기위해 데이터 모니터링이 필요함.

s3-> airflow, spark, emr -> s3 -> redash

데이터 대시보드를 통해 실험을 모니터링함.

2) 데이터 분석

  • 테스트군과 대조군의 그래프를 단순 평균 차이를 비교함. 평균 등 간단한 분석을 함.
  • 통계적 기법을 통한 비교 - 실제로 통계적으로 높은 수치인지 검증 / 분산분석, t-test

3) 결론 도출

  • 데이터 분석결과 해당 테스트가 성공 했다면 프러덕트에 도입.
  • 실패해도 얻은 인사이트를 쌓고 이를 바탕으로 다른 시도를 해봄.

느낀점

  • 지그재그에서는 이렇게 실험하고 있구나하고 실험설계 부터 결론 까지의 과정을 세세하게 알 수 있었음.
  • 개인적으로 지그재그에서 진행한 여러 실험에 대한 인사이트를 들어보고 싶었는데, 그 부분은 없어서 조금 아쉬웠음.

소감:

코로나 시국이라 오래만에 듣게된 데이터 컨퍼런스라 좋았다. 온라인으로 진행했을 때 사전에 잘 준비되어서인지 더 진행이 매끄러웠던 것 같고, 나름의 현장감(?)도 있어서 집중해서 잘 볼 수 있었다.

데이터야놀자 컨퍼런스에 관심있던 회사 동료분들과 슬랙에서 같이 대화하면서 세션을 들었는데, 서로 안듣는 세션을 정리해서 공유해주기도 하고 서로 의견을 주고 받으면서 들어서 좀 더 재미있었던 것 같다.