데이터야 놀자 2020
데이터야 놀자 2020
1. LINE Wallet 추천 시스템 CTR 2.5배 올린 이야기 (김경민)
- 추천 시스템을 실험하며 얻은 인사이트와 내용이 매우 좋았는데, 점심이라 밥먹으며 듣느라 정리를 못했다. 다음에 유튜브에 공개되면 꼭 다시 들어봐야겠다.
2. 오픈소스 쉽게 기여하는 방법 (강민철)
1) 첫 실패담
- 오픈소스에 기여하고 싶었으나, 깃에 대한 개념이 없었음.
- 코드를 통째로 maintainer 에게 이메일로 코드를 보냄. 응읽씹
실패 요인
- 어디서 부터 시작할지 몰라서
- 코드기여를 통한 기능향상만을 기여라고 착각해서
- 내 코드에 대한 논의를 할 줄 몰라서
- 버전관리를 할 줄 몰라서
이후 오픈소스에 다시 관심을 가진 계기:
- 개인 프로젝트의 한계를 느낌 -> 진짜 고수들의 코드를 보고싶은 욕구
2) 오픈소스 대회에 도전
잔꾀부리기 -> 별로 효율이 좋지 않았음
- 취약점 진단툴을 돌려보고 고친다.
- 많은 취약점이 있었지만, 기여할 수 있는 취약점은 1개밖에 없었음
다시 정공법으로 프로젝트의 꼼꼼한 유저, 분석적인 유저 가 되어 분석해보자
- 유즈케이스를 만들어서 기여하는 형태로 시작해봄
- 유저의 입장에서 프로젝트를 사용해보니, 구조도 눈에 잘 보이게됨.
- 문서를 처음부터 끝가지 꼼꼼하게 사용해봄
문서화작업
- 번역
- 오타수정
- 등등
- 총 119명의 리뷰가 들어갔던 문서화 PR도 있었음
3) 오픈소스 기여 시작할 때 꿀팁들
시작은 어떻게 할까?
- 첫 시작하기 좋은 오픈소스? 최근까지 활발한 논의가 이루어지고 있는 레포여야 빠른 피드백을 받을 수 있음
- (이슈 풀리퀘 등에 남긴 메인테이너의 최신화 기준)
무슨 수단으로 기여? git
어떻게 코드 기여를 할 수 있을까?
- 코드 기여를 하려면 그 프로젝트를 압도할 실력이 필요할까? 네니요
- 쉬운 컨트리뷰션은 이슈에 있다. 이슈를 해결할 실력이면 된다.
- 이슈들 중 뉴비들을 위한 GoodFirstLabel 이 있음
우린 무엇을 얻을 수 있을까?
- 채용시 우대
- 뛰어난 개발자분들의 피드백과 협업경험
- 정갈하고 수준높은 코드를 읽고 쓰는 훈련
- 꼼꼼한/분석적인 유저로써의 사용 테스터로써의 안목
- 영어실력
느낀점
- 뭔가 나도 이제 오픈 소스 기여를 해볼 수 있을 것만 같아…! 라는 동기부여를 얻을 수 있었음.
3. DataCosmetics 화장품을 데이터로 바라보기
데이터로 맞춤형 화장품을 찾아가는 재미 인공지능 연구사 맞춤형화장품 조제관리사 자격을 가지고 있음
현실 세계의 화장품
- 감각적인 브랜드 이미지와 광고 모델이 생각남. 광고에 나오는 분위기나 이미지를 연상
- 연간 1만 8천종의 신상 화장품이 출시됨. 너무 가지수가 많아서 나에게 맞는 화장품을 찾기 어려움.
화장품을 데이터로 설명할 수 있다면 나에게 꼭 맞는 화장품을 찾을 수 있다.
- 화장품은 데이터다, 피부는 데이터다.
화장품을 데이터로 바라보기(토이프로젝트)
화장품은 무엇으로 정의되는가?
- 성분, 카테고리, 제품의 기능이나 효능, 용량대비 가격, 사용감, 발림감 등
- 그 중 화장품의 전성분 (성분의 전체) 으로 먼저 진행해봄
- 인터넷에서 스킨케어 화장품을 크롤링하고 살펴봄
- 브랜드 용량 전성분 제품명 카테고리 가격을 얻을 수 있었음
1만개의 화장품을 조사하여 데이터로 표현
-> 6천가지 전성분의 조합으로 이루어짐 -> 6000차원의 one-hot 벡터로 표현
스킨케어 데이터로 예측에 활용
- 스킨토너, 로션, 크림인지 (제품의 제형 예측)
- 기능이나 효능에 대한 예측
- 사용감, 발림감 등
- 제품의 인기나 선호도
전성분을 기준으로 정의된 화장품데이터를 이용해서 카테고리르 예측하는 문제로 정의
- 크림, 로션 -> 0 유분형
- 스킨 에센스 -> 1 수분형
8,000개 학습 2,000개로 예측하여 XGBoost 사용. 정확도 80%로 예측에 성공
아트랩의 데이터 코스메틱 기획과 런칭
궁극의 올인원 솔루션을 만들수 있을까?
- 만들수 없다.
- 사람들마다 원하는 기능이나 사용감이 달랐음
서로 다른 고객에세 서로 다른 솔루션을 제공하려면?
- 고객의 현재 피부 상황을 파악할 수 있는 데이터가 필요.
- 복합성 피부 타입(건성 지성,..), 복합적인 피부 고민(뾰루지 홍조,..) 등
- 평소 피부에 관심이 없거나 잘못이해하고 있는 고객에게도 정확한 데이터를 알수있게 해야함.
피부, 생활패턴, 외부환경, 취향을 분석하여 제공해야하는 화장품을 매칭
-> 데이터코스매틱 매니폴드를 만들게됨.
소비자의 화장품 반을 살펴보기
매니폴드 화장품 와디즈에서 베타 테스트 진행중
소비자의 인식에 대한 실험을 진행함.
- 감성적인 광고(나를 위한 화장품, 친근하고 따듯한 이미지)와 이성적인 광고(내 피부 데이터, 정확성, 신뢰성)로 A/B테스트를 해보자!
- 페이스북, 인스타그램에서 감성, 이성 광고 각 5개씩 제작하여 1주일 클릭반응률 실험
실험결과: 이성적인 광고의 효과가 더 좋았다.
- 소비자들은 이성적인 화장품에 관심이 있다.
- 소비자들은 데이터코스매틱에 관심이 있다.
느낀점
- 제품에 대한 가설, 광고를 할 때도 가설 기반으로 작고 빠르게 실험하고 데이터로 잘 검증해서 학습해나가는 조직이라는 인상을 받았음.
4. 대학교 경제학 강의를 힙한 데이터특강으로 피봇팅한 썰
스타트업 대표임 - 증권 데이터, 경제데이터에대해 기사를 자동으로 만들어주는 RPA 서비스
경제학 전공해서 데이터 강의의 어려움
경제분야에서 강의하니 학생들이 배경지식이 없어 너무 어려워함. 시장에 적절한 교재가 없음.
어떻게 강의를 구성했나?
- 강의안을 블로그로 만듦.
- 이해하기 쉽게 짤을 많이 만듬.
- 코드마다 코드에 대한 설명을 적음.
- 데이터는 현장감 있도록 실제 데이터를 사용함 (상장기업 현황, 캐글-신용카드 이상감지)
- 통계 중심의 A.I 모형으로. 경제학에서 딥러닝은 다루기는 어려워 회귀모형, 군집모형등 활용.
- 학생들이 페이지를 방문하는걸 측정해서 KPI 피드백 페이지를 구성
5. 크로키닷컴 - UX 개선 필살기 커맨드 AB
지그재그의 ab테스트 프로세스
UX팀 기능 개발 프로세스
주제선정 - 킥오프/아이데이션 - 디자인 - 개발 - a/b테스트 - 프로덕트 적용
- 명확한 a/b테스트를 하여 개선안의 의미를 파악하는 것이 중요
a/b테스트 단계
시작 전)
1) 성과지표설계: 정확히 어떤 목표를 가지고 성과를 분석할 건지 확실해야함
- 유저의 검색을 늘리고싶다/불편하다 -> UI개선 -> 실제로 검색량이 늘었는가? -> 검색량, 재방문율
- 중요 성과 지표: 검색량과 유저의 재방문 비율, side effect(이탈률, 다른 화면의 영향)
2) 테스트설계 특정 조건 및 규모를 감안하여 유저군을 선정해야함
지그재그 a/b 테스트 플랫폼이 있음.
- s3, athena 이용
- 실험을 원하는 세그먼트를 선정할 수 있음.
3) 화면로그설계 UI에 변경에맞게 성과를 측정할 수 있도록 로그를 설계해야함.
시작 후
1) 데이터 모니터링 테스트 후 진행과정 혹은 사이드 이펙트를 보기위해 데이터 모니터링이 필요함.
s3-> airflow, spark, emr -> s3 -> redash
데이터 대시보드를 통해 실험을 모니터링함.
2) 데이터 분석
- 테스트군과 대조군의 그래프를 단순 평균 차이를 비교함. 평균 등 간단한 분석을 함.
- 통계적 기법을 통한 비교 - 실제로 통계적으로 높은 수치인지 검증 / 분산분석, t-test
3) 결론 도출
- 데이터 분석결과 해당 테스트가 성공 했다면 프러덕트에 도입.
- 실패해도 얻은 인사이트를 쌓고 이를 바탕으로 다른 시도를 해봄.
느낀점
- 지그재그에서는 이렇게 실험하고 있구나하고 실험설계 부터 결론 까지의 과정을 세세하게 알 수 있었음.
- 개인적으로 지그재그에서 진행한 여러 실험에 대한 인사이트를 들어보고 싶었는데, 그 부분은 없어서 조금 아쉬웠음.
소감:
코로나 시국이라 오래만에 듣게된 데이터 컨퍼런스라 좋았다. 온라인으로 진행했을 때 사전에 잘 준비되어서인지 더 진행이 매끄러웠던 것 같고, 나름의 현장감(?)도 있어서 집중해서 잘 볼 수 있었다.
데이터야놀자 컨퍼런스에 관심있던 회사 동료분들과 슬랙에서 같이 대화하면서 세션을 들었는데, 서로 안듣는 세션을 정리해서 공유해주기도 하고 서로 의견을 주고 받으면서 들어서 좀 더 재미있었던 것 같다.