유데미 스타터스 취업 부트캠프 4기 - 데이터분석/시각화(태블로) 12주차 학습 일지
2022.04.24 ~ 2022.04.28
12주차에는 드디어 마지막 해커톤 프로젝트와 발표가 있었다. 교육 과정이 끝나자마자 끔찍한 감기 몸살을 겪어 12주차 학습 일지는 제출하지 못했지만 해커톤 대시보드 cheat sheet와 회고로 늦은 마무리를 해보려 한다. (분명 11주차 학습 일지에서 '좋은 컨디션으로 마무리할 수 있었으면 좋겠다'라고 썼었는데..😢)
목차
프로젝트: 어린이 독서 습관에 따른 웅진북클럽 콘텐츠 운영 전략
유데미 스타터스 취업 부트캠프 4기 데이터분석/시각화 과정 이수 후기
프로젝트: 어린이 독서 습관에 따른 웅진북클럽 콘텐츠 운영 전략
사용 데이터
이용자 정보 TBL
회원 정보 TBL
상품 구매 이력 TBL
온라인 콘텐츠 열람 로그 TBL
콘텐츠 정보 TBL
전시 정보 TBL
코드 메타 TBL
✅ 온라인 콘텐츠 열람 로그 테이블을 중심으로 사용자 데이터와 콘텐츠 데이터를 연결
주제 선정 및 분석 프로세스
주제
콘텐츠 열람 로그 데이터 분석을 통해 어린이별 독서 습관을 파악하고
독서 습관 형성 수준에 따른 콘텐츠 운영 전략을 수립한다
분석 프로세스
대시보드 Overview
목차
1. 웅진북클럽 독서 현황 대시보드
2. 웅진북클럽 독서습관지수 대시보드
3. 웅진북클럽 콘텐츠 운영 전략 대시보드
어린이 독서 습관에 따른 웅진북클럽 콘텐츠 운영 전략 Dashboard Cheat Sheet
1. 웅진북클럽 독서 현황 대시보드
✅ 독서 습관을 형성하는 요소인 독서 횟수, 독서 권수, 독서 주기 지표를 중심으로 웅진북클럽을 이용하는 어린이들의 독서 현황을 확인할 수 있습니다.
매개변수
- 이용일자: 월 단위로 선택(조회기간: 2022년 1월 ~ 2022년 12월)
- 연령대: 3살 단위로 선택(전체/1~3세/4~6세/7~9세/10~13세/14+)
- 성별: 전체/남/녀
1) 1인당 평균 독서 권수, 독서 횟수
- 1인당 평균 독서 권수: 인별 열람 콘텐츠의 수를 중복 제거하여 평균 값으로 집계, 텍스트 형태로 표현
- 1인당 평균 독서 횟수: 인별 열람 이력의 수를 중복 포함하여 평균 값으로 집계, 텍스트 형태로 표현
2) 요일별, 시간대별 이용자수 현황
- 요일별 이용자수 현황: 요일별 이용자의 수를 중복 제거하여 합계 값으로 집계, 막대 그래프로 시각화(전체 평균 이상인 경우 색상으로 막대 강조)
- 시간대별 이용자수 현황: 시간대별 이용자의 수를 중복 제거하여 합계 값으로 집계, 라인 영역 그래프로 시각화
3) 가장 많이 이용한 전시유형, 콘텐츠
- 가장 많이 이용한 전시 유형: 전시 유형별 열람 이력의 수를 중복 포함하여 합계 값으로 집계, 최대 값을 텍스트 형태로 표현
- 가장 많이 이용한 콘텐츠: 콘텐츠별 열람 이력의 수를 중복 포함하여 합계 값으로 집계, 최대 값을 이미지 URL 형태로 표현
4) 독서 주기별 이용자수
- 독서 주기: 이용일자 간격의 평균 (이용횟수 3회부터 최소 주기 발생으로 간주)
- 독서 주기 구간 나누기: 이용횟수의 이용자 분포를 5등급으로 NTILE
- 독서 주기별 이용자의 수를 중복 제거하여 합계 값으로 집계, 막대 게이지 그래프로 시각화
5) 전시 유형별 재독률
- 재독률: 재독자 수/전체 이용자 수 (한 이용자가 동일한 콘텐츠를 2회 이상 열람한 경우 재독으로 간주)
- 전시 유형별 재독자의 수를 중복 제거하여 합계 값으로 집계, 막대 그래프로 시각화
2. 웅진북클럽 독서습관지수 대시보드
✅ 독서 횟수, 독서 권수, 독서 주기 지표의 등급별 점수를 합산하여 산출한 독서습관지수를 기준으로 독서 습관 형성 수준에 따른 콘텐츠 이용 현황을 확인할 수 있습니다.
매개변수
- 이용일자: 월 단위로 선택(조회기간: 2022년 1월 ~ 2022년 12월)
- 연령대: 3살 단위로 선택(전체/1~3세/4~6세/7~9세/10~13세/14+)
- 성별: 전체/남/녀
- 독서습관지수: 1점 단위로 선택(전체/3~15)
1) 전시 유형별 이용횟수 & 콘텐츠 수
- 전시 유형별 이용횟수: 전시 유형별 열람 이력의 수를 중복 포함하여 합계 값으로 집계, 막대 그래프로 시각화
- 전시 유형별 콘텐츠 수: 전시 유형별 열람 콘텐츠의 수를 중복 제거하여 합계 값으로 집계, 라인 영역 그래프로 시각화
2) 투데이/라이브러리 이용 비율, 자사/타사 콘텐츠 이용 비율
- 투데이/라이브러리 이용 비율: 투데이/라이브러리별 이용자의 수를 중복 제거하여 합계 값으로 집계, 도넛 그래프로 시각화
- 자사/타사 콘텐츠 이용 비율: 자사/타사 콘텐츠별 이용자의 수를 중복 제거하여 합계 값으로 집계, 게이지 그래프로 시각화
- ※ 투데이: 추천 콘텐츠 / 라이브러리: 직접 클릭하여 열람한 콘텐츠
3) 콘텐츠 서비스 타입별, 콘텐츠 타입별 비율
- 콘텐츠 서비스 타입별 비율: 열람 콘텐츠의 파일 확장자별 이용자의 수를 중복 제거하여 합계 값으로 집계, 트리맵으로 시각화
- 콘텐츠 타입별 비율: 열람 콘텐츠 유형별 이용자의 수를 중복 제거하여 합계 값으로 집계, 워터폴 그래프로 시각화
4) 독서습관지수
- 독서습관지수: 독서 습관을 형성하는 요소인 독서권수, 독서횟수, 이용주기 각 지표의 등급별 점수를 합산하여 산출, 최소 3점부터 최대 15점까지 구성
- LOD-FIXED 함수를 사용하여 매개변수로 사용한 4개의 차원을 고정한 후 독서권수, 독서횟수, 이용주기 각 지표의 MAX값(이용주기의 경우 MIN값)을 목표치로 함
- 독서권수: 독서습관지수별 독서 권수의 평균 값으로 집계
- 독서횟수: 독서습관지수별 독서 횟수의 평균 값으로 집계
- 이용주기: 독서습관지수별 이용주기의 평균 값으로 집계
3. 웅진북클럽 콘텐츠 운영 전략 대시보드
✅ 콘텐츠 유형별 보유 콘텐츠 현황을 확인하고 독서 습관 형성 수준에 따른 콘텐츠 운영 전략을 도출할 수 있습니다.
매개변수
- 전시 유형
- 라이브러리/투데이
- 자사/타사
- 독서습관지수: 1점 단위로 선택(전체/3~15)
1) 보유 콘텐츠 수
- 독서습관지수별 라이브러리/자사, 라이브러리/타사, 투데이/자사, 투데이/타사 열람 콘텐츠의 수를 중복 제거하여 합계 값으로 집계, 영역 그래프로 시각화
2) 이용횟수 TOP 5 콘텐츠
- 열람 콘텐츠별 열람 이력의 수를 중복 포함하여 합계 값으로 집계, 롤리팝 그래프로 시각화
3) 콘텐츠 리스트
- 독서습관지수별 열람 콘텐츠 리스트를 테이블 형태로 시각화
인사이트 및 결론
인사이트
- 독서습관지수가 낮아질수록 투데이 콘텐츠 이용 비율이 높아짐
- 독서습관지수가 높아질수록 타사 콘텐츠 이용 비율이 높아짐
결론
- 독서습관지수가 높은 라이브러리 콘텐츠를 투데이로 확장시켜 독서 습관 형성에 도움을 제공한다.
- 독서습관지수가 높은 타사 콘텐츠의 특성을 분석하여 새로운 자사 콘텐츠 개발 기회를 발굴한다.
유데미 스타터스 취업 부트캠프 4기 데이터분석/시각화 과정 이수 후기
2월
2월에는 파이썬, SQL, R 순서로 이러닝을 수강했다. 특히 파이썬을 집중 수강했던 첫째 주가 가장 기억에 남는데 과정 초반이라 긴장도 되고 파이썬이 익숙치 않아 강의를 부지런히 따라가느라 바빴다. 하지만 그만큼 파이썬으로 데이터를 핸들링하고 시각화 하는데 익숙해져서 매우 큰 수확이었다.
특히 TIL(Today I Learned)로 작성한 내용들은 주제별, 단계별로 잘 작성해두어서 두고두고 다시 참고할 수 있을 것 같다. 개인적으로 코드 위주로 작성된 기술 블로그들이 불친절하다는 생각이 있었는데 꼼꼼하게, 가독성 있게 작성하면 언젠가는 다 도움이 되는 것 같다.
3월
3월에는 유데미 이러닝 수강과 태블로 오프라인 강의가 진행되었다. 특히 태블로 오프라인 강의를 수강했던 3주가 기억에 남는다. 매주 에어비엔비, 슈퍼스토어, 구글플레이스토어 데이터를 활용하여 미니 프로젝트를 진행했는데 대시보드와 cheat sheet가 결과물로 나온 것에 가장 성취감을 느낄 수 있었다.
대시보드를 제작할 때 어려웠던 점은 데이터 탐색 중 우연히 발견한 어떤 한 특이점에 매몰되어 거기에 전체 분석을 끼워 맞추지 말아야 한다는 것이었다. 특히 발표가 수반되어야 하는 교육 과정 특성상 주로 전략형 대시보드를 제작했기 때문에 더더욱 그럴듯한 결론을 제시해야만 한다는 생각에 압도되었다.
몇 번의 미니 프로젝트를 거치면서 나뿐만 아니라 다른 수강생들도 이런 생각이 매우 위험하고 공격받기 좋은 포인트라는 것을 깨닫게 되어 마지막 프로젝트에서는 데이터 분석, 또는 대시보드 제작 과정에서 어설픈 결론을 내세우지 않도록 주의했었다. 그 대신 분석의 기준, 즉 지표 설계의 과정이 얼마나 논리적이고 합리적인지에 더 집중하게 되었다.
쉽게 설명하자면 데이터 분석 차원에서는 '어떤 지역이 지금 실적이 저조하니 직원 관리가 필요합니다' 라는 결론보다는 '매출과 직원수를 종합적으로 고려한 기준에 의거하여 실적이 저조한 지역과 상품군을 확인할 수 있습니다' 와 같은 결론이 더 적절한 것 같다. (뭐가 되었든 유용한 인사이트가 있다면 장땡이겠지만..)
4월
4월에는 태블로 자격증을 취득했고 SQL 오프라인 강의가 진행되었다. 특히 SQL 강의에서 배운 ABC 분석, decil 분석, RFM 분석, 재구매율, 이탈율 등 분석 기법들은 마지막 프로젝트에서도 많은 도움이 되었다. 이러한 분석 기법 역시 역시 분석의 기준으로써 사용된다는 점에서 좋은 무기가 되어 주었다.
마지막 프로젝트를 진행할 때 가장 어려웠던 점은 데이터 전처리도, 느린 로딩 속도도, 인사이트 도출도 아닌 의견을 취합하고 결정을 내리는 것이었다. 한마디로 제안서를 작성하는 것이 가장 어려웠다. 나는 기획자로 재직한 경력이 있기 때문에 더욱 큰 책임감과 자괴감을 느꼈다. 그리고 분석가로서는 이러한 제안서 작성 역량이 실질적으로 의미있게 평가되지 않는 것처럼(가장 힘들고 어렵지만 빛을 못보는 역량처럼) 느껴져서 심적으로 더 힘들었다.
결과적으로는 발표자가 흐름을 잘 만들어준 덕분에 멋진 프레젠테이션을 완성할 수 있었다. 그리고 만약 혼자 장표를 채워야 했다면 분명 부족했을 분량을 모두가 좀좀따리 채운 장표들로 풍성하게 꾸릴 수 있었다. 의견을 취합하고 결정하는 것이 가장 어려웠지만 누가 한 것이 더 낫고 못해서 빼고 누락시키기보다는 서로 연결을 잘 해주면 되는 것이었다.
강점을 강화하는 것과 약점을 보완하는 것 사이에서 끊임없이 흔들리지만 그렇다고 강점을 숨길 이유는 없다. 언젠가는, 어디에서든 나의 경험과 역량, 특장점을 모두 발휘할 수 있다고 믿는다!!
4L 회고
Liked (좋았던 점)
- 파이썬과 태블로 역량 쌓기
- 파이썬: 데이터를 원하는 형태(시리즈, 데이터프레임 등)로 불러오고 텍스트 데이터와 날짜 데이터를 자유롭게 가공할 수 있다. 이중축과 서브플롯을 활용하여 여러 데이터를 한 번에 시각화할 수 있다. SQL과 파이썬을 결합하여 데이터 추출 및 시각화를 효율적으로 분업할 수 있다.
- 태블로: 그룹과 집합의 차이를 알고 구분하여 사용할 수 있다. case when 구문을 활용하여 차원, 측정값 및 날짜 매개변수를 사용할 수 있다. 대시보드 내 워크시트 간 상호 동작 필터를 적용할 수 있다. VLOD와 LOD의 차이를 이해하고 원하는 차원에서 연산을 적용할 수 있다. 고급 차트를 활용하여 시각화를 다양화할 수 있다.
Lacked (아쉬웠던 점)
- 대용량 데이터를 핸들링하는 경험: psql을 통해 csv 데이터를 가져올 수 있다. 반복적으로 사용되는 데이터에 대해 임시 테이블을 생성하여 속도를 개선할 수 있다.
Learned (배운 점)
- SQL과 태블로의 결합: 어디까지 SQL로 정제하고 어디서부터 태블로로 시각화하는 것이 효율적인지 확실치 않았다. 최대한 범용적인 데이터를 추출한다고 해도 데이터의 용량이 너무 커서 추출 및 로딩 시 비효율적이었고 필요한 데이터가 하나 둘씩 누락되기도 했다. 집계까지 마친 후 추출할 경우 해당 워크시트 하나만 생성할 수 있는 일회용 데이터에 그치곤 했다.
- 팀원들과 분업: 모두가 같은 내용을 배우는 단계였기 때문에 특정 역량을 기준으로 분업하기 어려웠다. 이러한 특성이 전반적인 작업 비효율에 기여한 것 같다. 특히 각자 쿼리를 작성하는 스타일이 다르기 때문에 반복적으로 사용되는 데이터에 대해 인지하고 임시 테이블을 생성하기까지 많은 시행착오를 겪어야 했다. 시각화 역시 작업 효율을 위해서는 통일된 스타일이 적용될 수 있도록 한 사람이 취합해야만 했다. 이 때문에 개인의 시각화 디자인 역량의 개발이 더뎌진 듯하여 조금 아쉬웠다.
- 개인 역량 어필: 기획 역량을 발휘하여 제안서를 작성할 때 개인적으로는 적극적으로 참여했으나 다른 사람들에게 어필은 약간 부족했던 것 같다.
Longed for (앞으로 바라는 점)
- 파이썬 데이터 탐색 패턴화
- SQL 쿼리 가독성 향상
- 대시보드 cheat sheet 작성법
- 여러 지표를 결합하여 score 지표 설정하는 방법
- 두괄식 제안서 작성법
- 사용한 함수식 및 쿼리문을 자연어로 설명하는 방법
- 당일 배운 내용을 적절하게 가공하여 TIL을 작성하는 습관
- 태블로 자격증!!
- 주제 선정부터 시각화까지 차근차근 혼자 대시보드 꾸려보기
- 작은 인사이트 도출 연습
- SQL 분석 기법 고도화하기
마지막 학습 일지까지 마무리하니 이제야 과정을 완전히 이수한 듯하다. 이렇게 회고하니 시행착오들도 기억에 더 오래 남을 것 같다. 수고했다👍
>> 유데미 바로가기
>> STARTERS 취업 부트캠프 공식 블로그 보러가기
본 후기는 유데미-웅진씽크빅 취업 부트캠프 4기 데이터 분석 과정 학습 일지 리뷰로 작성되었습니다.
#유데미 #유데미코리아 #유데미큐레이션 #유데미부트캠프 #취업부트캠프 #스타터스부트캠프 #데이터시각화 #데이터분석 #데이터드리븐 #태블로