본문 바로가기
서비스 기획/기획하는 방법

'키워드로 검색' 기능을 기획하는 방법

2021. 3. 16.

취향입니다만, 존중해주시죠?

요즘은 내가 소비하는 것이 나를 나타내는 시대이다.

그래서 소비자도 판매자도 취향찾기에 열을 올리고 있는데 취향이라는 것이 개인의 감상의 영역이기도 하고 표현력의 차이 때문에 일관된 언어로 정제하기 쉽지 않다.

출처: 웹툰 모죠의 일지

이렇게 말로 표현하기 애매한 '취향'을 가시화 해주는 것이 키워드라고 생각한다. 그리고 이 키워드가 취향찾기에 적극 활용되고 있는 분야 중 하나가 바로 웹 콘텐츠 분야이다.

리디의 '키워드로 검색' 기능과 카카오페이지의 키워드 검색 기능인 'AI 키토크' 서비스를 비교해보고, 이러한 키워드를 활용한 추천 시스템을 이커머스 분야에 확장 적용하는 방법을 고민해보았다.

정보 탐색 여정

리디에서 키워드로 검색하기

리디 키워드 선택의 경우 항목 간, 항목 내 AND 조건이 적용되어 키워드를 선택할수록 결과 값이 소거되므로 정확도를 높일 수 있다. 이런 측면에서 봤을 때 리디의 키워드는 콘텐츠를 정량화(유형화)하는 역할을 수행한다고 볼 수 있다.

하지만 원하는 키워드를 모두 선택하면 그만큼 선택의 여지는 줄어들기 때문에 키워드에 해당하는 결과를 하나도 보지 못할 수 있다. 따라서 독자는 검색 결과의 누락 없이 충분히 살펴보기 위해 본인이 포기할 수 없는 최소한의 키워드를 신중하게 선택하게 된다.

그 다음으로 진행하는 것은 정렬이다. 노련한 독자는 인기순 정렬에 속지 않는다. 인기도라는 지표는 별점과 구매율, 완독률 등 다양한 요소를 바탕으로 측정되나 소수의 마니아층에게 높은 별점을 받는 경우나 다수에게 인기가 있으면서도 낮은 별점을 많이 받는 경우처럼 복합적인 케이스들이 있기 때문이다.

이처럼 객관적 판단 기준이 부족한 경우 사람들은 집단 또는 타인이 지닌 정보의 잠재적 가치를 인정해 다수에 합류하게 된다. 심리학에서 이를 동조 현상이라고 말한다. 따라서 좋은 평가든 나쁜 평가든 리뷰 수가 많은 순서대로 정렬을 선택하게 된다.

키워드에 속았다는 독자들의 리뷰를 쉽게 볼 수 있다.

그 다음 탐색 단계는 리뷰를 통해 판단하는 것이다. 문체, 스토리 전개, 분위기, 감상 등의 영역은 키워드 검색만으로는 파악할 수 없어 독자들의 리뷰에 의존하게 된다. 따라서 정량적 요소인 키워드 선택 이후로는 리뷰 탐색이라는 정성적 평가가 이루어진다고 볼 수 있다.

실제로 리뷰를 보면 유형화하기 어려운 개인의 서술적 평가를 엿볼 수 있다. 그리고 독자는 작품 선택 시와 마찬가지로 다수의 정보를 근거로 판단을 내리기 위해 최신순 / 공감순 / 별점 높은순 / 별점 낮은순 정렬 방식을 활용하여 리뷰 탐색을 이어나간다.

이제 여기까지 탐색했다면 어느정도 배팅을 할 수 밖에 없다. 일부 별점 테러단과 맹목적 팬덤의 리뷰 지뢰밭 사이에서 합리적으로 평가한 리뷰인지를 가려내는 것은 순전히 독자의 판단 능력에 달려있다.

전권병이란 시리즈 전권을 일괄구매했다가 취향이 아님을 깨닫고 피눈물을 흘리는 증상을 말한다

이처럼 세분화된 키워드로도 정성적인 취향을 측정하기 어렵다는 점, 그리고 정성적 평가를 서술한 리뷰를 현실적으로 전부 읽어볼 수 없어 결국 확증 편향된 판단을 내리게 될 수 밖에 없다는 점에서 '키워드로 검색' 기능의 한계를 엿볼 수 있었다.

이러한 정성적인 독자의 반응을 탐색하기 쉽게 하며, 판단의 근거로 삼을 수 있도록 검색 키워드화한 기능이 바로 카카오페이지의 Ai 키토크이다.

카카오페이지에서 Ai 키토크로 검색하기

Ai 키토크는 뉴스, 트렌드, 댓글, 리뷰 등 사용자의 반응 속 단어의 맥락언어적 특성을 반영한 정보 탐색의 단위(말뭉치)를 말한다.

개인적으로 이런 자유도가 높은 형태의 말뭉치 태그가 익숙하면서도 반가웠는데 그 이유는 이미 다른 서비스(리디)에서 위에서 서술한 바와 같이 세분화된 장르 세그먼테이션을 학습하고 리뷰 탐색을 내재화 했기 때문이다.

구체적으로 기존의 키워드 검색과의 차별화된 경쟁력에 대해서 강상원 마이셀럽스 대표의 인터뷰를 참고하였다.

Q. 유튜브 같은 AI 추천 알고리즘과는 다른가.
A. "대부분 추천 알고리즘은 인기 콘텐트를 추천하거나, 로그인 후 누적된 사용자 데이터에 기반해 추천한다. 결과적으로 다수가 좋아하는 인기 콘텐트만 추천되거나, 비슷한 것만 계속 보게 되는 편향성이 생긴다. 반면 우리는 사람들의 글·사진·말 등 일상에서 '라이프 로그'를 추출해 정황과 감정 등이 반영된 말뭉치 '키토크(key talk)'를 만들어 낸다. 사용자가 이를 활용해 스스로 선택하고 추천을 받는다."

Q. '개취'(개인 취향), '취존'(취향 존중) 같은 신조어도 있듯, 취향은 다양하고 자주 바뀐다.
A. "그래서 키토크 검색이 더 경쟁력있다. 키워드 검색에선 제한된 결과를 소비자에게 정답인 것처럼 족집게 식으로 제공한다. 하지만 키토크 검색은 결정 과정에 사용자를 참여시키고, 다른 사람들은 뭘 좋아하는지 보여준다. 최신 트렌드가 즉각 반영되고, 기존 검색으론 누락되던 결과물도 보여준다. 여행지 검색에서 '별이 쏟아지는'이란 키토크를 넣으면 핀란드의 로바니에미(산타 마을) 같은 도시를 제안하는 식이다. 기존 검색·추천으론 드러나지 않던 다양한 발견이 가능해진다."

출처: 나도 모르는 내 취향 찾아준다···아마존도 반한 韓 AI 솔루션

즉, Ai 키토크는 실제 일상 '라이프 로그' 에서 맥락과 감정을 추출했기 때문에 실시간 반응을 반영할 수 있고 고정적이고 편향되지 않은 추천 서비스를 제공할 수 있다는 장점이 있다.

출처: 네이버 DEVIEW2017 인공지능 추천 시스템 AiRS 개발기: 모델링과 시스템

이러한 측면에서 보면 Ai 키토크와 같은 말뭉치 활용 시 추천 품질 평가 3가지 요소 중 다양성최신성 항목에 있어 추천 서비스의 만족도 향상을 기대해 볼 수 있다.

출처: 네이버 DEVIEW2017 인공지능 추천 시스템 AiRS 개발기: 모델링과 시스템

추가적으로 다양성최신성을 평가하기 위한 지표로 유저별 클릭수/CTR, 유저별 총 체류시간, 신규 아이템 회전율 등을 관찰할 수 있다.

그렇다면 실제로 Ai 키토크가 다양성과 최신성을 충족하도록 구현되었는지 카카오페이지에서 AI 취향찾기를 통해 정보 탐색을 시도해보았다.

검색 페이지에서는 인기 검색어와 함께 실시간 유저 반응 랭킹을 제공하고 있다. 약 7시간 가량의 텀을 두고 관찰한 결과, 인기 검색어는 변동사항이 없는데 비해 실시간 유저 반응의 경우 순위뿐만 아니라 작품의 갯수도 변동이 있다는 것을 확인할 수 있었다.('먼치킨인' 3690->3969)

카카오페이지의 실시간 AI 유저 반응

만약 고정된 먼치킨 장르였다면 갯수 차이가 나더라도 이렇게 크게 날 수가 없다. 현실적으로 반나절 사이에 279개의 서로 다른 신작이 추가되지 않기 때문이다. 따라서 이러한 작품 갯수의 변동은 유저의 언급에 따라 유동적으로 작품이 평가되고 있음을 반증하며, 실시간 언급 빈도를 반영한 최신성을 충족한다고 볼 수 있다.

또한 키토크 검색 시 키워드 검색보다 다양한 발견이 가능하다는 것을 체감할 수 있었다. 가령 '드라마만들고 싶은'이라는 키토크는 '생생하게 상상할 수 있다', '완성도가 높다'는 의미를 나타낸다. 따라서 해당 키토크를 통해 특정 장르나 소재, 분위기에 국한되지 않고 기존의 키워드 검색 방식으로는 한 자리에 집합하기 어려울 완성도 높은 작품들을 발견할 수 있었다.

한 가지 의문은 내가 선택하지 않은 키토크에 해당하는 작품들이 결과에 노출되었던 것인데 가령 '계탄것같은', '깜짝놀라게하는', '심장이남아나질않는' 키토크 선택 시 일반적인 키워드 검색이라면 해당 키워드를 포함하는 작품들만 노출된다면 다른 키토크('전생에우주를구한')의 작품도 노출된다는 것이다.

구체적인 알고리즘에 대한 설명을 키토크 위키백과에서 참고하였다.

단순한 문서 내 단어 매칭 방식이 아니라 다양한 표현들 간의 인접도와 유사도, 그리고 색체나 질감 등 속성 데이터를 바탕으로 한다는 점에서 일반적인 키워드와 구분된다. 일반적으로 하나의 표제어와, 이 표제어와 연관도가 높은 복수의 하위 속성 단어 및 가중치들로 구성된 함수로 표현된다.
(중략)

단순히 키워드로 표현되는 매칭 방식이 아닌, 단어와 단어 사이의 연관도를 바탕으로 하는 벡터 모델 기반의 추론 방식을 사용한다. 단순히 단어와 단어 사이의 연관관계만을 점수화하는 기존의 워드 투 벡터(Word2Vec) 방식에서 확장된 개념으로 텍스트 문서를 통해 추출하는 워드 임베딩(Word embedding) 방식 뿐 아니라 색 분석이나 이미지 인식 등 다양한 머신 러닝 연구 성과들을 함께 활용하고 있다.

출처: 키토크 위키백과

즉 표현 간 인접도와 유사도, 연관도를 바탕으로 검색 결과를 도출하기 때문에 단순히 키워드를 매칭하는 방식보다 다양성을 충족한다고 볼 수 있다.

이커머스에 확장 적용하기

그렇다면 이러한 키토크 검색 방식을 이커머스 분야에 어떻게 적용할 수 있을까?

우선 키토크를 추출할 로우 데이터가 필요하다. 해당 데이터는 상품의 특징을 잘 드러내야 하고 상품에 대한 유저의 반응을 실시간으로 수집할 수 있어야 한다. 따라서 수집을 예상할 수 있는 로우 데이터는 상품 상세설명과 구매자 리뷰라고 할 수 있다.

여기서 상세설명 키토크의 관건은 기존의 상세옵션만으로 채워지지 않는 정성적 정보를 제공할 수 있는지에 달려있을 것이다.

상품 상세설명과 상세옵션 필터

한편 내가 기대하는 부분은 구매자 리뷰인데 특히 동대문 의류는 크게 나온 M이나 작게 나온 L 같은 특유의 사이즈 체계가 존재하기 때문이다. (2인분 같은 1인분) 실측 사이즈를 비교해도 소재나 측정 방식에 따라 변수가 많기 때문에 실 구매자들의 착샷과 리뷰에 의존하게 되는 부분 중 하나이다.

그리고 마켓플레이스 특성상 사이즈 표준화가 어려워 현재는 상세옵션에서도 사이즈 필터링이 불가한 경우가 대부분인데 구매자들의 리뷰 키토크가 이러한 부분을 커버해줄 수 있을 것으로 예상한다.


참고사항

네이버의 추천 시스템 AiRs 구축 사례

 

인공지능추천시스템 airs개발기_모델링과

인공지능추천시스템 airs개발기_모델링과시스템

www.slideshare.net

  • 통계적 기반: 통계적으로 유의미한 아이템
  • 협업 필터: 나와 비슷한 유저가 좋아한 아이템
  • 딥러닝: 나의 컨텍스트 벡터와 가까운 아이템(유저-아이템 관계 추론)

 

  • throughput: 서비스의 성능 초당 만번의 트랜잭션
  • latency: 캐시를 사용하지 못하는 상황에서 빠르게
  • scalability: 다양한 추천 서비스에 확대 적용

댓글