추천 알고리즘, 우리의 선호를 선도하다

기자명 최혜원 기자 (nanchoc09@skkuw.com)

추천 알고리즘은 사용자의 잠재된 선호 파악이 중요해
필터 버블에 갇히지 않도록 보완 기술이 도입돼야

유튜브, 넷플릭스 등의 콘텐츠 서비스 플랫폼은 현대인에게 필수로 자리잡았다. 이런 플랫폼은 추천 알고리즘을 기반으로 운영된다. 어느새 일상의 일부가 된 추천 알고리즘은 우리에게 필요한 정보와 유희를 때맞춰 제공한다. 우리 자신보다 우리를 더 잘 아는 듯한 추천 알고리즘에 대해 알아보자.

추천 알고리즘은 당신을 치밀하게 콘텐츠로 인도한다
추천 알고리즘이란 *알고리즘이 사용자 개인 정보, 선호도 등의 정보를 바탕으로 사용자가 좋아할 만한 콘텐츠를 선정해 제공하는 절차다. 이때 추천 알고리즘에 내재한 인공지능이 이러한 역할을 한다. 인공지능은 누적된 사용자 선택과 추천 기록을 통해 사용자의 선호에 대해 학습하는 ‘딥러닝 과정’을 거친다. 인공지능은 이 과정을 통해 사용자가 원하는 콘텐츠를 이해하고 인간의 개입 없이도 사용자가 어떤 콘텐츠를 원하는지 예측해 자료를 제시한다. 이러한 추천 알고리즘은 ‘협업 필터링 기술’과 ‘콘텐츠 기반 필터링 기술’로 분류된다.

사용자 간 선호의 유사도를 파악하라
협업 필터링 기술은 자신과 취향이 비슷한 사용자들이 소비한 콘텐츠를 기반으로 이와 유사한 콘텐츠를 추천한다. 협업 필터링 기술은 △입력 데이터 구성 △이웃 집단 탐색 △추천 콘텐츠 결정의 과정을 거쳐 작동한다. 먼저 ‘입력 데이터 구성’ 단계에서는 a개의 콘텐츠를 이용하는 b명의 사용자로부터 만들어지는 a*b개의 경우의 수를 고려한다. 이때 콘텐츠와 이용자 간의 관계가 구성된다. ‘이웃 집단 탐색’ 단계에서는 사용자가 소비한 콘텐츠 집합과 타인이 소비한 콘텐츠 집합을 비교한다. 이로써 본인과 비슷한 선호를 가진 사람이 선택된다. 기계는 사용자 간 선호도가 유사할수록 1에 가까운 값을 내놓는다. 이 수치는 다음 단계인 추천 콘텐츠 결정 단계에 영향을 준다. 마지막으로 ‘추천 콘텐츠 결정’은 콘텐츠에 대한 사용자의 선호를 예측해 추천 콘텐츠 목록을 만드는 단계다. 사용자와 선호도가 유사한 다른 사용자가 소비한 콘텐츠 목록 중 사용자가 아직 소비하지 않은 콘텐츠가 추천 목록에 포함된다. 협업 필터링 기술은 여러 사용자의 선호를 반영하므로 만족스러운 결과를 보여줄 확률이 높다. 그러나 일정 수 이상의 사람이 일정 수 이상의 콘텐츠를 소비해야 한다는 한계를 가진다. 우리 학교 글로벌융합학부 김재광 교수는 “아무도 소비하지 않았던 새로운 콘텐츠나 어느 콘텐츠도 소비하지 않은 사용자가 있으면 협업 필터링 기술로는 추천할 수 없다”며 “이러한 문제를 ‘콜드 스타트’라 부른다”고 말했다.

한 사람이 소비한 여러 콘텐츠 간 유사도를 측정한다
한편 콘텐츠 기반 필터링 기술은 특정 사용자가 소비한 콘텐츠 자체에서 얻을 수 있는 정보를 바탕으로 콘텐츠를 추천한다. 예를 들어 사용자가 영화 <인셉션>을 시청했을 때, 콘텐츠 기반 필터링 기술은 <인셉션>의 등장인물, 장르 등의 메타 정보를 추출해 이와 유사한 성격의 영화 <테넷>을 추천해주는 식이다. 메타 정보란 콘텐츠의 특징이 담긴 정보로 컴퓨터가 읽기 쉬운 형태로 변환한 값이다. 각 콘텐츠는 서로 다른 메타 정보를 가진다. 이러한 메타 정보가 담긴 값은 다차원의 공간인 벡터의 한 점으로 표현될 수 있다. 이때 벡터에서 각 콘텐츠 사이의 거리가 가까우면 콘텐츠 간 유사도가 높음을 의미한다. 콘텐츠 기반 필터링 기술은 협업 필터링 기술과 달리 기존의 데이터가 없는 새 콘텐츠라도 기존 콘텐츠와의 유사도를 계산할 수 있다. 상대적으로 콘텐츠 소비 데이터가 적은 경우도 콘텐츠를 추천할 수 있는 것이다. 그러나 콘텐츠 기반 필터링 기술은 알고리즘마다 메타 정보의 값을 정의하는 방식이 달라 추천 결과 또한 매우 다르게 나타날 수 있다는 한계점을 지닌다.

잠재된 선호 요인 파악이 정확한 추천의 핵심
사용자에게 적합한 콘텐츠를 추천해주기 위해서는 사용자가 콘텐츠를 좋아하는 이유를 세밀히 알아내는 것이 중요하다. 김 교수는 “현재 추천 알고리즘에 쓰이는 딥러닝 모델은 입력 끝부터 출력 끝까지 학습하는 ‘종단 간 기계학습(end-to-end)을 한다”고 말했다. 이는 인공지능이 입력된 데이터에만 의존해 결과를 출력하는 것으로, 특정 콘텐츠가 추천된 이유에 대한 설명이 부족해진다. 김 교수는 “현재 이러한 문제를 해결하기 위해 XAI(eXplainable AI)라는 추천 모델 연구가 주목받고 있다”고 전했다. XAI는 어떠한 이유로 해당 콘텐츠를 추천했는가를 명확히 설명해주는 딥러닝 기반 추천모델이다. 더불어 김 교수는 “이외에도 콘텐츠 특징의 추출 과정을 시각화하는 방법 등에 관한 연구가 활발히 진행되고 있다”고 전했다.

편향된 정보 편식, 세렌디피티로 극복해
한편 추천 알고리즘이 개인에게 맞춤화된 방식으로 발전하며 여러 한계가 드러나고 있다. 대표적인 한계점으로 대두되는 것이 ‘필터 버블’ 현상이다. 필터 버블이란 추천 알고리즘이 사용자의 관심사와 관련된 자료만 제공해 사용자가 정보를 편식하게 되고 이로써 개인의 주관이 강화되는 현상을 일컫는다. 한편 콘텐츠에 대한 기준 없이 추천을 하는 경우에도 문제가 발생한다. 실제로 유튜브의 경우 나치 이데올로기를 미화하는 영상 등 윤리적 기준에서 벗어난 혐오성 콘텐츠도 무작위로 추천해 논란을 빚은 바 있다. 이에 김 교수는 “이러한 현상을 막기 위해서 추천 알고리즘이 특정 콘텐츠에 대한 사용자의 만족도 역시 반영해 학습해야 한다”고 말했다. 콘텐츠가 사용자에게 얼마나 유익하고 긍정적인 영향을 주는지를 지표로 개발해 추천 기술의 성능을 높여야 한다는 것이다.

한편 서울대 융합과학기술대학원 서봉원 교수는 “사용자의 정보 편식을 막기 위해서는 추천 알고리즘에 세렌디피티(serendipity)와 같은 성능이 활용돼야 한다”고 말했다. 세렌디피티란 ‘뜻밖의 우연’이라는 뜻으로, 추천 알고리즘이 종종 특정 사용자의 관심사에 부합하지 않는 콘텐츠를 추천하는 것을 의미한다. 서 교수는 “사용자가 세렌디피티를 통해 기존의 관심사에서 벗어난 새로운 콘텐츠를 접해 신선함을 느끼고 식견을 넓힐 수 있다”며 “추천 알고리즘이 편향된 정보만 제공하는 것을 막고 사용자에게 진정한 유익함을 줘야 한다”고 답했다.

♦알고리즘=특정 문제를 해결하기 위한 절차 또는 규칙의 모음.