기자명 김원구 (kwg0328@skkuw.com)

검색 정보로 한 국가의 트렌드 알 수 있어
“검색엔진은 매칭과 랭킹이 핵심”


지난달 30일, △특성화사업 문헌정보학과사업단 △데이터사이언스연계전공 △정보관리연구소가 주관한 ‘2018 iSchool Opening Day 특강’으로 ‘네이버(NAVER) 검색서비스와 인공지능(AI) 기술’ 특강이 600주년 기념관 5층 조병두홀에서 개최됐다. 강사로는 네이버(대표이사 한성숙) 통합검색 연구개발부 Director 김상범 박사가 초빙됐다. 김 박사는 검색서비스와 검색서비스를 만드는 방법을 소개하고 네이버 검색서비스에 인공지능(AI) 기술이 어떻게 적용되는지를 설명했다. 강연은 △전 세계 의미 있는 검색서비스 7개 △검색서비스를 만드는 과정 △검색엔진 핵심모듈 Matching and Ranking 순으로 진행됐다. 김 박사는 현재 전 세계에 의미 있는 검색서비스 7개를 △구글 △빙 △야후 △바이두 △얀덱스 △세즈남 △네이버로 언급했다. 이 중 미국은 3개를, 우리나라와 중국, 러시아, 체코는 각각 하나씩 보유하고 있다. 구글이 세계 검색서비스 시장을 선도하고 있는 가운데, 김 박사는 “검색 정보를 통해 한 국가의 트렌드를 알 수 있다. 중요한 정보가 다른 나라 서버에 저장되고 있는 것이 현실”이라고 지적했다. 러시아는 자국 검색서비스인 ‘얀덱스’를 장려하고 있고, 프랑스와 독일은 2000년대 중반에 국가적으로 구글 대항 검색서비스를 만들려 했지만 실패했다. 우리나라는 네이버나 다음이 지식인이나 블로그처럼 국내 실정에 맞는 검색서비스를 개발해 제공 중이다. 김 박사는 “이처럼 전 세계에 검색서비스를 제공하는 회사는 얼마 남지 않았고, 네이버는 그 사이에서 살아남기 위해 열심히 노력 중”이라고 말했다.

김 박사는 “검색엔진은 ‘매칭’과 ‘랭킹’이 핵심”이라 말했다. 매칭은 사용자가 입력한 질의와 관련이 있는 문서를 모두 추려내는 일로, 색인(indexing)에 의해 가능하다. 추려낸 문서에서 순위를 정하는 게 랭킹이다. 현재까지는 단어기반 매칭이 주류인데, 이는 ‘대학주변교회’라는 단어에 근거해 학습한 컴퓨터가 ‘대학생선교회’를 ‘대학생', '선교회’가 아닌 ‘대학, 생선, 교회’로 인식하지 않게 하는 형태론적 분석과 ‘이탈리아’와 ‘이태리’의 검색 결과를 같게 처리하는 동의어가 관건이다. 한편, 네이버는 의미론적 매칭에 기반한 검색서비스도 제공하고 있는데, 이는 검색어를 조금 다르게 입력해도 원활히 검색될 수 있게 하는 매칭 기술이다. 예를 들어, 롯데월드 홈페이지에는 ‘입장료’ 페이지 대신 ‘이용요금’ 페이지가 있는데, 사용자가 ‘롯데월드 입장료’를 검색했을 때 ‘이용요금’ 페이지가 나오게 하는 것이다. 의미론적 매칭의 원리는 롯데월드 요금을 포스팅한 블로그처럼 두 검색어를 통해 사용자가 방문한 중복 결과를 찾아 ‘이용요금-입장료’의 ‘유사질의쌍’을 만들어 컴퓨터를 학습시키는 것이다. 하지만 부작용으로 ‘렌터카 이용요금’을 검색했을 때 ‘렌터카 입장료’로 검색될 수 있다. 이에 대해 김 박사는 “‘지하철 이용요금-지하철 요금’처럼 다른 유사질의쌍을 만들어 렌터카가 놀이공원보다 지하철과 개념적으로 가깝다는 것을 학습시키면 된다”며 “이것이 딥러닝 기반 검색서비스가 급부상한 이유”라고 말했다.
이날 강연을 들은 김지은(신방 14) 학우는 “강연을 통해 검색엔진 알고리즘이 어떤 원리인지 알 수 있을 뿐만 아니라 검색서비스를 구현하기 위해 맥락에 따른 단어의 쓰임과 의미를 이해해야 한다는 것이 흥미로웠다”며 참가 소감을 밝혔다.