기자명 최혜원 기자 (nanchoc09@skkuw.com)

진짜보다 더 진짜같은 딥페이크
악용되는 딥페이크를 막기 위해 탐지기술 발달과 책임의식 고취 필요해

최근 틱톡(TikTok)에서 할리우드 톱배우 톰 크루즈가 골프를 치는 영상이 화제가 됐다. 왜 새삼스럽게 그의 일상이 주목받았을까. 바로 해당 영상 속 톰 크루즈가 허구였기 때문이다. 이는 딥페이크 기술로 만들어진 것이다. 다양한 영상 기술로 활용될 수 있는 딥페이크가 악용되고 있는 현실에서 우리는 어떻게 실제와 허구를 가려낼 수 있을까. 딥페이크가 작동하는 원리와 쓰임을 살펴보고 이를 원본과 구별할 수 있는 기술에 대해 알아보자.

딥페이크의 시작은 이목구비 특징 추출
딥페이크는 심층학습을 거친 기계가 동영상 위에 다른 이미지를 중첩 및 결합해 조작된 영상을 만드는 기술이다. 제작 방법마다 자세한 기술은 다르나 대부분 △추출 △학습 △병합 단계를 거친다. 추출단계는 기계가 얼굴을 탐지하는 과정으로, 얼굴의 랜드마크를 추출한다. 이때 랜드마크는 눈, 코 등 얼굴 특징을 의미한다. 추출단계에서 기계는 학습 대상의 얼굴을 감지할 수만 있다면 어떤 이미지든 학습 자료로 삼을 수 있다. 심지어 1초짜리의 짧은 동영상도 활용된다. 동영상의 경우 1초당 보이는 이미지의 양인 ‘프레임’을 가장 작은 단위로 가지고 있다. 기계는 1초에 담긴 프레임들을 이미지로 인식해 프레임에서 추출된 얼굴을 탐지한다.

진짜로 위장한 가짜를 찾아라
학습단계는 추출단계에서 추출한 사람의 얼굴 특징을 다른 얼굴에 재생성하는 과정이다. 우리 학교 데이터사이언스융합학과 우사이먼성일 교수는 “학습 과정에서 실제와 흡사한 고화질 딥페이크를 생성하기 위해서는 많은 양의 학습 데이터와 GPU 시간이 소모된다”며 “현재로서는 많은 이미지를 여러 번 학습해 실제 이미지같이 보이게 만들고 있다”고 설명했다. 이러한 학습은 ‘생성적 적대신경망(Generative Adversarial Network, 이하 GAN)’이라는 *인공신경망으로 진행된다. 심층신경망에서의 학습은 추정값과 결과값 간의 오차를 최소화하는 방향으로 이뤄진다. 우선 심층신경망은 입력된 정보가 도출되는 데 영향을 주는 수치들을 무작위로 생성한다. 이후 무작위로 생성된 함수들의 추정 오차를 계산해 오차가 가장 적은 수치를 선택하는 과정을 반복한다. 즉 학습 과정에서 실제와 유사한 이미지를 도출해내도록 반복적으로 학습하는 것이다. 이때 GAN은 생성기, 판별기를 가진다. GAN이 실제 데이터를 학습하는 과정에서 생성기가 진짜와 유사한 가짜 데이터를 만들어내면 판별기가 해당 데이터의 진위를 판별한다. 우리 학교 소프트웨어학과 이지형 교수는 “GAN은 생성기가 출력해낸 가짜 데이터를 판별기가 진짜 데이터로 판단할 때까지 학습을 반복한다”고 전했다.  

마지막 단계인 병합단계에서는 새롭게 만들어진 얼굴을 원본 이미지에 합친다. 이때 추가적인 기계학습은 이뤄지지 않고 후보정만 이뤄진다. 우 교수는 “후보정 단계가 딥페이크 영상의 부자연스러운 현상을 완화해준다”며 “피부색이 다른 두 인물을 딥페이크로 조작할 때 목표한 이목구비뿐만 아니라 피부색도 섞이는 ‘색상 제약 문제’를 해결하는 데 후보정이 쓰일 수 있다”고 전했다. 그는 “부자연스러운 현상마다 이를 해결하는 방법은 다르지만, 색상 제약 문제의 경우 ‘포아송 블렌딩(Poisson blending)’이란 기술을 사용한다”고 전했다.

양날의 검, 딥페이크 기술
딥페이크 기술은 어떻게 사용되는지에 따라 선한 예시부터 악용 사례까지 다양한 결과를 부른다. 우선 딥페이크 기술은 영화 산업에 효율성을 부여할 수 있다는 이점이 있다. 우 교수는 “실제로 나이 든 배우의 젊은 시절을 딥페이크로 구현한 사례도 있다”며 딥페이크가 영화산업에서 활용되고 있음을 밝혔다. 또한 딥페이크 기술은 ‘의료 진단 인공지능’을 학습시키는 데이터를 보강하는 용도로 쓰일 수 있다. 예를 들어 희귀난치병 환자의 데이터를 활용하고 싶을 때, 정상인의 데이터 수가 희귀난치병 환자의 데이터 수보다 압도적으로 많아 데이터를 원하는 방식으로 활용하기 힘들 수 있다. 이런 데이터 불균형을 해결하기 위해 딥페이크의 생성모델을 활용하면 의료 데이터를 더 많이 생성할 수 있다. 

한편 같은 의료 분야에서 딥페이크가 악용될 수도 있다. 가짜 임상데이터를 생성해 의료보험사기로 쓰거나, 가짜 의료데이터를 조작된 법적 증거로 사용해 병역 비리를 비롯한 범죄에 쓸 수 있는 것이다. 이에 우 교수는 “의료 딥페이크를 악용하는 것을 막는 판별 기술이 개발돼야 한다”면서도 “딥페이크 기술은 음란물 제작 등 성범죄의 수단으로도 쓰일 수 있으므로 이에 대한 법적 해결방안도 고려돼야 한다”고 전했다. 

눈에는 눈, 딥페이크 기술에는 딥러닝으로
딥페이크를 탐지하는 기술로는 주로 딥러닝 기반의 탐지 기법이 사용된다. 특히 심층신경망의 한 종류인 CNN(Convolutional Neural Network)의 판별기와 탐지기에 원본과 딥페이크를 학습시키는 딥러닝 모델이 많이 사용된다. 우 교수는 “많은 양의 학습데이터가 주어지면 CNN이 사람의 이목구비와 귀, 턱선, 배경의 자연스러움 등 딥페이크와 원본이 구별되는 특징을 추출할 수 있다”고 전했다. 한편 이 교수는 “정치적으로 악용될 수 있는 영상의 경우 암호화 장치를 걸어 검증하거나 훼손된 영상임을 표시하는 등 제한적으로 딥페이크 기술을 막는 방안도 활용될 수 있다”고 말했다. 이처럼 딥페이크가 악용되는 사례가 존재하는 만큼 딥페이크 사용에 대한 경각심이 필요하다. 우 교수는 “인공기술의 개발과 원천 기술이 공개되는 것을 막을 수 없는 만큼 기술 사용에 대한 사람들의 윤리적 의식과 책임감을 고취할 필요가 있다”고 당부했다.

인공신경망=인간의 두뇌 정보 처리 과정을 모방해 만든 알고리즘으로, 데이터를 입력받는 입력층과 입력된 데이터를 학습할 수 있는 은닉층, 그리고 결과를 출력할 수 있는 출력층으로 이뤄져있다.