이번달 뉴스레터에서는 AI 모델에서의 ‘잊혀질 권리’를 보장하기 위한 기술로 부각되고 있는 Unlearning에 대해 소개합니다. AI 모델에서 잊혀질 권리란 어떤 의미인지, 그리고 이를 위한 기술인 Unlearning은 무엇이며 왜 필요한지 살펴보도록 하겠습니다.

서론

오늘날 인공지능(AI) 기술은 의료, 금융, 행정, 교육 등 다양한 분야에 활용되며 그 성능은 방대한 데이터에 기반하여 지속적으로 향상되고 있습니다. 이러한 데이터에는 종종 의료 기록, 재무 정보, 이메일, 신분증과 같은 민감한 개인 정보들이 포함되는데, 이는 AI의 학습 효율성과 실용성을 높이는 데 기여하는 동시에 프라이버시 침해의 위험을 내포하고 있습니다. 이러한 문제의식에 대응하기 위해 유럽연합의 GDPR(General Data Protection Regulation)이나 미국의 CCPA(California Consumer Privacy Act)와 같이 개인정보에 대한 사용자의 권리를 보장하는 법적 제도들이 제정되었습니다. 이들 규정은 사용자가 자신의 데이터를 삭제 요청할 수 있는 권리를 명시하고 있으며, 이에 따라 AI 시스템 개발자와 운영자는 “모델이 학습한 데이터를 완전히 지운다”는 것이 실제로 어떤 의미이며, 기술적으로 어떻게 실현 가능한지를 진지하게 고민해야 할 필요가 커졌습니다.

AI 모델을 통한 프라이버시 위협

단순히 데이터베이스에서 특정 사용자의 데이터를 제거한다고 해서, AI 모델이 그 데이터를 완전히 잊었다고 보기는 어렵습니다. 이미 모델 학습에 사용된 정보는 내부의 수많은 파라미터에 반영되어 남아 있으며, 경우에 따라서는 외부에서 해당 데이터를 유추하거나 추출하는 것이 가능할 수도 있습니다. 실제로 최근 연구에 따르면, 문서 기반의 VQA(Vision-Question Answering) 시스템이 훈련 중 접한 문서의 내용을 정확히 기억하고 있으며, 해당 문서를 다시 보여주지 않아도 질문만으로 정답을 재현하는 경우가 확인되었습니다. Extracting Training Data from Document-Based VQA Models라는 논문에서는 Donut, Pix2Struct, PaLI-3 등 다양한 모델이 이미지 상의 정답이 제거된 상황에서도 그 내용을 복원할 수 있음을 보였습니다. 이는 공격자가 질문을 반복하거나 맥락을 조작하는 방식으로 민감한 개인 정보를 추출할 수 있음을 의미하며, 기존의 데이터 삭제만으로는 불충분하다는 점을 명확히 드러냅니다.

Unlearning이란?

이러한 문제를 해결하기 위해 등장한 개념이 바로 ‘Unlearning’, 즉 ‘기계적 망각’입니다. 이는 AI 모델로 하여금 특정 데이터를 기반으로 학습했던 내용을 완전히 제거하도록 만드는 기술을 의미합니다. Unlearning은 단순히 저장된 데이터를 지우는 것이 아니라, 해당 데이터가 모델의 파라미터에 미친 영향을 역으로 제거하거나 무력화시켜, 결과적으로 모델이 해당 데이터를 학습한 적이 없는 것처럼 만드는 과정을 포함합니다. 다시 말해, 모델이 그 데이터를 “본 적 없다”고 말할 수 있도록 만드는 것입니다.

Unlearning 방법들은 무엇이 있나요?

그렇다면 AI에게 특정 데이터를 어떻게 하면 실제로 잊게 만들 수 있을까요? 현재까지 다양한 접근법이 제안되어 왔으며, 각각의 방법은 모델의 구조, 데이터의 특성, 응용 분야, 그리고 삭제 요청의 빈도나 프라이버시 요구 수준 등에 따라 선택적으로 적용될 수 있습니다.

대표적인 방법으로는 SISA Training(Sharded, Isolated, Sliced, Aggregated)이 있습니다. 이 방식은 전체 학습 데이터를 여러 조각으로 나누고, 각 조각을 독립적으로 학습시킨 후, 삭제 요청이 발생했을 때 해당 조각에만 부분적으로 재학습을 수행하는 구조를 가지고 있습니다. 이로써 전체 모델을 처음부터 다시 학습하지 않아도 되며, 반복적으로 삭제 요청이 들어오는 시스템에서도 효율적으로 대응할 수 있습니다.

다음으로는 Exact Unlearning이 있습니다. 이 방식은 삭제 요청이 있기 전과 후의 모델 파라미터 상태가 수학적으로 정확히 일치하도록 만드는 접근입니다. 이론적으로는 가장 완전한 방식이지만, 딥러닝 모델처럼 비선형성과 확률성을 지닌 구조에서는 현실적으로 구현하기 매우 어렵습니다. 이에 대한 대안으로 등장한 것이 Approximate Unlearning입니다. 이 방법은 특정 데이터가 모델에 미친 영향을 근사적으로 추정하고, 이를 반대로 상쇄하는 방식으로 파라미터를 조정합니다. 대표적으로 영향 함수(Influence Function)나 그래디언트 반전(Gradient Reversal) 같은 기법이 사용되며, 전체 모델을 다시 학습하지 않고도 비교적 빠른 삭제 효과를 기대할 수 있습니다.

또한 Knowledge Distillation 기반의 Unlearning도 주목할 만합니다. 이 방식은 삭제 이전의 모델을 교사(teacher) 모델로 설정하고, 삭제된 데이터를 제외한 나머지 데이터로만 새로운 학생(student) 모델을 학습시키는 방법입니다. 이 접근은 모델의 성능을 유지하면서도 삭제된 정보의 영향을 제거할 수 있다는 장점이 있습니다. 여기에 더해, 모델의 특정 층만을 초기화하거나 재학습하는 Partial Retraining 기법도 널리 사용되며, 이는 모델 구조의 유연성에 따라 성능과 효율성 사이의 균형을 맞출 수 있습니다.

이 외에도 학습 과정에 차등 프라이버시(Differential Privacy)를 사전에 적용하는 방식도 있습니다. 이는 개별 데이터가 모델에 어떤 영향을 미쳤는지를 감지하기 어렵게 만드는 원리로, 처음부터 데이터가 포함되었는지 여부를 외부에서 식별할 수 없도록 노이즈를 삽입하여 학습을 진행합니다. 다만, 이 방식은 성능 저하가 크고, 계산 비용이 많이 드는 단점이 있습니다. 최근에는 삭제 요청이 반영되었음을 수학적으로 증명할 수 있는 Certified Unlearning(증명 가능한 망각)도 연구되고 있으나, 아직 이론적 단계에 머무르고 있고 실제 딥러닝 모델에 널리 적용되기에는 제한이 많습니다.

도전 과제들

Unlearning 기술은 AI 모델의 프라이버시 보호와 법적 요구사항을 충족시키기 위해 반드시 필요한 기술임에도 불구하고, 현재까지는 실용적인 수준에서 완전히 구현되기 어려운 복합적인 기술적, 이론적 도전에 직면해 있습니다. 이러한 도전 과제는 단순히 기술적 한계에 국한되지 않고, 실제 응용 환경에서의 적용 가능성과 법적 증명 요구까지 포괄합니다. 주요 도전 과제는 다음과 같습니다.

(1) 삭제 데이터의 영향 범위 추적의 어려움

가장 큰 문제는 삭제 대상이 된 데이터가 모델에 어떤 방식으로, 얼마나 광범위하게 영향을 미쳤는지를 정확히 추적하는 것이 매우 어렵다는 점입니다. 딥러닝 모델은 수백만 개 이상의 파라미터를 가지며, 데이터 하나가 여러 층의 파라미터에 복합적인 형태로 영향을 미치기 때문에 **데이터-파라미터 간의 직접적인 연관 관계를 식별하는 것이 불가능에 가깝습니다. 또한, 하나의 샘플이 단독으로 모델에 미치는 영향은 미미해 보일 수 있지만, 다른 데이터와의 상호작용이나 학습 순서 등에 따라 비선형적 효과를 발생시키는 경우도 많습니다. 이러한 상호의존성과 파급 효과는 삭제 대상의 영향력을 정확하게 규명하고 제거하는 데 큰 장애가 됩니다.

(2) 확률적 학습 구조로 인한 재현 불가능성

딥러닝 학습 과정은 일반적으로 확률적 경사하강법(SGD)과 같이 확률적 최적화 기법에 기반하고 있어, 동일한 데이터셋을 동일한 모델 구조로 학습하더라도 매번 다른 결과가 나올 수 있습니다. 이 때문에, 특정 데이터를 삭제하고 재학습한 모델이 원래의 모델과 동일하거나 유사한 상태로 수렴하는 것을 보장할 수 없습니다. 이러한 확률성은 unlearning이 정확하게 실행되었는지를 판단하는 데도 방해가 되며, 예를 들어 “삭제된 데이터를 제거했을 때의 모델과 완전 동일한 상태에 도달했는가?”라는 질문에 답을 하기 어렵게 만듭니다. 특히 Approximate Unlearning과 같이 근사 기반의 기법은 삭제 효과가 얼마나 반영되었는지를 계량적으로 측정하기 어려운 구조적 한계를 가집니다.

(3) 삭제 효과의 검증 및 인증 어려움

법적 또는 제도적인 맥락에서 중요한 과제는, 삭제 요청이 실제로 반영되었는지를 객관적으로 검증하는 메커니즘이 부족하다는 점입니다. GDPR이나 CCPA와 같은 규제는 단지 데이터 삭제를 요구하는 데 그치지 않고, 삭제가 실제로 이루어졌는지를 증명할 수 있어야 한다고 명시하고 있습니다.

그러나 현재 대부분의 unlearning 기술은 모델 내부의 파라미터가 얼마나 변경되었는지, 또는 출력에서 해당 데이터가 얼마나 반영되지 않는지를 간접적으로 추정할 수 있을 뿐, 삭제 효과를 수학적으로 인증(certificate)하거나 외부 감사자가 독립적으로 검증할 수 있는 수준에 이르지 못했습니다. 일부 연구에서는 Certified Unlearning을 위한 이론적 모델을 제안하고 있지만, 계산 복잡도와 적용 제한으로 인해 대규모 딥러닝 모델에서는 현실적이지 않은 경우가 많습니다.

(4) 성능 손실과 프라이버시 보장 사이의 트레이드오프

Unlearning 기법이 삭제 효과를 극대화하려고 할수록, 모델 성능의 손실은 커질 수밖에 없습니다. 삭제 요청이 반복되거나 많은 수의 샘플에 대해 적용되어야 하는 경우, 모델의 일반화 능력 자체가 떨어지는 문제가 발생할 수 있으며, 이는 실제 서비스 품질에 직결되는 문제입니다.

예를 들어, SISA 방식은 부분 재학습을 통해 효율적인 삭제가 가능하지만, 조각화된 학습 구조로 인해 전체 성능이 하락할 수 있으며, 데이터 분포의 균형이 깨질 경우 특정 조각에서의 과적합 위험이 커집니다. 또한 차등 프라이버시(DP)를 활용할 경우, 학습 단계에서 노이즈를 삽입하므로 정확도가 기본적으로 하락하며, 특히 정밀한 추론이 필요한 의료, 법률, 금융 AI 분야에서는 성능 저하는 AI의 적용 자체를 불가능하게 만드는 큰 문제입니다.

(5) 모델 아키텍처 및 저장 구조의 한계

Unlearning 기술은 종종 기존 AI 모델 구조가 unlearning을 전제로 설계되어 있지 않다는 점에서도 어려움을 겪습니다. 기존 딥러닝 프레임워크들은 모델이 학습 데이터를 잊을 수 있는 기능을 내장하지 않고 있으며, 대부분은 전체 학습 데이터를 한 번에 처리하는 형태로 구성되어 있습니다. 따라서 학습 이력을 분리 저장하거나, 샘플 단위로 학습 효과를 추적할 수 있도록 설계되지 않은 경우에는, 삭제 요청이 발생했을 때 모델을 아예 처음부터 재학습해야 하는 부담이 생깁니다.

(6) 모달리티 간 상호작용 문제 (멀티모달 모델)

특히 최근의 멀티모달 AI 모델(Vision-Language Models, Document VQA 등)은 텍스트, 이미지, 표, 그래프 등 다양한 입력 형식을 함께 다루기 때문에, 하나의 데이터가 단일 모달리티가 아닌 복합적인 방식으로 모델에 영향을 주는 경우가 많습니다. 이 경우 한 가지 표현 형태(예: 이미지)는 삭제했지만, 다른 형태(예: 관련된 텍스트 표현)로 유사 정보가 남아 있을 수 있어, 실질적인 망각이 완전히 이루어졌다고 보기 어렵습니다. 이러한 구조에서는 데이터 표현 방식 간의 연계성까지 고려한 unlearning 전략이 필요하지만, 현재 기술로는 이를 정교하게 제어하기 어려운 상태입니다.

이처럼 Unlearning 기술이 실제로 작동하고, 법적으로 신뢰받으며, 성능을 유지하면서도 프라이버시를 보호할 수 있기 위해서는 단순한 알고리즘 개선을 넘어서는 시스템적 접근과 구조적 설계 변화, 그리고 사회적·법적 프레임워크와의 연계가 요구됩니다.

결론

현재 제안되고 있는 다양한 Unlearning 기술들은 개념적, 구조적 다양성을 보여주고 있으나, 그 어떤 방식도 아직 완전한 해법이라고 말하기는 어렵습니다. SISA Training, Influence Function 기반 방식, Knowledge Distillation, Partial Retraining, Differential Privacy 등은 각각의 상황에 맞게 선택적으로 적용될 수 있는 방법들이지만, 대부분이 성능, 속도, 보안, 확장성 사이에서 트레이드오프를 감수해야 합니다. 특히 대규모 언어 모델이나 멀티모달 모델처럼 복잡도가 높은 AI 시스템에서는 이러한 방식들을 실질적으로 적용하는 데 있어 상당한 기술적 장벽이 존재합니다.

따라서 향후에는 Unlearning을 하나의 ‘사후적 기술’이 아닌, AI 시스템 개발의 초기 단계부터 고려되는 설계 원칙으로 통합하는 접근이 필요합니다. 예를 들어, 삭제 가능한 구조의 데이터 셋 구성, 파라미터 업데이트의 추적 가능성 확보, 삭제 요청 이력에 따른 영향도 분석 시스템 등 ‘Unlearning 가능성’을 내장한 AI 개발 프레임워크가 요구됩니다. 동시에, 모델이 특정 데이터를 성공적으로 잊었음을 외부 감사자나 사용자에게 증명할 수 있는 수학적·통계적 인증 체계 또한 필요합니다. 이는 단지 기술적 이슈를 넘어서 사회적 신뢰의 문제이기 때문입니다.

또한 Unlearning 기술은 단지 개인정보 삭제에만 국한되지 않고, 향후에는 모델 편향성 제거, 안전성 향상, 불법 콘텐츠 필터링, 사용자 맞춤형 AI 수정 등 다양한 응용 가능성을 지닙니다. 이를 통해 우리는 더 공정하고 안전한 AI 생태계를 구현할 수 있으며, AI 기술의 지속 가능성과 사회적 수용성을 더욱 높일 수 있을 것입니다.

“잘 배우는 AI”에서 “잘 잊는 AI”로의 전환은, 인공지능이 단순한 예측 도구를 넘어서 윤리적 주체로서 작동하기 위한 필수 조건입니다. 이를 위한 기술적 투자와 제도적 논의가 함께 이뤄질 때, AI는 비로소 인간 중심의 기술로서 더욱 건강한 방향으로 진화할 수 있을 것입니다.

Green Geek을 구독하시면 지금 보시는 것과 같은 ICT 소식과 정보를 받아보실 수 있습니다.

용어 사전

AI 모델: 인공지능이 학습한 결과물로, 입력된 데이터를 분석하고 예측이나 판단을 내리는 컴퓨터 프로그램입니다.
GDPR (General Data Protection Regulation): 유럽연합의 개인정보 보호법으로, 사용자가 자신의 정보를 관리하고 삭제할 수 있는 권리를 보장합니다.
CCPA (California Consumer Privacy Act): 미국 캘리포니아주의 개인정보 보호법으로, 사용자에게 데이터 삭제 요청 권한 등을 부여합니다.
파라미터: AI 모델이 학습한 내용을 수치로 저장해 두는 변수들로, 모델이 어떻게 판단할지를 결정하는 내부 정보입니다.
VQA (Vision-Question Answering): 이미지를 보고, 거기에 대한 질문에 답하는 인공지능 기술입니다.
SISA Training: 학습 데이터를 여러 조각으로 나눠 각각 따로 학습한 후, 삭제 요청이 들어오면 해당 조각만 다시 학습하는 방식입니다.
Exact Unlearning: 데이터를 완전히 삭제했을 때의 상태와 정확히 같도록 모델을 되돌리는 방법입니다.
Approximate Unlearning: 데이터를 삭제한 효과를 완벽하진 않지만 비슷하게 만들어내는 방법입니다.
영향 함수 (Influence Function): 특정 데이터가 모델에 얼마나 영향을 주었는지를 수학적으로 분석하는 방법입니다.
그래디언트 반전 (Gradient Reversal): 학습된 내용을 반대로 되돌리기 위해 사용하는 수학적 조작 방식입니다.
Knowledge Distillation: 기존 모델이 갖고 있던 지식을 새로운 모델로 전달하는 방법으로, 원래 데이터를 일부러 제외하고 재학습합니다.
Partial Retraining: 전체 모델을 다시 학습하지 않고, 일부 층(layer)만 다시 학습시켜서 원하는 정보를 제거하는 방법입니다.
차등 프라이버시 (Differential Privacy): 개인 데이터를 숨기기 위해 의도적으로 노이즈(잡음)를 섞어서 학습하는 기술입니다.
Certified Unlearning: AI 모델이 특정 데이터를 정말로 잊었는지를 수학적으로 증명할 수 있는 기술 또는 이론입니다.
확률적 경사하강법 (Stochastic Gradient Descent, SGD): AI 모델을 학습시키기 위한 방법 중 하나로, 예측 오류를 줄이기 위해 점차적으로 모델을 조정해 가는 방식입니다.
모달리티(Modality): AI가 처리하는 정보의 형식으로, 예를 들어 텍스트, 이미지, 음성 등이 각각 다른 모달리티입니다.
멀티모달 모델: 텍스트, 이미지, 음성 등 여러 가지 정보 형식을 한꺼번에 처리할 수 있는 AI 모델입니다.
모델 아키텍처: AI 모델의 설계 구조로, 데이터가 어떻게 흐르고 어떤 연산이 이루어지는지를 정의합니다.
데이터셋: AI가 학습하는 데 사용하는 데이터의 모음입니다.
트레이드오프 (Trade-off): 어떤 장점을 높이면 다른 단점이 생기는 관계를 의미합니다. 예: 정확도를 높이면 속도가 느려질 수 있음.
편향성 (Bias): AI가 특정한 방향이나 관점에 치우친 판단을 내리는 현상으로, 공정성 문제를 일으킬 수 있습니다.

댓글 남기기