이번 뉴스레터에서는 인공지능 모델 사용 시 발생할 수 있는 추론 공격(Inference Attack)에 대해 소개하겠습니다. 인공지능 모델에 대한 추론 공격은 여러 가지가 있지만, 이 중 가장 대표적인 추론 공격인 멤버십 추론 공격(Membership Inference Attack)을 소개하고자 합니다.
추론 공격이란 무엇일까요?
인공지능 모델에 대량의 개인 정보가 사용된다는 것은 주지의 사실입니다. 우리의 채팅 내역, 금융 기록, 건강 검진 정보 등이 유용한 AI 모델을 만들기 위해 활용됩니다. 인공지능 모델 학습 과정에서 이런 개인 정보들은 수학적 방정식에 의해 인공지능 모델의 정보값으로 변환됩니다. 이렇게 변환된 값은 원본 데이터와 완전히 다른 형태를 띠고 있기에, 이 모델을 배포하는 것이 개인 정보를 침해하지 않는다고 여겨지곤 합니다. 그러나 멤버십 추론 공격과 같은 추론 공격을 사용한다면, 인공지능 모델의 정보값만을 이용해 개인에게 민감할 수 있는 정보를 추론해낼 수 있습니다.
멤버십 추론 공격이란 무엇인가요?
멤버십 추론 공격은 공격자가 특정 데이터가 인공지능 모델의 학습 데이터에 포함되었는지를 알아내는 공격입니다. 멤버십 추론 공격이 이루어지는 상황을 예로 들어보겠습니다. 한 병원이 환자의 암 진료 기록을 암 발병을 예측하는 인공지능 모델을 개발했다고 가정해보겠습니다. 이 인공지능 모델은 암에 걸린 환자의 의료 기록을 바탕으로 학습이 이루어졌을 것입니다. “공격자”는 자신이 알고 있는 특정인 A의 의료 데이터가 이 모델의 학습에 포함되었는지 알고 싶습니다. 이를 위해 공격자는 암 발병 예측 모델에 A의 데이터를 입력하여 모델의 예측 결과를 얻습니다. 일반적으로 인공지능 모델은 기존에 학습한 데이터에 대해서는 매우 높은 정확도로 예측을 수행하지만, 학습하지 않은 데이터에 대해서는 상대적으로 낮은 정확도로 예측을 수행합니다. 공격자는 암 발병 예측 모델이 A의 데이터에 대해 높은 정확도를 가졌다면 A의 데이터가 학습에 사용되었을 가능성이 높다고 추론할 수 있습니다. 반면 낮은 정확도를 보인다면 A의 데이터가 학습에 사용되지 않았다고 판단할 수 있습니다.
왜 멤버십 추론 공격이 문제가 되나요?
위의 예시에서, 멤버십 추론 공격에 의해 공격자는 A가 병원에 방문해 암 검사를 받았거나, 혹은 암에 걸렸는지 알 수 있습니다. 이러한 정보는 개인의 사생활과 밀접하게 연관되어 있을 뿐 아니라, 외부에 노출될 경우 사회적, 직업적 불이익을 받을 수 있습니다. 예를 들어 A가 특정 암 진단을 받았거나 과거 암에 걸린 이력이 있다는 정보가 유출되면, 보험사가 이를 바탕으로 보험 가입을 거부하거나, 취업 시 건강 상태를 이유로 차별할 가능성이 있습니다. 암보다 더 사회적으로 민감하고 차별에 노출될 수 있는 질병의 경우 이 문제는 더욱 심각해집니다.
왜 멤버십 추론 공격은 어떻게 이루어지나요?
앞에서 설명한 바와 같이 인공지능 모델이 특정 데이터에 대해 예측값을 계산할 때, 해당 데이터가 학습에 사용되었는지 여부에 따라 예측값 정확도가 달라집니다. 멤버십 추론 공격은 이 정확도의 차이를 학습하여 공격 모델을 생성합니다.
그림 2에서 그림자 모델(shadow model)이란 공격 모델(attack model)을 학습시키기 이전에 공격 대상이 되는 인공지능 모델을 가능한 비슷하게 모사할 수 있도록 생성한 모델을 의미합니다. 먼저 공격 대상이 되는 모델의 행동을 모사할 수 있는 그림자 모델을 학습한 후, 그림자 모델을 학습시킬 때 사용된 데이터의 예측값 정확도의 차이를 이용해 공격 모델을 학습시키는 것입니다.
그림 3은 멤버십 추론 공격을 최초로 제안한 Shokri의 논문[1]에서 제시한 멤버십 추론 공격의 정확도입니다. CIFAR-10과 CIFAR-100 데이터를 사용하여 멤버십 추론 공격을 수행한 결과, 이 결과에서 보이듯 클래스의 수가 많을수록 추론 공격 정확도는 더 올라가고, 데이터 사이즈가 클수록 추론 공격 정확도는 줄어듭니다. 즉, 보다 복잡한 데이터일수록 공격 모델 학습에 사용할 수 있는 정보가 늘어나므로 공격 정확도가 향상되며, 학습에 사용한 데이터셋의 크기가 클수록 그중 특정 사용자의 참여 여부를 추론하기는 더 어려워지는 것입니다.
멤버십 추론 공격을 어떻게 방지하나요?
멤버십 추론 공격을 막기 위해서는 차등 프라이버시(Differential Privacy) 같은 기법을 활용할 수 있습니다. 차등 프라이버시는 모델에 일정 기준에 따라 생성된 잡음 데이터를 추가해, 특정 데이터가 학습에 포함되었는지 여부를 숨깁니다. 이는 공격자의 성공 확률을 크게 낮출 수 있습니다. 그러나 프라이버시 보호 기법이 존재한다고 해서 추론 공격이 방지되는 것은 아닙니다. 목적 달성을 위해 최소한으로 필요한 만큼의 데이터 활용, 권한에 따른 정보 공개 수준의 차등화 등 모델 설계 단계에서부터 프라이버시에 대한 고려가 이루어지는 개인 정보 보호 설계(privacy by design)가 필요합니다.
결론
인공지능 모델이 사회 곳곳에 적용되는 것은 돌이킬 수 없는 시대의 흐름으로 다가오고 있습니다. 그러나 그 활용에만 초점이 맞춰질 때, 기술이 야기하는 어두운 면은 과소평가되곤 합니다. 추론 공격도 인공지능 모델의 활용이 야기한 부작용 중 하나입니다. 기술이 가져다주는 편리만이 아닌, 그 기술에 의해 발생할 수 있는 문제점을 차근차근 점검하며 나아가는 현명함이 지금 우리에게는 필요합니다.
[1] Shokri, Reza, Marco Stronati, Congzheng Song, and Vitaly Shmatikov. “Membership inference attacks against machine learning models.” In 2017 IEEE symposium on security and privacy (SP), pp. 3-18. IEEE, 2017
Green Geek을 구독하시면 지금 보시는 것과 같은 ICT 소식과 정보를 받아보실 수 있습니다.


댓글 남기기