앞서 살펴본 바와 같이 개인정보가 포함된 대용량 데이터 분석은 잠재적인 개인정보 노출 위험을 야기하며, 이를 방지하기 위한 방법 중 하나로 익명화 기법들이 연구되어 왔습니다. 그러나 익명화 기법은 추론에 필요한 보조 정보(auxiliary information)를 전제하고 있습니다. 이는 공격자가 사용할 정보들을 사전에 정해두고 보호 모델을 만든다는 뜻으로, 이 전제가 깨질 경우 프라이버시가 침해될 수 있습니다. 그러나 공격자가 지닐 수 있는 보조 정보를 사전에 안다는 전제는 현실에서 달성하기 어려운 조건입니다. 따라서 기존 익명화 기법들로는 늘 프라이버시가 침해될 수 있는 여지가 존재합니다. 이를 해결하기 위한 기법으로 제안된 것이 차분 프라이버시라는 기법입니다. 차분 프라이버시는 보조 정보의 유무와 무관하게 프라이버시 보호 수준을 설정할 수 있습니다.

차분 프라이버시의 정의

차분 프라이버시는 1970년대와 80년대 암호학 개념에서 영감을 얻어 제안된 개념입니다. 암호학의 개념 중 하나인 시맨틱 시큐리티 (semantic security)는 암호화된 데이터에 대한 접근 없이는 어떤 정보도 추가로 획득하지 못 함을 의미하며, 이는 공격자가 지닌 데이터에 대한 지식이 질의 이전과 질의 이후에 차이가 없도록 한다는 뜻입니다. 그러나 데이터베이스적 관점에서 이 목표는 불가능한 목표입니다. 통계 정보를 통해 추가적인 정보를 습득해야 질의를 수행한 의미가 발생하기 때문입니다. 따라서 프라이버시 보호 모델은 데이터를 활용하여 적절한 유용성을 얻으면서도 일정 수준의 프라이버시를 보장하는 것을 목표로 해야 합니다.

차분 프라이버시의 목표는 이 요구사항을 만족시키는 데 있습니다. 특정 개인의 정보가 포함되거나 제외될 때 변화하는 질의 결과를 통해 프라이버시가 침해될 수 있다는 전제하에(만약 특정 개인의 정보 변화에 의해 질의 결과가 크게 변화한다면 공격자는 질의 결과의 차이를 보고 특정 사용자의 데이터의 존재 유무와 데이터의 값을 알 수 있게 됩니다), 특정 개인의 정보에 의한 질의 결과 변화량을 일정 수준 이하로 제어하는 것입니다. 즉, 질의 결과의 변화량을 일정 수준 이하로 제한함으로써 프라이버시의 보장 수준을 정량적으로 제어하는 것으로 이는 다음과 같은 공식으로 표현될 수 있습니다.

이 공식의 의미는 다음과 같습니다.

임의의 랜덤 함수 M에 대해 레코드 값이 하나만 차이 나는 이웃 데이터베이스 D1과 D2을 입력으로 하는 질의 결과가 O∈range(M)일 때, 이 수식을 만족하는 알고리즘은 ε-차분 프라이버시를 제공한다고 한다 (이 때 ε은 양의 실수이다)

즉, 특정 개인의 정보가 포함되고/되지 않는 경우에 따른 질의 결과의 확률값의 차이가 e^epsilon만큼 나도록 만든다면, 그땐 epsilon-차분 프라이버시를 만족하게 됩니다. 이 때 epsilon이 클수록 더 큰 차이를 허용하기에 낮은 프라이버시 보호가 제공되며 epsilon이 작을수록 두 질의 결과가 비슷해야 하기 때문에 차이에 의한 추론이 어려워 더 높은 프라이버시 보호가 제공됩니다. 즉, epsilon의 값을 설정함으로써 차분 프라이버시 보호 수준을 조절할 수 있게 됩니다.

이해를 돕기 위해 예시를 보여드리겠습니다.

위 그림에서 D1과 D2는 Alice가 있고/없고의 차이를 제외한 나머지 값들은 동일한 테이블로, 이를 이웃 데이터베이스라고 부릅니다. 만약 공격자가 D1에서 Alice의 레코드(튜플)이 제외된 데이터베이스가 D2라는 사실을 알고 있고 두 데이터베이스에 평균(Avg) 질의를 보낼 수 있다면, 공격자는 이 정보를 사용해서 Alice의 정보를 추론할 수 있습니다.

D1의 평균 값 (10k+7k+13k+14k+8k)/5=10.4k

D2의 평균 값 (7k+13k+14k+8k)/4=10.5k

즉, (10.4k*5)-(10.5k*4)=10k이므로 Alice의 연봉이 10k라는 것을 추론할 수 있는 것입니다.

여기에 차분 프라이버시를 적용해보겠습니다. 차분 프라이버시는 질의 결과에 일정 수준(공식에서 ε에 의해 결정되는)의 노이즈를 삽입하여 정확한 결과값이 아닌 근사값을 만들어냅니다.

위의 예시에 차분 프라이버시를 적용한다고 할 때, D1의 평균값 10.4k에는 0.7k만큼의 노이즈를 삽입하고 D2의 평균값 10.5k에는 -0.3k만큼의 노이즈를 삽입했다고 가정해보겠습니다. 이때 공격자가 관찰하는 D1의 평균값은 11.k이고 D2의 평균값은 10.2k이므로 앞선 예와 같은 공격을 시도할 때, 공격자가 얻는 값은 14.7k이므로 Alice의 정확한 정보가 추론되지 않는 것을 확인할 수 있습니다.

이처럼 차분 프라이버시는 통계 데이터 처리 시 정확한 정보가 노출되지 않도록 할 수 있으나 노이즈를 삽입함에 따라 결과값이 부정확해진다는 문제가 있습니다. 예시에서 D1과 D2 모두 실제 평균값이 아닌 근사치의 값만을 얻게 되며, 이는 높은 정확도가 요구되는 과제에서는 심각한 결함이 될 수 있습니다. 반면 유용성을 높이기 위해 노이즈를 적게 넣을 경우 공격이 성공해 사용자의 데이터가 노출될 수 있습니다. 따라서 프라이버시와 유용성 간의 trade-off를 고려하여 적절한 수준의 노이즈를 삽입하는 것이 차분 프라이버시 적용에 있어 중요합니다.

결론

차분 프라이버시는 기존의 익명화 기법과 다르게 배경 지식과 무관하게 차분 프라이버시의 정의에 입각한 프라이버시 보호를 제공할 수 있습니다. 다음 뉴스레터에서는 현재 AI 기술에 차분 프라이버시가 어떻게 적용되고 있는지, 그리고 보다 광범위한 범위에서 차분 프라이버시 적용을 위해 해결해야 할 과제는 무엇인지에 대해 설명하겠습니다.

Green Geek을 구독하시면 지금 보시는 것과 같은 ICT 소식과 정보를 받아보실 수 있습니다.

댓글 남기기