AI에서의 프라이버시 보호를 제공하는 기술들

ChatGPT의 센세이셔널한 등장 이후로 인공지능과 기계학습에 대한 세간의 관심은 가히 폭발적입니다. 수많은 기업과 정부들이 AI에 조직과 국가의 미래가 달렸다고 이야기하며 이에 대한 투자 계획과 정책을 발표하고 있으며 현실의 많은 문제들을 AI를 통해 해결해보려는 시도들도 늘어나고 있습니다. 그러나 AI 서비스의 전방위적 보급과 동시에 야기되는 각종 사회 문제 또한 존재합니다. 대표적인 문제 중 하나가 학습에 사용되는 개인정보로부터 야기되는 프라이버시 침해입니다. 2021년 카카오톡 사용자들의 대화 내용 100억 건을 사용해 만들어진 챗봇 ‘이루다’에 의해 대화 내용에 담긴 집 주소나 계좌 정보들이 노출되었던 사건이 대표적인 예로써, 더 나은 AI 모델을 개발하기 위해서는 더 많은 양질의 개인정보가 필요하고, 그렇게 개발된 AI 모델들이 일상의 곳곳에서 사용될수록 개인정보가 노출될 가능성은 늘어납니다. 그렇기에 AI 모델의 유용성을 유지하면서도 학습에 사용된 개인정보의 노출 가능성을 일정 수준 이하로 제어할 수 있는 프라이버시 보호 기술이 필요합니다. 이에 Green Geek에서는 2회에 걸쳐 현재 프라이버시 보호 기술과 그 개발 역사에 대해 설명하고자 합니다.

1. 프라이버시 침해란 무엇인가?

다양한 전자/정보/통신 기술의 발달에 따른 정보화 시대의 도래는 디지털 데이터의 폭발적인 증가를 가져 왔습니다. 대용량 데이터의 저장 및 분석 기술 발전에 따라 축적된 디지털 데이터는 커다란 경제적 가치를 지닌 자원으로 여겨지고 있으며, 기업이나 조직은 의사 결정에 필요한 지식을 추론해 낼 수 있는 디지털 데이터와 분석 기술 확보에 매진하고 있습니다.

그러나 개인정보가 포함된 대용량 데이터 분석은 잠재적인 개인정보 노출 위험을 야기합니다. 선거인명부를 사용한 매사추세츠 주지사의 병원 기록 정보 노출이나 AOL 검색 기록을 통한 특정인 식별, 넷플릭스 평점 자료를 통한 이용자 식별 등의 일련의 프라이버시 침해 사건들이 그 예입니다. 디지털 데이터 분석에 의한 프라이버시 침해를 인식하는 계기가 된 대표적인 사건들을 소개하겠습니다.

(1) Governor Weld 사건

1997년, Latanya Sweeney는 미국 인구조사국이 수행한 ‘익명화된’ 인구 조사 정보를 활용하여 매사추세츠 주지사인 William Weld의 정보를 재식별해냈습니다. Sweeney의 재식별 방법은 다음과 같습니다.

매사추세츠 주에서는 주 공무원들을 위해 건강 보험을 제공한다. 주 정부는 공무원들의 건강 보험 관련 정보를 일반 연구 목적으로 공개하기로 결정하였는데, 여기에는 환자의 병원 방문 기록과 같은 민감한 정보가 포함되어 있었다. 따라서 공개에 앞서 주 정부는 이름, 주소, 사회 보장 번호 등의 ‘식별 정보’를 제거하였으나, 이 정보에는 우편번호와 생일, 성별 등의 정보가 그대로 남아있었다.

Sweeney는 이 정보에 다른 경로로 입수한 매사추세츠 주의 선거 인명부를 더했습니다. 이 선거인명부에는 유권자들의 이름, 주소, 우편번호, 생일, 성별이 포함되어 있었습니다. Sweeney는 매사추세츠 주에서 공개한 정보와 선거인명부의 정보를 조합하여 각 이용자들의 실명과 병원 기록을 연결할 수 있었고, 주지사인 Weld의 정보 역시 찾아낼 수 있었습니다.

Sweeney는 이를 연결 공격(linkage attack)이라 명명하였으며, 미국의 87.1%의 사람들이 그들의 우편번호, 생일, 성별 정보를 통해 식별 가능함을 보였습니다. 즉, 이름이나 주소 같은 식별 정보 이외에 생일이나 우편번호, 성별 같은 준식별 정보로도 특정인이 식별 가능함을 보인 것입니다. 그녀의 연구 결과는 의료 정보에 대한 프라이버시 규제 정책인 Health Insurance Portability and Accountability Act (HIPAA) 제정에도 영향을 미쳤습니다.

(2) AOL 사건

2006년 미국의 인터넷 검색업체 AOL(America Online)은 과학 연구 기여를 위해 65만 명이 넘는 이용자의 검색 기록 2천만 개, 그리고 3개월간의 질의들을 요약한 정보를 제공하였습니다. 이 정보를 공개하기에 앞서 AOL은 이용자명을 가명 처리하고, IP 주소 등의 식별 정보를 범주화(예를 들어 163.239.34.2의 IP 주소를 163.239.34.*로 변환한다)하는 등의 나름의 ‘개인정보 비식별화 작업을 하였다‘고 밝혔습니다. 그러나 공개된 검색 질의 정보는 다른 정보와의 교차 비교를 통해 특정인을 식별할 수 있는 가능성이 있었습니다. 이는 뉴욕 타임즈의 보도에 의해 확인되었는데, 뉴욕 타임즈는 ’성이 Arnold인 사람‘, ’GA Lilburn의 조경사‘ 등의 검색 질의를 통해 한 이용자의 신원을 파악할 수 있었고, 해당 이용자가 Georgia 주의 Lilburn에 거주하는 62세의 Thelma Arnold라는 여성임을 보도하였습니다. 이 사건으로 인해 AOL은 집단 소송을 당했고, AOL의 최고 기술 책임자가 사임하는 결과를 가져왔습니다.

[참고] Governor Weld & AOL 사건 관련 자료: https://arstechnica.com/tech-policy/2009/09/your-secrets-live-online-in-databases-of-ruin/

(3) Netflix 사건

2006년, 넷플릭스는 2자사가 보유한 추천 시스템의 알고리즘 개선을 위해 500만 명의 이용자의 1999년부터 2005년까지 1억 건의 영화 평점 자료를 공개하였습니다. 자료 공개 후, 텍사스 대학교의 연구원 Arvind Narayanan과 Vitaly Shmatikov는 이 데이터를 사용하여 개인 식별이 가능하다는 것을 밝혔습니다. 텍사스 연구팀은 넷플릭스 이용자의 평점 정보로부터 추론 가능한 영화 취향을 익명화 처리되지 않은 영화 관련 웹사이트인 IMDb의 정보와 넷플릭스의 정보를 비교하였고, 그 결과 2개의 영화 평점으로는 68%의 정확도로, 6개의 평점으로는 99% 정확도로 이용자를 식별해 낼 수 있었습니다.

위와 같은 일련의 사건들을 통해 기업과 정부, 그리고 시민들은 대용량 디지털 데이터 처리 시 적정한 프라이버시 보호 기술이 필요함을 깨닫게 되었습니다.

2. 프라이버시를 보호하기 위한 기술들

앞서 설명한 Sweeney의 연결 공격(linkage attack)을 보다 자세히 살펴보겠습니다.

위의 그림은 식별 공격의 한 예입니다. Patient data는 어느 병원의 환자의 질병 정보를 포함하고 있는 데이터로 탈식별화 과정을 거쳐 이름 등의 개인을 식별할 수 있는 정보가 제거된 채 공개된 데이터입니다. 이 데이터만으로는 어떤 사람이 어떤 질병을 가지고 있는지 알 수 없으나 병원과 같은 지역의 투표 인명부 데이터Voter registration data를 열람할 수 있다면 이 두 데이터의 공통 속성인 나이, 성별, 우편번호를 사용하여 실제 이름과 그 사람이 어떤 질병을 가지고 있는지 식별할 수 있습니다. 이 데이터의 경우 25세, 남성, 우편번호 53711인 Ahmed가 독감에 걸렸음을 알 수 있게 됩니다.

여기서 이름, 주민등록 번호 등과 같이 개인의 식별 정보를 포함하고 있는 속성을 ID 속성(attribute), 해당 정보만으로는 개인의 식별 정보를 포함하고 있지는 않지만 식별 정보를 알 수 있는 수단으로 사용될 수 있는 속성(예시에서는 Age, Sex, Zipcode)을 QI(Quasi-Identifier) 속성, 개인의 프라이버시와 관련된 민감한 정보를 포함할 수 있으며, 프라이버시 보호의 대상이 되는 속성을 민감 속성(Sensitive attribute)이라고 합니다. 이와 같은 연결 공격을 해결하기 위해 Sweeney가 제시한 것이 k-익명화(anonymity)입니다.

(1) k-anonymity

k-anonymity 기법은 어떤 튜플을 선택하더라도 적어도 k-1 개의 튜플 후보를 갖도록 QI 속성의 값들을 일반화하여 식별 확률을 낮추는 방식입니다.

위 그림은 연결 공격을 방어하기 위해 k-anonymity 기법을 적용한 예입니다. 환자 데이터의 QI 속성인 Age, Sex, Zipcode의 값들을 1*, *, 5370*과 같이 일반화함으로써 6개의 튜플이 동일한 QI 값을 갖도록 합니다(6-anonymity). 따라서 나이, 성별, 주소 정보를 알고 연결 공격을 시도하더라도 Flu만이 아닌 Hepetitis 등 다른 6개의 질병들도 후보가 될 수 있으므로 정확한 값이 식별 될 가능성을 1/6으로 낮추게 됩니다. 이처럼 k개의 동일한 값을 만들어 식별 가능성을 낮추는 특징을 따서, 이 기법을 k-anonymity라 부릅니다.

(2) l-diversity

k-anonymity 기법은 추론 공격 중 연결 공격을 방지하기 위해 제안되었지만 또 다른 추론 공격인 속성 노출(attribute disclosure)에 대해서는 취약점을 지니고 있습니다.

속성 노출은 ID 속성값과 민감 속성값이 정확하게 연결되지 않음에도 민감 속성값이 노출될 수 있는 추론 공격을 뜻합니다. 위 그림의 데이터는 QI 속성으로써 Age, Zipcode, Gender를, 민감 속성으로써 Illness를 포함하고 있습니다. 또한 Tuple {r1, r6}, {r2, r3}, {r4, r5}이 각각 2-anonymity를 만족시킵니다. {r4, r5} 튜플의 경우 2-anonymity를 만족시켰음에도 민감 속성값이 Diabetes로 동일하므로 해당 환자가 당뇨병을 앓고 있다는 것을 알 수 있습니다. 즉, 민감 속성의 동일성을 고려하지 않을 경우 여전히 속성 노출이 일어나게 되는 것입니다.

이를 방지하기 위한 기법이 l-diversity입니다. l-diversity 기법은 k-anonymity 기법에서 가능한 속성 노출을 방지하기 위해 동일하게 익명화된 그룹당 서로 다른 l-1 개 이상의 민감 속성값을 갖도록 합니다. 그림의 예에서 왼쪽 데이터는 각 그룹당 4-anonymity가 보장되어 있지만 {130**, 3*, *}를 값으로 갖는 그룹의 민감 속성값이 모두 Cancer로 속성 노출이 일어납니다. 따라서 오른쪽과 같이 최소한 3개 이상의 서로 다른 민감속성값을 갖도록 함으로써 속성 노출 확률을 1/3으로 감소시키는 것이다. 이것을 l-diversity 기법이라 합니다.

(3) t-closeness

하지만 l-diversity 기법 역시 취약점이 존재합니다. 민감 속성값을 다양하게 배치하더라도, 같은 그룹에 분류 체계 상 가까운 관련 값들이 몰릴 수 있습니다.

그림에서 왼쪽 데이터는 3-anonymity와 3-diversity를 만족하지만 {476**, 2*}를 값으로 갖는 첫 번째 그룹 안에 gastritis(위염), gastric ulcer(위궤양), stomach cancer(위암)이 몰려 있습니다. 만약 공격자가 공격 대상자의 주소와 나이를 알고 있다면 정확히 어떤 질병인지는 알 수 없지만 위 관련 질병을 앓고 있다는 것을 알 수 있습니다. 이를 추론 공격의 속성 노출 중 유사성 공격이라 하는데, t-closeness는 유사성 공격을 방지하기 위하여 민감 속성 도메인의 분류 체계까지 고려하여 그림의 왼쪽 데이터와 같이 민감 속성 값들이 각 그룹마다 일정 수준 이하로 분포될 수 있도록 익명화를 진행합니다.

이번 뉴스레터에서 우리는 프라이버시 침해란 무엇인지, 그리고 가장 일반적으로 사용되는 k-anonymity, l-diversity, t-closeness를 살펴보았습니다. 이 외에도 다양한 배경 지식을 고려한 공격 방법과 이를 막기 위한 기법들이 제안되어 왔습니다. 익명화 기법들은 공격자의 배경 지식을 전제하고, 그 배경 지식 하에 이루어지는 공격을 막는 것이므로 공격자가 미처 예상하지 못한 배경 지식을 사용해 추론을 시도할 경우 취약점이 드러난다는 한계가 있습니다. 따라서 이런 익명화 기법들은 완전한 추론 공격 방지를 제공한다기보다는 데이터가 사용되는 환경을 가정하고, 그 환경에서 가능한 프라이버시 보호를 제공하는 데 목적을 둡니다.

Green Geek을 구독하시면 지금 보시는 것과 같은 ICT 소식과 정보를 받아보실 수 있습니다.

AI에서의 프라이버시 보호를 제공하는 기술들

이 글 공유하기:

댓글 남기기 응답 취소