1. 서론

지난 뉴스레터에서 강조해왔듯, 인공지능(AI)은 이제 단순한 기술이 아닌 사회적, 경제적, 문화적 영향력을 갖춘 핵심 인프라로 자리잡고 있습니다. 이에 따라, 개별 국가와 지역사회는 AI 개발과 활용에서의 자율성(sovereignty)을 확보하는 것이 중요한 과제로 떠오르고 있습니다. 이른바 Sovereign AI(주권형 인공지능)인데, 이는 외부 기업이나 플랫폼에 의존하지 않고 데이터, 모델, 인프라 측면에서 독립적이고 자율적으로 인공지능을 개발·운영할 수 있는 능력을 의미합니다.

그러나 이러한 이상을 실현하기 위해서는 세 가지 핵심 요소가 필수적입니다: (1) 법적·윤리적으로 안전한 대규모 학습 데이터, (2) 재현 가능하고 통제 가능한 오픈 모델, (3) 자체 인프라와 기술 역량. 오늘 뉴스레터에서는 최근 프랑스의 스타트업 Pleias가 공개한 총 2조 토큰 규모의 언어 모델 학습용 데이터셋인 “Common Corpus”를 중심으로 Sovereign AI가 어떻게 구현될 수 있을지를 소개해보려 합니다.

2. Common Corpus 개요

Common Corpus는 2025년 6월 공개된 대규모 윤리적 LLM(대규모 언어 모델) 사전 학습 데이터셋으로, 총 2조 개 이상의 토큰과 5억 건이 넘는 문서로 구성되어 있습니다. 이 데이터셋의 가장 큰 특징은 모든 자료가 퍼블릭 도메인 혹은 재사용이 허용된 라이선스를 기반으로 수집되었다는 점입니다. 즉, AI 규제 하에서도 자유롭게 활용할 수 있는 합법적 데이터셋입니다. Common Corpus는 다음과 같이 여섯 개의 주요 컬렉션으로 구성되어 있습니다.

– Open Government: 행정, 법률, 재정 등 공공 문서
– Open Culture: 유럽 문화유산 텍스트(문학, 신문, 고전 등)
– Open Science: 논문, 연구 보고서 등 오픈 액세스 학술 콘텐츠
– Open Code: GitHub에서 수집한 자유 라이선스 기반 소스 코드
– Open Web: Wikipedia, Stack Exchange, YouTube 자막 등 공개 웹 데이터
– Open Semantic: Wikidata 지식 그래프의 자연어 변환 버전

이 외에도 모든 문서에는 언어, 라이선스, 생성 연도, 출처 URL 등의 메타데이터가 포함되어 있어 필터링과 분석이 용이합니다. 이 데이터는 Hugging Face를 통해 공개되어 누구나 접근 가능합니다.

3. 윤리적 기준을 준수하는 데이터셋으로서의 Common Corpus

Common Corpus는 단순히 데이터를 수집하는 데 그치지 않고, 학습에 적합하고 윤리적으로 안전한 데이터셋을 구성하기 위해 정교한 정제 및 필터링 절차를 수행하였다는 것이 중요한 특징입니다. 특히 다양한 출처의 문서들이 포함되어 있기 때문에, 문서 구조 보정, 텍스트 복원, 개인정보 제거, 유해성 필터링 등 다단계 정제 체계를 적용하고 있습니다.

(1) OCR 오류 탐지 및 보정

Common Corpus는 고서적, 행정 문서, 학술 자료 등을 수집하여 전산화하였는데, 이러한 스캔 기반 텍스트의 경우 광학 문자 인식(OCR) 과정에서 많은 오류가 발생합니다. 이를 해결하기 위해 Common Corpus는 OCRoscope와 OCRonos라는 두 가지 도구를 도입하였습니다. OCRoscope는 통계적 비정상성을 활용하여 OCR 품질을 자동으로 평가하고, 오류가 발생한 문서들을 탐지하도록 하였습니다. OCRonos는 LLaMA 3 기반으로 개발된 다국어 오류 보정 모델로서, 단어 손실, 줄바꿈 오류, 병합·분리 문제 등을 문맥에 따라 자동으로 수정하였습니다. 이 두 가지 기법을 활용하여 스캔 자료를 자연스럽고 문법적으로 정제된 형태로 복원하여 LLM 학습에 적합하도록 변환하였습니다.

(2) 개인정보 식별 및 제거

유럽의 GDPR과 AI Act의 법적 기준에 따라 AI 서비스 내에서 활용되는 데이터셋 내 개인 식별 정보(PII)는 반드시 제거되어야 합니다. Common Corpus는 이를 위해 Microsoft Presidio라는 오픈소스 PII 탐지 도구를 활용하였으며, 추가적으로 정규 표현식 및 커스텀 규칙을 통해 탐지 정확도를 향상시켰습니다. 이 도구는 식별된 개인정보(예: 전화번호, 이메일, 이름, 주소 등)를 단순히 삭제하는 것이 아니라, 학습 모델이 문장 구조를 유지할 수 있도록 현실감 있는 가상의 값으로 대체하는 방식을 택함으로써 규제 준수와 동시에 모델의 문장 이해력을 보존하는 효과적인 균형을 달성하였습니다.

(3) 유해 콘텐츠 탐지 및 필터링

또한 언어 모델의 윤리적 안전성을 확보하기 위해, Common Corpus는 유해 표현, 차별적 발언, 증오 콘텐츠에 대한 자동 필터링 시스템을 구축하였습니다. 이를 위해 자체 개발된 Celadon이라는 경량 분류 모델이 사용되었는데, Celadon은 DeBERTa-v3-small(140M 파라미터) 구조를 기반으로 하며, 훈련된 멀티 라벨 분류기를 통해 인종차별, 성차별, 종교적 편향, 장애인 비하, 폭력성의 요소들을 필터링합니다. 즉, Celadon은 해당 문서가 유해하다고 판단되는 경우 전체 문서를 제거하거나, 부분적으로 수정하여 텍스트를 정화합니다. 이와 같은 필터링 절차는 언어 모델이 비차별적이고 윤리적인 출력을 생성할 수 있도록 돕는 중요한 사전 작업입니다.

4. Common Corpus의 한계

Common Corpus는 대규모 언어 모델(LLM)의 윤리적이고 법적으로 안전한 학습을 위한 획기적인 데이터셋이지만, 아직 완전한 형태는 아니기에 다음과 같은 몇 가지 한계가 존재합니다.

가장 중요한 문제는 저자원 언어에 대해서 여전히 한계가 있는 데이터셋이라는 점입니다. Common Corpus는 프랑스어, 독일어, 이탈리아어 등 유럽 주요 언어를 중심으로 구성되어 있으나, 아프리카 언어, 동남아시아 언어, 중남미의 원주민 언어 등 다수의 저자원 언어는 여전히 데이터가 부족합니다. 이는 다언어 모델의 언어 편향 문제를 야기할 수 있으며, 언어 다양성과 공정성을 추구하는 글로벌 AI 생태계 목표에 부합하지 않습니다.

또한 데이터 정제와 필터링 과정에서 사용되는 OCR 보정, 개인정보 식별, 유해성 분류 기술이 100%의 정확도를 보장하지 못한다는 점도 중요한 문제입니다. 아무리 정교한 모델이라 하더라도 일부 오류가 발생할 수 있으며, 이는 학습 데이터의 품질과 윤리성에 영향을 미칠 수 있습니다. 따라서 완전 자동화된 정제보다는 인간 검토와 지속적인 개선이 필수적입니다.

5. Common Corpus와 Sovereign AI

Sovereign AI 구현을 위한 Common Corpus의 의의는 다음과 같습니다.

(1) 데이터 주권 실현

Common Corpus는 자체적인 저작권 검증과 라이선스 명시를 통해 모든 데이터를 합법적으로 사용할 수 있도록 설계되었습니다. 특히 유럽의 공공 데이터(법률, 정부 문서 등)와 문화 자산(고문서, 문학 등)을 포함함으로써, 특정 기업, 특히 미국 빅테크와 영미권 언어 자료에 의존하지 않고 자국 내 고유 데이터를 기반으로 모델을 학습시킬 수 있는 조건을 마련하였습니다.

(2) 언어 및 문화 주권 강화

기존 대형 LLM은 대부분 영어와 코드 중심의 데이터셋에 의존하고 있으나, Common Corpus는 프랑스어, 독일어, 이탈리아어, 라틴어, 그리스어 등 50개 이상의 언어를 포함하며, 각 언어별로 최소 수십억 개의 토큰을 보유하고 있습니다. 이는 지역 언어를 반영하는 다언어 LLM 구축에 필수적이며, 유럽 언어 다양성의 보호와 문화적 표현의 반영을 가능하게 합니다.

(3) 모델 주권 기반 마련

Common Corpus는 실제로 여러 개의 오픈 LLM 개발에 활용되고 있으며, 대표적으로 프랑스의 Pleias 모델 시리즈(350M~3B 파라미터)가 Common Corpus만으로 훈련되었습니다. 이 모델은 Jean Zay 슈퍼컴퓨터에서 학습되었으며, 완전히 재현 가능한 오픈 모델로 공개되어 있습니다. 따라서 특정 기업에 종속되지 않는 모델 재현성과 통제 가능성을 확보할 수 있습니다.

(4) 공공 중심의 AI 생태계 구축

Common Corpus는 AI Alliance, Wikimedia, LANGU:IA 등 공공 및 시민 사회 주도의 협업으로 구축되었습니다. Common Corpus는 Hugging Face 플랫폼을 통해 공개되며, Wikidata, OpenAlex 등 오픈 지식 인프라와 연계되므로 특정 기업 중심의 AI 독점을 벗어나 공공 주도형 AI 생태계 조성에 기여할 수 있습니다.

6. Common Corpus가 한국의 Sovereign AI에 대해 가지는 의미

한국은 세계 최고 수준의 디지털 인프라와 정보통신 기술을 보유하고 있음에도 불구하고, 대규모 언어 모델 생태계의 핵심 자원인 데이터, 모델, 플랫폼에 있어서는 여전히 해외 기업에 대한 의존도가 매우 높습니다. 현재 널리 사용되고 있는 ChatGPT(OpenAI), Claude(Anthropic), Gemini(Google), Copilot(Microsoft) 등 대부분의 상용 LLM은 폐쇄형 시스템을 기반으로 하고 있으며, 이로 인해 한국어 표현과 담화 구조에 대한 이해가 부족하여, 실제 응답의 품질이 떨어지거나 문화적 맥락을 반영하지 못하는 경우가 빈번히 발생하고 있습니다. 또한 이러한 플랫폼들은 개인정보 보호법이나 AI 윤리 기준과 충돌할 수 있는 위험을 내포하고 있으며, 특히 민감 정보의 무단 활용 가능성에 대한 우려가 큼에도 불구하고 한국 정부의 규제가 미치지 못하고 있습니다. 즉, 상용 API에 기반한 시스템은 기술적/정책적으로 한국 정부와 공공기관이 통제하거나 조정할 수 없는 구조를 갖고 있어, 자율성과 지속 가능성 측면에서도 문제가 됩니다.

이러한 상황에서 Common Corpus는 외부 기업의 생태계에 종속되지 않고, 자체적으로 LLM을 개발할 수 있는 중요한 사례입니다. 유럽이 선택한 공공 기반의 오픈·퍼블릭 전략을 구현한 대표 사례로서의 Common Corpus는 한국이 Sovereign AI 전략을 수립하고 실현하는 데 있어 현실적인 벤치마킹 대상이자 실행 모델이 될 수 있습니다.

7. 결론

현재 한국 정부는 디지털 정부, 스마트 시티, 공공 의료, 교육 행정 등 다양한 분야에서 AI 기술을 도입하고 있으며, 공공 서비스 혁신을 위한 핵심 도구로 LLM을 활용하려는 움직임도 활발합니다. 그러나 정작 이와 같은 시도들은 대부분 민간 플랫폼에 의존하고 있어, 기술적/정책적 자율성과 지속 가능성 확보에 한계가 따릅니다. 이와 같은 맥락에서 Common Corpus는 한국의 AI 생태계가 공공 중심으로 전환되는 데 있어 중요한 사례가 될 수 있습니다. 앞서 말한 바와 같이 Sovereign AI를 실현하기 위해서는 법적/윤리적으로 안전한 공개형 학습 데이터셋 구축과 오픈 모델 훈련 체계 마련, 그리고 자체적인 인프라와 기술 역량이 중요합니다. Common Corpus는 이 세 가지 요건을 충족시키기 위한 구조와 실천 전략을 이미 유럽 내에서 구현한 사례이며, 한국 역시 이를 참고 삼아 데이터 주권, 언어 주권, 기술 독립성 확보 측면에서 유의미한 데이터셋과 인프라 구축이 필요합니다.

Green Geek을 구독하시면 지금 보시는 것과 같은 ICT 소식과 정보를 받아보실 수 있습니다.

용어 사전

주권형 인공지능(Sovereign AI): 외국 기업에 의존하지 않고, 자국에서 독립적으로 개발하고 운영할 수 있는 인공지능 시스템입니다.
모델: 인공지능이 어떤 문제를 해결하기 위해 학습한 결과물, 일종의 프로그램입니다.
인프라: 시스템을 운영하기 위한 기반 시설이나 기술, 예를 들어 서버, 네트워크, 저장공간 등이 포함됩니다.
데이터셋: AI가 학습할 수 있도록 모아놓은 데이터의 집합입니다.
LLM (대규모 언어모델): 사람의 언어를 이해하고 생성하는 능력을 갖춘, 수많은 텍스트 데이터를 학습한 거대한 AI 모델입니다.
토큰(token): 문장을 작은 단위로 나눈 조각으로, AI는 이 조각들을 학습해 언어를 이해합니다.
퍼블릭 도메인(public domain): 저작권이 없거나 만료되어 누구나 자유롭게 사용할 수 있는 자료입니다.
라이선스: 콘텐츠를 어떤 방식으로 사용할 수 있는지 정해놓은 이용 규칙입니다.
메타데이터: 문서나 데이터에 대한 정보를 담은 데이터로, 예: 작성일, 언어, 출처 등입니다.
Hugging Face: AI 모델과 데이터셋을 공유할 수 있는 오픈 플랫폼입니다.
OCR (광학 문자 인식): 이미지로 된 문서에서 글자를 인식해 컴퓨터가 읽을 수 있게 만드는 기술입니다.
LLaMA: Meta에서 개발한 대규모 언어 모델 시리즈입니다.
PII (Personally Identifiable Information): 이름, 전화번호, 이메일처럼 개인을 식별할 수 있는 정보입니다.
GDPR: 유럽연합의 개인정보 보호법입니다.
AI Act: 유럽연합이 제정한 인공지능 관련 규제 법안입니다.
정규표현식(Regular Expression): 텍스트에서 특정 패턴을 찾기 위한 검색 도구입니다.
멀티라벨 분류기: 하나의 문서가 여러 가지 특징(예: 성차별, 폭력성 등)을 동시에 가질 수 있을 때 이를 모두 판단해내는 AI 모델입니다.
DeBERTa-v3-small: 마이크로소프트에서 개발한 자연어 처리 AI 모델 구조입니다.
파라미터(Parameter): AI 모델이 학습 과정에서 조정하는 수치 값들로, 숫자가 많을수록 모델이 더 복잡하고 정교합니다.
Jean Zay 슈퍼컴퓨터: 프랑스의 국가 슈퍼컴퓨터로, AI 모델 훈련에 사용됩니다.
API (Application Programming Interface): 프로그램 간 데이터를 주고받기 위한 연결 창구로, 외부 서비스와 연동할 때 사용됩니다.
오픈 모델(Open Model): 누구나 접근하고 사용할 수 있도록 공개된 AI 모델입니다.
오픈 액세스(Open Access): 학술자료 등을 누구나 자유롭게 열람할 수 있도록 공개하는 방식입니다.
Wikidata: 위키미디어 재단이 운영하는 구조화된 지식 데이터베이스입니다.
StackExchange: 기술 분야 질문과 답변을 주고받는 커뮤니티 사이트입니다.
OpenAlex: 전 세계 연구 문헌 정보를 공개하는 데이터베이스입니다.
토큰 편향(Language Bias): AI가 특정 언어나 문화에 더 익숙해서, 다른 언어를 잘 이해하거나 표현하지 못하는 현상입니다.

댓글 남기기