사회 전 분야에 걸쳐 AI 활용에 대한 논의가 뜨겁게 이루어지고 있는 오늘날, 교육 분야에서 역시 AI의 활용을 두고 다양한 의견들이 분출하고 있습니다. 유럽의 AI 규제법인 AI Act에 따르면 교육에 사용되는 AI는 의료, 시험, 채용, 선거, 핵심 인프라, 이민, 자율 주행과 더불어 ‘고위험 등급’으로 분류됩니다. 이처럼 ‘고위험 등급’에서 AI 기술은 사람의 감독 아래에, 위험관리 시스템을 구축하여 활용되어야 합니다. 그러나 ‘사람이 감독해야 한다’는 대원칙 아래에서 무엇을, 어떻게, 왜 감독할 것인지에 대한 구체적인 방법에 대한 논의는 아직 초기 단계입니다.

이번 뉴스레터에서는 교육 분야 AI 활용에 대한 논문들을 발표하는 국제 학술대회인 International Conference on Artificial Intelligence in Education (AIED)에서 올해 발표된 논문 2편을 소개하고자 합니다. AIED는 교육 분야에서의 인공지능 연구를 다루는 가장 권위 있는 국제 학술대회 중 하나로, 개인화 학습, 학습 분석, 지능형 튜터링 시스템, 학습자 모델링 등 다양한 분야의 연구를 다루며, 단순 기술 연구가 아닌 실제 교육 현장 적용을 고려한 사례를 포괄하는 학술대회입니다.

첫번째 논문은 Beyond Final Answers: uating Large Language Models for Math Tutoring란 제목을 가진 논문으로, AI의 수학 문제 해결 능력과 더불어 이 수학 문제 해결 능력을 바탕으로 한 학생들의 수학 지도 가능성을 탐구합니다. 혹시 ChatGPT를 사용해서 수학 문제를 풀어보신 적이 있으신가요? 초기 버전과 달리 최근의 ChatGPT는 꽤 괜찮은 수학 문제 풀이 실력을 보여줍니다. 정답도 빠르고, 설명도 친절해서 잘 모르는 개념을 이해하려 하거나 반복해서 문제풀이를 하고 싶을 때 ChatGPT를 활용하는 사례도 많이 늘어나고 있습니다. 그럼 AI는 수학 문제를 잘 푸니까 수학 튜터가 될 수 있지 않을까요?

이 논문은 이 질문에 대한 검증을 수행합니다. 연구팀은 정답 능력뿐만 아니라, AI가 학생의 잘못된 사고 흐름을 이해하고 피드백할 수 있는지를 튜터링의 핵심 요소로 여기고 AI가 이를 제공할 수 있는지 분석했습니다. 연구팀의 연구 방법은 다음과 같습니다.

먼저 LLM의 문제 해결 능력을 평가하기 위해 연구팀은 대학 수준의 대수학 문제를 제시하고, 이에 대한 LLM의 문제 해결 능력을 평가했습니다.
이어 LLM의 튜터능력을 평가하기 위해 인간 평가자가 학생의 역할을 맡아 각 LLM에게 튜터링 지원을 요청하고, 이후 LLM이 제공한 지도 내용의 품질과 정확성을 질적 코딩(qualitative coding) 과정을 통해 분석하였습니다.

실험에 사용된 모델은 GPT-3.5, GPT-4, GPT-4o였고, 연구 결과 LLM은 최종 정답 측면에서는 높은 정확도를 보였습니다. 문제 해결 능력 평가에서 가장 높은 성능을 올린 모델은 GPT-4o였는데 22개 분야에서 각각 5개씩 제시된 110개의 대학 수준 대수학 문제에 대해 GPT-4o는 97.3%의 높은 정확도를 보였습니다. 이 수치는 상당히 높은 정확도이지만 여전히 약 18문제 중 1문제는 오답을 생성한다는 것을 의미합니다.

보다 흥미로운 결과는 두 번째 질문, LLM이 튜토링 지원에 적합한가?에 대한 질문입니다. 인간 평가자에 의해 이루어진 이 평가에서 LLM은 90%가 넘는 대화가 교육적으로 우수한 품질을 보인다고 평가되었습니다. 이는 LLM이 전반적으로 높은 품질의 튜터링 지원을 제공한다고 할 수 있는 수치입니다. 문제는 LLM이 높은 정답률과 높은 품질의 설명을 제공함에도 불구하고 빈번한 오류를 일으킨다는 점이었습니다. 실험에 사용된 LLM들을 통틀어도 완전히 정확한 대화는 56.6%에 불과했는데 이 의미는 LLM의 설명이 친절하고 상세함에도 불구하고 설명 과정에 오류를 포함하고 있다는 것입니다. 이처럼 정확하지 않은 피드백이 반복되는 것은 학생으로 하여금 튜터에 대한 신뢰를 잃게 만들고, 더 나쁘게는 수학의 개념에 대한 잘못된 이해를 형성할 수 있습니다.

익히 알려진 바와 같이 LLM은 교육 기술과 통합될 경우 힌트 생성, 대체 설명 제공 등 여러 교육적 이점을 제공할 수 있습니다. 특히 LLM이 제공하는 긍정적 강화-예를 들어 격려하는 피드백이나 동기 부여 발언 등-은 학습자의 참여도와 지속적 몰입을 높일 수 있는 잠재력을 지닙니다. 그러나 이 연구 결과는 LLM이 중간 단계의 정확성을 담보하지 못하며, 이로 인해 일으킬 수 있는 오류들로 인해 AI 모델을 교육과정에 통합 및 배포하기 전에 신중한 검증이 필요하다는 것을 가리킵니다. 따라서 현재의 LLM은 교육 기술 생태계 내에서 주도적 역할보다는 보조적 역할을 수행하는데 머물러야 합니다.

두번째 논문인 Does the Prompt-based Large Language Model Recognize Students’ Demographics and Introduce Bias in Essay Scoring?는 ChatGPT와 같은 LLM이 학생들의 에세이만 보고 학생의 배경을 추론할 수 있으며, 그렇게 추론된 배경을 바탕으로 점수까지 차별할 수 있다는 것을 보여줍니다.

최근 많은 교육기관과 교사들이 ChatGPT 같은 대규모 언어모델(LLM)을 에세이 자동 채점(AES, Automated Essay Scoring) 에 활용하기 시작했습니다.
AI가 학생 에세이를 척척 읽고 점수까지 매겨준다면, 교사는 더 중요한 피드백에 집중할 수 있을 것이라는 기대 때문입니다. 하지만 여기에는 중요한 질문이 남아있습니다.

"AI는 과연 공정하게 채점하고 있을까?"
이 논문은 이 질문들을 실험적으로 확인하는 최초의 연구 중 하나입니다.

실험을 위해 연구팀은 AI가 글을 읽고 점수를 매기는 과정에서 학생의 배경(성별, 모국어 여부)을 추정하고 있는지, 그리고 그 추정이 점수에 영향을 미치는지를 분석했습니다. 연구팀은 GPT-4o에게 25,000개가 넘는 학생 에세이(미국 6-12학년 수준)를 제공하고, 글 속 표현만으로 학생이 남학생인지 여학생인지, 원어민인지 비원어민인지 추정하도록 요청했습니다. 그 후 동일한 에세이에 대해 AI가 점수를 매기도록 하여, 배경 추정 결과가 점수에 영향을 주는지 비교했습니다.

실험 결과 GPT-4o는 글 속 언어적 특징만 보고 학생이 원어민인지 여부를 74%에서 87%에 달하는 정확도로 추정했습니다. 반면, 성별은 거의 추정하지 못했는데 이는 글쓰기 스타일만으로는 성별 특성을 구분하기 어렵다는 것을 의미합니다. 문제는 GPT-4o가 학생을 비원어민이라고 추정한 순간 더 높은 평가 오류가 발생한다는 것입니다. 즉, GPT-4o는 학생의 에세이만으로도 학생의 모국어 배경을 높은 확률로 예측할 수 있으며, 이 예측은 평가에 영향을 끼칩니다.

이 연구가 중요한 이유는, 많은 사람들이-교사들을 포함하여- AI가 인간보다 더 객관적이고 중립적일 것이라고 믿는 경향이 있기 때문입니다. 그러나 연구 결과는 AI가 글에 드러나는 미묘한 언어적 단서를 통해 학생의 배경을 추정하고, 그 추정에 따라 점수를 조정한다는 것을 보여줍니다. 따라서 교육 분야에 AI를 적용할 때 이와 같은 편향이 발생할 수 있음을 인지하고 이를 완화할 수 있는 방안을 마련할 필요가 있습니다.

AI 도입이 교육 분야에 제시하는 새로운 가능성에도 불구하고, 이 두 논문들은 높은 성능이 곧 신뢰 혹은 공정성을 의미하지는 않는다는 것을 보여줍니다. AI가 수학 문제의 정답을 잘 맞춰도 그 과정이 정확하지 않을 수 있으며, AI의 에세이 평가는 공정함을 담보하지 않을 수 있습니다. 따라서 "학생 한 명 한 명의 배움"이 중요하게 다뤄져야 하는 영역인 교욱 분야에 AI를 적용할 때, 이로 인해 야기될 수 있는 영향을 더욱 숙고할 필요가 있습니다.

Green Geek을 구독하시면 지금 보시는 것과 같은 ICT 소식과 정보를 받아보실 수 있습니다.

용어 사전

인공지능(AI): 사람의 학습, 판단, 문제 해결 능력을 컴퓨터로 구현한 기술. 예: 챗봇, 음성비서 등.
AI 규제법(AI Act): 유럽연합(EU)이 제정한 법으로, 인공지능의 위험 수준에 따라 사용을 관리하고 규제하는 법안.
고위험 등급(High-risk category): 인공지능이 사람의 생명이나 권리에 중대한 영향을 줄 수 있을 때 적용되는 분류. 예: 교육, 의료, 선거 등.
위험관리 시스템(Risk management system): 인공지능이 잘못된 판단을 하지 않도록 사전에 통제하고 점검하는 절차나 체계.
LLM(대규모 언어모델): 대량의 텍스트 데이터를 학습해 사람처럼 글을 읽고 쓰는 인공지능 모델. 예: ChatGPT, Claude 등.
ChatGPT: 오픈AI(OpenAI)가 개발한 인공지능 대화형 모델로, 질문에 답하거나 글을 작성할 수 있음.
AIED(Artificial Intelligence in Education): 교육 분야에서 인공지능 기술을 활용하고 연구하는 국제 학술대회 또는 연구 영역.
개인화 학습(Personalized Learning): 학생의 수준과 관심사에 따라 맞춤형으로 학습 내용을 제공하는 교육 방식.
학습 분석(Learning Analytics): 학생의 학습 데이터(문제풀이, 참여도 등)를 분석해 학습 효과를 높이는 연구 분야.
지능형 튜터링 시스템(Intelligent Tutoring System): 학생의 이해도에 맞춰 자동으로 설명과 문제를 제공하는 AI 기반 개인 교사 시스템.
학습자 모델링(Learner Modeling): 학생의 지식 수준, 학습 패턴 등을 파악해 맞춤형 학습을 제공하는 기술.
튜터링(Tutoring): 학생에게 개별적으로 학습을 지도하는 방식. AI가 이를 대신하는 형태가 ‘AI 튜터링’.
질적 코딩(Qualitative Coding): 연구자가 텍스트나 대화를 의미 있는 단위로 분류하고 분석하는 방법론.
GPT-3.5 / GPT-4 / GPT-4o: 오픈AI의 대규모 언어모델 시리즈로, 숫자가 높을수록 더 발전된 성능을 의미함. GPT-4o는 텍스트·이미지·음성까지 이해 가능함.
정확도(Accuracy): 인공지능이 정답을 맞힌 비율을 백분율(%)로 표현한 지표.
히든 오류(Implicit Error): 겉보기엔 자연스럽지만 내부적으로 잘못된 정보를 포함하고 있는 오류.
강화 피드백(Reinforcement Feedback): 학생의 행동에 대해 칭찬이나 조언으로 학습을 강화하는 방식의 피드백.
자동 에세이 채점(AES): 인공지능이 학생의 글을 읽고 자동으로 점수를 매기는 평가 시스템.
편향(Bias): 인공지능이 특정 집단이나 성향에 유리하거나 불리하게 작동하는 현상.
비원어민(Non-native speaker): 특정 언어를 모국어로 사용하지 않는 사람. 예: 영어를 배우는 한국인.
언어적 단서(Linguistic cue): 글이나 말 속에서 사람의 배경이나 감정을 추측할 수 있게 하는 표현.
공정성(Fairness): 인공지능이 누구에게나 동등하고 차별 없이 작동하는 성질.
교육기술(EduTech): Education(교육) + Technology(기술)의 합성어로, 기술을 활용해 학습을 혁신하는 분야.
AI 리터러시(AI Literacy): 인공지능의 원리와 한계를 이해하고, 이를 올바르게 활용할 수 있는 능력.

댓글 남기기