기사 메일전송
서울대 공대 윤성로 교수 연구팀, 한글을 더 바르게 구사하는 ‘인공지능 학습용 데이터셋’ 발표
  • 조기환
  • 등록 2021-10-08 11:12:02

기사수정


▲ [사진제공 = 서울대학교 공과대학]

서울대학교 공과대학(학장 이병호)은 윤성로 전기정보공학부 교수팀이 한글날을 맞아 9일(토) 한국어 언어 모델의 사회적 편향(social bias) 진단을 위한 데이터셋 K-StereoSet를 공개한다고 8일 밝혔다.


인공지능의 사회적 편향은 미래 인공지능 연구에서 전 세계적으로 중요한 키워드로 대두되고 있다.


국내의 경우 올 초 인공지능 기반 한국어 챗봇인 ‘이루다’로부터 성소수자, 인종, 장애인 등에 대한 차별 및 혐오성 표현이 발견돼 화제가 된 바 있다(하단 그림 참조). 이런 문맥에서 최근 대통령직속 4차산업혁명위원회와 과학기술정보통신부가 인간성(humanity)을 위한 인공지능(artificial intelligence, AI)의 3대 원칙 중 하나로 ‘인간의 존엄성 원칙’을, 10대 핵심 요건 중 하나로 ‘다양성 존중’을 제시했을 만큼 윤리적인 인공지능에 대한 중요성이 커지고 있다.


그럼에도 최근까지도 자연어 처리(natural language processing) 분야의 근간이 되는 인공지능 기반 한국어 언어 모델에 대한 연구가 활발히 이뤄지고 있으나, 이들의 사회적 편향을 진단할 수 있는 수단은 여전히 부족한 상황이다.


이런 문제의식 하에 윤성로 교수팀이 이번에 공개하는 K-StereoSet는 영어 언어 모델의 사회적 편향을 진단하기 위해 MIT에서 공개한 ‘StereoSet’의 개발셋(development set)을 기반으로 한국적 현실에 맞춰 보완 개발한 것으로, 앞으로 지속적으로 확장될 예정이다. 약 4000개의 샘플로 구성된 원본 데이터셋은 먼저 네이버 파파고 API를 통해 1차적으로 번역한 후 다수 연구원이 독립적으로 번역 내용을 검수했다. 원래의 샘플 양식과 취지를 보존하도록 후처리(post-processing)를 진행해 구축됐다.


데이터 내 사회적 편향의 분야는 성별, 종교, 직업, 인종 총 네 가지 항목으로 구성돼 있으며, 편향성 진단을 위한 샘플 양식은 두 개의 카테고리로 분류돼 있다.


첫 번째는 문장 내 편향 진단 테스트를 위한 ‘intrasentence’ 양식이다. 빈칸 처리된 문장이 주어졌을 때 빈칸에 채워질 내용으로서 세 개의 보기 중 어느 것에 높은 점수를 부여하는지를 이용해 진단한다. 예를 들어, 위의 왼쪽 예시처럼 한 문장 안에서 ‘심리학자’라는 직업의 사람이 ‘독선적’이라는 편향을 가졌는지를 확인할 수 있다.


두 번째는 문장 간 편향 진단 테스트를 위한 ‘intersentence’ 양식이다. 앞 문장(context)이 주어졌을 때 다음 문장으로서 세 개의 선택지가 주어지며 이들 중 어떤 문장에 높은 점수를 부여하는지를 이용해 진단한다. 예를 들어, 위의 오른쪽 예시처럼 사람이 ‘히스패닉’이라는 문맥이 주어졌을 때, 다음 문장에서 그 사람이 ‘불법적인 시민’이라는 편향을 가졌는지 확인할 수 있다.


연구를 주도한 송종윤 연구원은 “문장 내 편향 진단 샘플 중 unrelated 라벨에 해당하는 문장은 문맥과 전혀 관계없는 단어가 빈칸에 들어가기 때문에 자동 번역 시 원문 의미를 벗어나기 쉽다. 또한 문장 간 편향 진단 샘플의 보기 문장들은 context 문장을 고려하지 않는 경우가 발생하는 등의 특수한 상황들에 유의하며 변환을 진행했다”고 말했다.


연구 책임자인 윤성로 교수는 “인공지능 기반의 한국어 언어 모델이 고도화되고 사업화될수록 윤리성 확보 및 편향성 제거를 위한 노력이 핵심적이며, 한글날을 맞아 보다 바른 한글을 구사하는 인공지능 기술 개발을 위해 K-StereoSet가 작지만 의미 있는 첫걸음이 되기를 기대한다”고 밝혔다.

0
  • 목록 바로가기
  • 인쇄


이전 기사 보기 다음 기사 보기
많이 본 뉴스더보기
  1. 국공립아라한신어반파크어린이집, 아라1동에 사랑의 모금함 전달 국공립아라한신어반파크어린이집(원장 김은정)은 지난 2025년 12월 30일 인천 서구 아라1동지역사회보장협의체(공동위원장 이지영,장혁중)에 사랑의 모금함(모금액 1,348,000원)을 기부하였다. 이번 전달식은 지역 내 어려운 이웃을 생각하며 모은 성금을 어린이집 원아들과 교직원이 모두 참여하여 전달함으로서 더욱 뜻깊었다. 국공립아라한..
  2. 국가대표 NO.1 태권도, 당하동 취약계층을 위한 인천 서구 백석동 소재 국가대표 NO1.태권도(관장 박찬성)는 지난 2025년 12월 31일 관내 소외계층에 전달해 달라며 이웃돕기 사랑의 라면 꾸러미(800개)를 당하동 지역사회보장협의체(동장 이미숙, 공동위원장 이미숙)에 전달하였다.  국가대표 NO1.태권도는 새해를 앞두고 어려운 이웃에게 따뜻한 나눔의 사랑을 전달하고자 라면 기부 행사...
  3. 새해 첫날에도 멈추지 않은 전쟁…우크라이나·러시아, 드론 공습 맞불 유리창과 지붕은 날아갔고 건물 곳곳은 검게 그을렸다. 새해를 맞아 나누던 음식은 잿더미에 뒤덮였다. 새해 첫날, 우크라이나 드론이 러시아 점령지인 헤르손 지역의 호텔 등을 타격했다. 러시아 측은 최소 24명이 숨지고 수십 명이 다쳤다며, 평화를 말하면서 민간인을 공격했다는 비난을 제기했다. 이에 앞서 새해 첫 해가 밝기 전 러시...
  4. 13년째 이어진 ‘새해 인사 한 그릇’…배봉산 떡국나눔, 동대문의 겨울 문화가 됐다 배봉산의 새해는 해가 아니라 냄비에서 먼저 시작됐다. 아직 어둠이 남은 새벽, 열린광장 한켠에서 피어오른 하얀 김은 ‘올해도 왔구나’라는 신호처럼 퍼졌다. 누군가에게는 해맞이보다 더 익숙한 풍경, 동대문구 배봉산 ‘복떡국’이다.서울 동대문구가 신정(1월 1일)마다 이어가는 떡국 나눔은 이제 ‘행사’라기보다 지역의 아름다운 .
  5. 서천군 한산면, 건지산성 해돋이 행사로 새해 시작 서천군 한산면은 1일 건지산성 정상에서 ‘2026년 한산 건지산성 해돋이 행사’를 개최하며 새해의 시작을 알렸다.이번 행사는 새해 첫 해를 맞아 지역의 안녕과 발전을 기원하고 주민 간 화합을 도모하기 위해 마련됐으며, 이른 아침 추운 날씨에도 불구하고 많은 주민들이 건지산 정상에 모여 뜻깊은 시간을 함께했다.행사는 개회식과 신년...
  6. 서천군, 2026년 시무식 개최 서천군은 지난 2일 군청 대회의실에서 2026년 시무식을 개최하여 병오년(丙午年) 새해 군정 운영의 시작을 알렸다.이날 시무식에는 본청 전 직원 및 읍·면장 등이 참석한 가운데 진행됐으며, 새해를 맞아 서천의 군정의 운영 방향을 공유하는 자리로 마련됐다.김기웅 군수는 신년사를 통해 “2026년은 그동안 추진 중인 정책과 사업들이 안정..
  7. 울산암각화박물관 ‘반구천의 암각화’세계유산 등재 효과‘톡톡’ [뉴스21일간=김태인 ]  울산암각화박물관이 지난해 7월 ‘반구천의 암각화’가 유네스코 세계유산에 등재된 이후 관람객이 크게 늘며 지역 문화관광의 새로운 거점으로 떠오르고 있다.  ‘반구천의 암각화’는 국보인 ‘울주 천전리 명문과 암각화’와 ‘울주 대곡리 반구대 암각화’ 등 2기를 포함한 유적으로, 지난해 우리나라의 17...
사랑더하기
sunjin
대우조선해양건설
행복이 있는
오션벨리리조트
창해에탄올
더낙원
모바일 버전 바로가기