기사 메일전송
서울대 공대 윤성로 교수 연구팀, 한글을 더 바르게 구사하는 ‘인공지능 학습용 데이터셋’ 발표
  • 조기환
  • 등록 2021-10-08 11:12:02

기사수정


▲ [사진제공 = 서울대학교 공과대학]

서울대학교 공과대학(학장 이병호)은 윤성로 전기정보공학부 교수팀이 한글날을 맞아 9일(토) 한국어 언어 모델의 사회적 편향(social bias) 진단을 위한 데이터셋 K-StereoSet를 공개한다고 8일 밝혔다.


인공지능의 사회적 편향은 미래 인공지능 연구에서 전 세계적으로 중요한 키워드로 대두되고 있다.


국내의 경우 올 초 인공지능 기반 한국어 챗봇인 ‘이루다’로부터 성소수자, 인종, 장애인 등에 대한 차별 및 혐오성 표현이 발견돼 화제가 된 바 있다(하단 그림 참조). 이런 문맥에서 최근 대통령직속 4차산업혁명위원회와 과학기술정보통신부가 인간성(humanity)을 위한 인공지능(artificial intelligence, AI)의 3대 원칙 중 하나로 ‘인간의 존엄성 원칙’을, 10대 핵심 요건 중 하나로 ‘다양성 존중’을 제시했을 만큼 윤리적인 인공지능에 대한 중요성이 커지고 있다.


그럼에도 최근까지도 자연어 처리(natural language processing) 분야의 근간이 되는 인공지능 기반 한국어 언어 모델에 대한 연구가 활발히 이뤄지고 있으나, 이들의 사회적 편향을 진단할 수 있는 수단은 여전히 부족한 상황이다.


이런 문제의식 하에 윤성로 교수팀이 이번에 공개하는 K-StereoSet는 영어 언어 모델의 사회적 편향을 진단하기 위해 MIT에서 공개한 ‘StereoSet’의 개발셋(development set)을 기반으로 한국적 현실에 맞춰 보완 개발한 것으로, 앞으로 지속적으로 확장될 예정이다. 약 4000개의 샘플로 구성된 원본 데이터셋은 먼저 네이버 파파고 API를 통해 1차적으로 번역한 후 다수 연구원이 독립적으로 번역 내용을 검수했다. 원래의 샘플 양식과 취지를 보존하도록 후처리(post-processing)를 진행해 구축됐다.


데이터 내 사회적 편향의 분야는 성별, 종교, 직업, 인종 총 네 가지 항목으로 구성돼 있으며, 편향성 진단을 위한 샘플 양식은 두 개의 카테고리로 분류돼 있다.


첫 번째는 문장 내 편향 진단 테스트를 위한 ‘intrasentence’ 양식이다. 빈칸 처리된 문장이 주어졌을 때 빈칸에 채워질 내용으로서 세 개의 보기 중 어느 것에 높은 점수를 부여하는지를 이용해 진단한다. 예를 들어, 위의 왼쪽 예시처럼 한 문장 안에서 ‘심리학자’라는 직업의 사람이 ‘독선적’이라는 편향을 가졌는지를 확인할 수 있다.


두 번째는 문장 간 편향 진단 테스트를 위한 ‘intersentence’ 양식이다. 앞 문장(context)이 주어졌을 때 다음 문장으로서 세 개의 선택지가 주어지며 이들 중 어떤 문장에 높은 점수를 부여하는지를 이용해 진단한다. 예를 들어, 위의 오른쪽 예시처럼 사람이 ‘히스패닉’이라는 문맥이 주어졌을 때, 다음 문장에서 그 사람이 ‘불법적인 시민’이라는 편향을 가졌는지 확인할 수 있다.


연구를 주도한 송종윤 연구원은 “문장 내 편향 진단 샘플 중 unrelated 라벨에 해당하는 문장은 문맥과 전혀 관계없는 단어가 빈칸에 들어가기 때문에 자동 번역 시 원문 의미를 벗어나기 쉽다. 또한 문장 간 편향 진단 샘플의 보기 문장들은 context 문장을 고려하지 않는 경우가 발생하는 등의 특수한 상황들에 유의하며 변환을 진행했다”고 말했다.


연구 책임자인 윤성로 교수는 “인공지능 기반의 한국어 언어 모델이 고도화되고 사업화될수록 윤리성 확보 및 편향성 제거를 위한 노력이 핵심적이며, 한글날을 맞아 보다 바른 한글을 구사하는 인공지능 기술 개발을 위해 K-StereoSet가 작지만 의미 있는 첫걸음이 되기를 기대한다”고 밝혔다.

0
  • 목록 바로가기
  • 인쇄


이전 기사 보기 다음 기사 보기
많이 본 뉴스더보기
  1. 울산 S-OIL 샤힌 프로젝트 현장, 비계 발판 붕괴… 근로자 다수 부상 [뉴스21일간=김태인 ]2025년 11월 19일 오후 5시경, 울산 울주군에 위치한 에쓰오일의 '샤힌 프로젝트 패키지1' 공사 현장에서 안타까운 사고가 발생했습니다. 근로자들의 휴게를 위한 컨테이너 사이에 설치된 2m 높이의 비계 다리가 갑작스럽게 무너지면서, 이 사고로 총 7명의 근로자가 부상을 입었습니다.사고가 발생한 샤힌 프로젝트...
  2. 제1회 태욱가요제 11월 23일 개최 [뉴스21일간=임정훈]태욱엔터테인먼트는 오는 2025년 11월23일(일)오후3시30분, 부산 남구 용소로 78에 위치한 부산예술회관 대공연장에서 제1회 태욱가요제를 개최한다고 밝혔다. 이번 행사에는 장락, 정유나, 유명민, 홍다영 등 다수의 초대 가수가 무대에 오르며, 진성경아, 안진용, 김미경, 박윤창, 아랑고고장구 부산진구팀 등 다양한 장르...
  3. 통일 미래세대의 비전을 키우다: 우정초등학교, '평화통일 퀴즈대회' 성황리 개최 (뉴스21일간/노유림기자)=민족통일 울산시협의회(회장 이정민)는 2025년 11월 14일(금) 오전 10시, 울산 우정초등학교 승죽관에서 5·6학년 학생들을 대상으로 '평화통일 퀴즈대회'를 성공적으로 개최했다.미래 통일 주역인 학생들에게 올바른 통일관과 역사 인식을 심어주기 위해 마련된 이번 대회에는 이정민 회장과 이학박사 박성배...
  4. 제63주년 소방의 날 기념, 일산새마을금고 박학천이사장 소방청장상 수상 일산새마을금고[뉴스21일간=임정훈]2025년 11월 14일 (금) 울산동부소방서에서 제63주년 소방의 날을 기념하여 일산새마을금고 박학천이사장님이 소방 발전에 기여한 공로를 인정받아 [ 소방청장상 ]을 수상하였습니다.이날 표창 전달은 울산동부소방서 우충길서장님이 대리 집행하였습니다.일산새마을금고는 지난 2008년부터 현재까지 매년 ..
  5. 동구, 아동권리 증진을 위한 아동학대 예방 캠페인 동구청[뉴스21일간=임정훈]울산 동구는 아동학대 예방 주간(11.19~11.23)을 기념해, 11월 14일 오후 2시 30분부터 방어동 화암초등학교 인근에서 아동 권리 증진을 위한 아동학대 예방 홍보 캠페인을 했다.    이날 캠페인은 동구아동위원협의회, 울산동부경찰서, 아동보호전문기관, 동구 아동보호팀이 함께하는 민관 합동 캠페인으로, 20여...
  6. 일산동 아동‧여성지킴이회, 번덕경로당 어르신 식사 대접 일산동 아동,여성지킴이회[뉴스21일간=임정훈]울산 동구 일산동 아동‧여성지킴이회(회장 김행자) 회원들은 11월 14일 오전 12시, 번덕경로당을 방문하여 관내 독거 어르신 40여 명을 대상으로 따뜻한 점심 식사와 간식을 대접하며 훈훈한 시간을 보냈다.    일산동 아동‧여성지킴이회는 매년 어르신들을 위한 식사 나눔 봉사뿐 아니...
  7. 남목 도시재생 축제 ‘미포1길 골목형상점가에서 놀장’성료 동구청[뉴스21일간=임정훈]울산 동구는 11월 14일 오후 5시부터 9시까지 미포1길 일원에서 ‘미포1길 골목형상점가에서 놀장’를 성황리에 마쳤다.    이번 행사는 올해 골목형상점가로 지정된 미포1길의 활성화를 촉진하고 지역 상인과 주민이 함께 어울리는 자리로 마련됐다. 약 250m 구간의 미포1길 일대를 차량 통제해 주민들이 자유...
사랑더하기
sunjin
대우조선해양건설
행복이 있는
오션벨리리조트
창해에탄올
더낙원
모바일 버전 바로가기