기사 메일전송
서울대 공대 윤성로 교수 연구팀, 한글을 더 바르게 구사하는 ‘인공지능 학습용 데이터셋’ 발표
  • 조기환
  • 등록 2021-10-08 11:12:02

기사수정


▲ [사진제공 = 서울대학교 공과대학]

서울대학교 공과대학(학장 이병호)은 윤성로 전기정보공학부 교수팀이 한글날을 맞아 9일(토) 한국어 언어 모델의 사회적 편향(social bias) 진단을 위한 데이터셋 K-StereoSet를 공개한다고 8일 밝혔다.


인공지능의 사회적 편향은 미래 인공지능 연구에서 전 세계적으로 중요한 키워드로 대두되고 있다.


국내의 경우 올 초 인공지능 기반 한국어 챗봇인 ‘이루다’로부터 성소수자, 인종, 장애인 등에 대한 차별 및 혐오성 표현이 발견돼 화제가 된 바 있다(하단 그림 참조). 이런 문맥에서 최근 대통령직속 4차산업혁명위원회와 과학기술정보통신부가 인간성(humanity)을 위한 인공지능(artificial intelligence, AI)의 3대 원칙 중 하나로 ‘인간의 존엄성 원칙’을, 10대 핵심 요건 중 하나로 ‘다양성 존중’을 제시했을 만큼 윤리적인 인공지능에 대한 중요성이 커지고 있다.


그럼에도 최근까지도 자연어 처리(natural language processing) 분야의 근간이 되는 인공지능 기반 한국어 언어 모델에 대한 연구가 활발히 이뤄지고 있으나, 이들의 사회적 편향을 진단할 수 있는 수단은 여전히 부족한 상황이다.


이런 문제의식 하에 윤성로 교수팀이 이번에 공개하는 K-StereoSet는 영어 언어 모델의 사회적 편향을 진단하기 위해 MIT에서 공개한 ‘StereoSet’의 개발셋(development set)을 기반으로 한국적 현실에 맞춰 보완 개발한 것으로, 앞으로 지속적으로 확장될 예정이다. 약 4000개의 샘플로 구성된 원본 데이터셋은 먼저 네이버 파파고 API를 통해 1차적으로 번역한 후 다수 연구원이 독립적으로 번역 내용을 검수했다. 원래의 샘플 양식과 취지를 보존하도록 후처리(post-processing)를 진행해 구축됐다.


데이터 내 사회적 편향의 분야는 성별, 종교, 직업, 인종 총 네 가지 항목으로 구성돼 있으며, 편향성 진단을 위한 샘플 양식은 두 개의 카테고리로 분류돼 있다.


첫 번째는 문장 내 편향 진단 테스트를 위한 ‘intrasentence’ 양식이다. 빈칸 처리된 문장이 주어졌을 때 빈칸에 채워질 내용으로서 세 개의 보기 중 어느 것에 높은 점수를 부여하는지를 이용해 진단한다. 예를 들어, 위의 왼쪽 예시처럼 한 문장 안에서 ‘심리학자’라는 직업의 사람이 ‘독선적’이라는 편향을 가졌는지를 확인할 수 있다.


두 번째는 문장 간 편향 진단 테스트를 위한 ‘intersentence’ 양식이다. 앞 문장(context)이 주어졌을 때 다음 문장으로서 세 개의 선택지가 주어지며 이들 중 어떤 문장에 높은 점수를 부여하는지를 이용해 진단한다. 예를 들어, 위의 오른쪽 예시처럼 사람이 ‘히스패닉’이라는 문맥이 주어졌을 때, 다음 문장에서 그 사람이 ‘불법적인 시민’이라는 편향을 가졌는지 확인할 수 있다.


연구를 주도한 송종윤 연구원은 “문장 내 편향 진단 샘플 중 unrelated 라벨에 해당하는 문장은 문맥과 전혀 관계없는 단어가 빈칸에 들어가기 때문에 자동 번역 시 원문 의미를 벗어나기 쉽다. 또한 문장 간 편향 진단 샘플의 보기 문장들은 context 문장을 고려하지 않는 경우가 발생하는 등의 특수한 상황들에 유의하며 변환을 진행했다”고 말했다.


연구 책임자인 윤성로 교수는 “인공지능 기반의 한국어 언어 모델이 고도화되고 사업화될수록 윤리성 확보 및 편향성 제거를 위한 노력이 핵심적이며, 한글날을 맞아 보다 바른 한글을 구사하는 인공지능 기술 개발을 위해 K-StereoSet가 작지만 의미 있는 첫걸음이 되기를 기대한다”고 밝혔다.

0
  • 목록 바로가기
  • 인쇄


이전 기사 보기 다음 기사 보기
많이 본 뉴스더보기
  1. 민주콩고 동부 무력충돌 격화… 민간인 400명 이상 사망 콩고민주공화국(민주콩고)에서 정부군과 투치족 반군 M23 간의 충돌이 심화하면서 민간인 피해가 급증하고 있다. 현지시간 11일 AP통신 등에 따르면, 남키부주 정부 대변인은 전날 발표한 성명에서 “주도 부카부와 우비라 인근 지역에서 413명 이상의 민간인이 숨졌다”고 밝혔다. 그는 사망자 가운데 여성과 어린이, 청년층이 다수 포함돼 ...
  2. 이스라엘, 가자지구 재건 비용 부담 검토… 미국 요구에 원칙적 동의 이스라엘 정부가 미국의 지속적인 압박에 따라 가자지구 재건 비용을 부담하기로 가닥을 잡았다고 현지 시각 12일 이스라엘 매체 와이넷이 보도했다. 보도에 따르면 미국은 2년 가까이 이어진 군사작전으로 가자지구 전역에서 발생한 광범위한 파괴에 대해 이스라엘이 책임을 져야 한다고 요구해 왔다. 특히 공습과 지상 장비로 인한 건물 ..
  3. 지역아동센터연합회 울산 동구지회 2025년 후원감사의 날 개최 동구청[뉴스21일간=임정훈]지역아동센터 연합회 울산 동구지회(회장 신정화)는 12월 12일 오후 7시, 동구청 5층 중강당에서 2025년 후원감사의 날 음악발표회를 개최했다.    이날 동구 소재 9개 지역아동센터는 오카리나, 우쿨렐레 등 악기 연주와 합창 등 아이들이 성장한 모습과 재능을 음악 발표를 통해 선보이며 더욱 뜻깊은 시간이 ...
  4. 동구 국공립 어린이집 연합회 보육 교직원 문화의 밤 행사 동구청[뉴스21일간=임정훈]울산 동구 국공립어린이집연합회(회장 이남숙)는 12월 12일 오후 6시 HD아트센터에서 ‘국공립어린이집연합회 문화의 밤’ 행사를 개최했다.    이날 행사는 울산 동구 국공립어린이집 14개소에 근무하는 보육 교직원들의 사기진작과 노고를 격려하기 위해 마련된 자리로, 보육 교직원 등 150여 명이 참석해 ...
  5. 울산시자원봉사센터 ‘베스트 자원봉사단체’ 역량강화 워크숍… 온기나눔 우수기관 한자리에 (뉴스21일간/노유림기자)=지난 18일 오후, 울산시자원봉사센터에서 실시하는 ‘베스트 자원봉사단체 선정 및 역량강화 워크숍’이 열려 지역 온기나눔 활동을 이끄는 우수 자원봉사단체들이 한자리에 모였다. 이번 워크숍은 우수기관·단체의 현장 경험을 공유하고, 사업 기획과 운영 역량을 높여 자원봉사의 지속가능성을 강화하...
  6. 울산 동구 지역자활센터 자활근로 참여자 문화 행사 개최 동구지역자활센터[뉴스21일간=임정훈]울산동구지역자활센터(센터장 김용식)는 12월 12일 오후 3시 HD아트센터에서 자활근로사업 참여자 100여 명과 함께 ‘2025년 자활근로 참여자 문화의 날’ 행사를 개최했다. 이번 문화 행사는 자활근로 사업 참여자들이 일상에서 벗어나 문화생활을 즐기고 재충전하고, 유대감 형성과 자활 의지를 더욱 강..
  7. 만인의 연인 김서진, 울산서 성황리 콘서트 개최 가수 김서진[뉴스21일간=임정훈] ‘만인의 연인’ 가수 김서진이  12월 13일(토) 오후 6시, 울산 동구 전하체육관(대왕암홀)에서 열린 단독 콘서트를 성황리에 마무리했다.이번 콘서트는 김서진의 깊이 있는 감성과 진정성 있는 무대를 중심으로 다양한 출연진이 함께하며 풍성한 공연으로 꾸며졌다. 1부에서는 장구팀 공연을 시작으로 박...
사랑더하기
sunjin
대우조선해양건설
행복이 있는
오션벨리리조트
창해에탄올
더낙원
모바일 버전 바로가기