기사 메일전송
서울대 공대 윤성로 교수 연구팀, 한글을 더 바르게 구사하는 ‘인공지능 학습용 데이터셋’ 발표
  • 조기환
  • 등록 2021-10-08 11:12:02

기사수정


▲ [사진제공 = 서울대학교 공과대학]

서울대학교 공과대학(학장 이병호)은 윤성로 전기정보공학부 교수팀이 한글날을 맞아 9일(토) 한국어 언어 모델의 사회적 편향(social bias) 진단을 위한 데이터셋 K-StereoSet를 공개한다고 8일 밝혔다.


인공지능의 사회적 편향은 미래 인공지능 연구에서 전 세계적으로 중요한 키워드로 대두되고 있다.


국내의 경우 올 초 인공지능 기반 한국어 챗봇인 ‘이루다’로부터 성소수자, 인종, 장애인 등에 대한 차별 및 혐오성 표현이 발견돼 화제가 된 바 있다(하단 그림 참조). 이런 문맥에서 최근 대통령직속 4차산업혁명위원회와 과학기술정보통신부가 인간성(humanity)을 위한 인공지능(artificial intelligence, AI)의 3대 원칙 중 하나로 ‘인간의 존엄성 원칙’을, 10대 핵심 요건 중 하나로 ‘다양성 존중’을 제시했을 만큼 윤리적인 인공지능에 대한 중요성이 커지고 있다.


그럼에도 최근까지도 자연어 처리(natural language processing) 분야의 근간이 되는 인공지능 기반 한국어 언어 모델에 대한 연구가 활발히 이뤄지고 있으나, 이들의 사회적 편향을 진단할 수 있는 수단은 여전히 부족한 상황이다.


이런 문제의식 하에 윤성로 교수팀이 이번에 공개하는 K-StereoSet는 영어 언어 모델의 사회적 편향을 진단하기 위해 MIT에서 공개한 ‘StereoSet’의 개발셋(development set)을 기반으로 한국적 현실에 맞춰 보완 개발한 것으로, 앞으로 지속적으로 확장될 예정이다. 약 4000개의 샘플로 구성된 원본 데이터셋은 먼저 네이버 파파고 API를 통해 1차적으로 번역한 후 다수 연구원이 독립적으로 번역 내용을 검수했다. 원래의 샘플 양식과 취지를 보존하도록 후처리(post-processing)를 진행해 구축됐다.


데이터 내 사회적 편향의 분야는 성별, 종교, 직업, 인종 총 네 가지 항목으로 구성돼 있으며, 편향성 진단을 위한 샘플 양식은 두 개의 카테고리로 분류돼 있다.


첫 번째는 문장 내 편향 진단 테스트를 위한 ‘intrasentence’ 양식이다. 빈칸 처리된 문장이 주어졌을 때 빈칸에 채워질 내용으로서 세 개의 보기 중 어느 것에 높은 점수를 부여하는지를 이용해 진단한다. 예를 들어, 위의 왼쪽 예시처럼 한 문장 안에서 ‘심리학자’라는 직업의 사람이 ‘독선적’이라는 편향을 가졌는지를 확인할 수 있다.


두 번째는 문장 간 편향 진단 테스트를 위한 ‘intersentence’ 양식이다. 앞 문장(context)이 주어졌을 때 다음 문장으로서 세 개의 선택지가 주어지며 이들 중 어떤 문장에 높은 점수를 부여하는지를 이용해 진단한다. 예를 들어, 위의 오른쪽 예시처럼 사람이 ‘히스패닉’이라는 문맥이 주어졌을 때, 다음 문장에서 그 사람이 ‘불법적인 시민’이라는 편향을 가졌는지 확인할 수 있다.


연구를 주도한 송종윤 연구원은 “문장 내 편향 진단 샘플 중 unrelated 라벨에 해당하는 문장은 문맥과 전혀 관계없는 단어가 빈칸에 들어가기 때문에 자동 번역 시 원문 의미를 벗어나기 쉽다. 또한 문장 간 편향 진단 샘플의 보기 문장들은 context 문장을 고려하지 않는 경우가 발생하는 등의 특수한 상황들에 유의하며 변환을 진행했다”고 말했다.


연구 책임자인 윤성로 교수는 “인공지능 기반의 한국어 언어 모델이 고도화되고 사업화될수록 윤리성 확보 및 편향성 제거를 위한 노력이 핵심적이며, 한글날을 맞아 보다 바른 한글을 구사하는 인공지능 기술 개발을 위해 K-StereoSet가 작지만 의미 있는 첫걸음이 되기를 기대한다”고 밝혔다.

0
  • 목록 바로가기
  • 인쇄


이전 기사 보기 다음 기사 보기
많이 본 뉴스더보기
  1. STARLINK ENM KOREA, 중국 상하이 '성수 어트랙션' 팝업스토어 통합 마케팅 프로젝트 추진 울산영화인협회제공[뉴스21일간=임정훈]글로벌 마케팅유통 전문 기업 STARLINK ENM KOREA(스타링크 이엠앤 코리아, 대표 배기준)가 중국 상하이 시장을 겨냥한 메가 규모 통합 팝업스토어 마케팅 프로젝트 '성수 어트랙션'을 본격 추진한다고 28일 밝혔다.    이번 프로젝트는 중국 시장 진출을 희망하는 한류 브랜드를 대상으로 방...
  2. 2025 대왕암힙합페스티벌 11월 1일 개최 [뉴스21일간=임정훈]울산 동구는 11월 1일 오후 1시 30분부터 오후 9시 30분까지 일산해수욕장 일대에서 ‘모두를 춤추게 하라’는 슬로건으로 ‘대왕암 힙합페스티벌’을 개최한다.    이번 ‘대왕암 힙합페스티벌’은 청년이 주도하고 주민이 참여하며 지역 대학과 상가가 협업해 올해 처음으로 개최되는 축제이다. 스트리트 댄스 배...
  3. '우리 동네 특공대' 도용 의혹 드라마 티저 영상에 '침묵' 강요? 논란 가열 [뉴스21일간=김태인 ]최근 백동철 감독의 시나리오 '우리 동네 특공대' 도용 의혹이 불거진 하이지음스튜디오의 동명 드라마가 결국 제작되어 유튜브 등 온라인 플랫폼에 예고 티저 영상을 공개했습니다. 그러나 이 티저 영상에 대한 시청자들의 반응 중에는 도용 의혹을 제기하는 댓글들이 차단되거나 보이지 않는다는 주장이 제기...
  4. 하나님의 교회, ‘사랑의 헌혈’로 이웃에 소중한 생명나눔 실천 △ 헌혈릴레이 여수하나님의교회이웃의 소중한 생명을 살리기 위해 20년 넘게 헌혈에 솔선해온 하나님의교회 세계복음선교협회(총회장 김주철 목사, 이하 하나님의 교회)가 6일 전남 여수에서 ‘전 세계 유월절사랑 생명사랑 제1737차 헌혈릴레이’를 개최해 혈액 수급난 해소를 도왔다. 하나님의 교회는 올해만도 전 ...
  5. 울산 학교운영위원장, 건강한 교육공동체 조성에 힘 모은다 [뉴스21일간=이준수 기자]  울산광역시교육청(교육감 천창수)은 31일 외솔회의실에서 울산지역 학교운영위원장을 대상으로 ‘모두의 성장을 위한 바람직한 학교운영위원회의 역할’을 주제로 원탁토론회를 열었다.        이번 토론회는 학교공동체의 건강한 소통과 협력으로 더 나은 민주적 학교 문화를 조성하고자 마련...
  6. 동구 도서관 자원활동가 양성과정 성황리 종료 동구청제공[뉴스21일간=임정훈]울산 동구 통합도서관은 도서관 운영 활성화를 위해 도서관에 관심 있는 지역 주민을 대상으로 10월 14일부터 31일까지 총 9회차에 걸쳐 남목도서관에서 ‘2025 동구 도서관 자원활동가 양성 과정’을 운영하였다.    동구 통합도서관은 신청자 30여 명을 대상으로 ▲ 훼손 도서 보수법 ▲ 연령별 독서지도...
  7. ‘번영로센트리지 1단지’ 제18호 금연아파트 지정 (뉴스21일간/노유림기자)=울산 중구보건소(소장 이현주)가 10월 31일 ‘번영로센트리지 1단지’ 아파트를 제18호 금연아파트로 지정했다.    이날 중구보건소는 번영로센트리지 1단지 아파트 주출입구에 금연아파트 현판을 부착하고, 각 동 입구에 금연구역 안내표지판을 설치했다.    이와 함께 오후 2시부터 단지 내에서 입주...
사랑더하기
sunjin
대우조선해양건설
행복이 있는
오션벨리리조트
창해에탄올
더낙원
모바일 버전 바로가기