빅데이터 공유 플랫폼 '모두의 말뭉치' 내려받기 서비스 중지
빅데이터 공유 플랫폼 '모두의 말뭉치' 내려받기 서비스 중지
  • 송진아 기자
  • 승인 2021.01.21 14:06
  • 댓글 0
  • 조회수 447
이 기사를 공유합니다

사진= 홈페이지 공지
사진= 홈페이지 공지

 

국립국어원이 지난 18일 빅데이터 공유 플랫폼 '모두의 말뭉치'의 메신저 자료 다운로드 서비스를 중단했다.  인공지능 한국어 처리 능력 향상에 필요한 13종 18억 어절 분량을 지난해 8월 25일 공개한 지 약 2달여 만의 일이다.

자료 속에 성 소수자 혐오와 사회적 혐오 발언이 있었기 때문이다.

국립국어원은 과거 ’18년부터 인공지능 산업계와 관련 연구 기관 등에서 공공재로 활용할 수 있는 대규모 한국어 학습 자료 구축 사업을 시작했으며 이번에 공개하는 자료는 작년까지 구축한 18억 어절 규모의 말뭉치이다. 공개 자료는 국립국어원에서 저작권 문제를 해결하여 구축한 것이며 ‘모두의 말뭉치’ 사이트에서 온라인 약정서를 작성, 승인을 받으면 누구나 파일을 내려받아 이용할 수 있다. 고 밝혔다.

이 과정에서 메신저 말뭉치에 부적절한 내용이 포함된 것이다. 국립국어원 측은 메신저 말뭉치 구어 말뭉치 웹 말뭉치를 전수 검토할 것이라고 밝혔다.

AI는 결국 학습할 데이터에 영향을 받기 때문에 이러한 혐오성 발언들을 학습할시 ai 역시 인간과 같은 혐오를 할 수밖에 없다. 이런 AI 윤리성은 이루다 사태와 같이 잘못된 학습으로 사회적 문제를 만들곤 한다.

"AI의 윤리성"이 사회적으로 주목받고 있는 가운데 정부가 제공한 데이터에 최소한의 윤리적 고민이 없었다는 점이 지적받고 있다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.