본문 바로가기
IT

AI의 편향성(AI의 편견/차별), 왜 발생하는가?

by 황금반달곰 2024. 10. 23.

AI가 급발전하면서 특히 편견/차별에 대한 사회적 문제가 최근 여러 차례 사회/기술적 논란의 주제가 됨.
데이터를 기반으로 학습하는 과정에서 편향된(객관적이지 않고 근본적으로 어딘가 오염된) 데이터를 학습할 경우, 그 결과로 틀린/차별적 결정을 내리게 됨. 이는 AI가 주는 답에 대해 본질적인 신뢰도에 큰 영향을 주기에 내로라하는 석학들이 해결법을 고민하고 있음.
이슈가 된 몇 가지 사례와 그 원인, 그리고 전문가들이 말하는 해결 방안을 정리해봄.

DALL-E 생성 : AI 데이터 편향성에 항의하는 시위자들

인간에 오염된 데이터로 학습… "편향 없는 AI는 불가능(조선일보)"

I. 데이터 편향으로 인한 이슈/논란 사례

  1. 구글 포토의 인종 차별 사건 ('15)
    • 사건 내용: 구글 포토 서비스에서 AI가 흑인 여성을 ‘고릴라’로 잘못 분류하는 이슈가 발생. AI가 학습한 데이터에서 흑인과 관련된 이미지를 제대로 인식하지 못한 결과로 나타난 차별로 논란이 됨.
    • 원인: AI 학습 시 사용된 이미지 데이터셋에 인종의 다양성을 충분하게 반영하지 못한 탓에 발생한 문제였음. 특히 백인 중심의 이미지로만 학습되어, 흑인 및 아시안/소수 인종을 정확히 인식하지 못함.
  2. 아마존의 AI 채용 시스템 문제 ('18)
    • 사건 내용: 아마존에서 AI 기반의 자동화된 채용 시스템을 구축했는데, 이 시스템이 여성 지원자를 차별한다는 사실이 드러나 논란이 됨. 특히 기술 관련 직무에서 남성 지원자에게 더 유리한 평가를 내림.
    • 원인: 과거 아마존의 채용 데이터를 학습했는데, 과거 데이터가 남성 지원자 중심으로 형성되어 있었음. 그 데이터의 패턴을 그대로 학습하면서 여성 지원자에 대한 불리한 평가가 발생.
  3. 제미나이(Gemini)의 나치 이미지 생성 ('23)
    • 사건 내용: 구글의 생성형 AI인 제미나이가 ‘독일군’을 그려달라는 요청에 나치 군인의 이미지를 생성함. 이로 인해 한동안 제미나이 서비스가 중단되기도 함.
    • 원인: 독일군과 관련된 역사적 데이터를 학습하는 과정에서, 나치 관련 이미지/데이터에 대해서 균형 잡힌 학습이 미진.

II. 편향성 문제의 원인

  1. 편향된 데이터

  • 불균형한 데이터 분포: AI는 주어진 데이터를 기반으로 학습하기 때문에, 원천 데이터 자체가 특정 사상/정책에 편향돼 치우쳐 있으면 이를 학습한 AI 역시 이를 따르게 됨. 이는 AI가 과거 데이터의 패턴을 그대로 반영하면서 기존의 선입견/편견을 더욱 확산하게 되는 문제를 야기함.
  • 데이터의 불충분성: 단순히 특정 데이터가 과하게 반영된 경우뿐만 아니라, 중요한 데이터가 충분히 포함되지 않은 경우에도 발생함. 다양한 인종/성별/사회적 배경과 역사를 충분히 반영하지 못한 데이터셋을 학습한 AI는, 소수 집단/정보에 대해 잘못된 판단을 내릴 수 있음. 방치 시 특정 사회적 약자/집단을 배제하고 역사까지 왜곡하는 답변을 낼 가능성 존재.
  • 오래된 편견의 반영: 데이터는 대부분 과거의 패턴을 반영하고 있기에 사회/문화적으로 기존에 존재했던 차별이나 편견이 그대로 데이터에 포함될 수 있음. 가령 과거의 채용 기록/범죄 데이터를 AI가 학습하면, 그에 내재된 인종/성별/경제적 배경에 따른 차별이 그대로 반영될 수 있음.

  2. AI의 블랙박스(Blackbox) 문제

  • 복잡한 모델 구조과 투명성 부족: AI는 수많은 데이터 포인트와 변수 관계를 학습하면서 결정을 내리게 되는데, 그 관계가 매우 복잡한 알고리즘으로 이루어져 있음. 이런 복잡성 때문에 개발자조차 인과관계에 대해 명확히 설명하기 어렵고 투명하지 않음. 이 때문에 AI의 편향성을 파악하고 개선하는 것도 마냥 간단하지 않음.
  • 피드백 부족: AI는 일단 학습한 데이터를 바탕으로 스스로 결정을 내리기 때문에, 그 과정에서 생기는 문제를 실시간으로 수정하기 어려움. 특히 AI가 내린 결정이 실시간 피드백되거나 검증되지 않으면, 교정되지 않고 그른 답변을 지속적으로 줄 수밖에 없게 됨. AI가 독도가 일본 땅이라 말하더라도 그에 대해 적시에 제대로 된 피드백을 못하면 정정 기회는 소실되는 상황.

  3. 알고리즘적 편향

  • AI 알고리즘 자체의 편향: 비단  데이터뿐만 아니라 알고리즘도 편향된 결정을 강화할 수 있음. 알고리즘이 데이터를 처리하는 방식에 따라 특정 데이터가 더/덜 중요하게 평가될 수 있기 때문임. 이로 인해 데이터의 편향성까지도 더욱 증폭될 수 있음.

III. 전문가들이 말하는 해결책

AI의 편향성과 차별을 줄이기 위해 데이터의 수집/처리, 그리고 AI 학습 과정에서의 접근 방법이 매우 중요함.

  1. 데이터의 다양성 확보
    • 학습할 원천 데이터에 다양한 인종/성별/연령/사회적 배경과 역사를 균형 있게 반영해야 함. 특정 집단이나 관점에 치우친 데이터를 사용하는 것을 방지할 수 있음.
  2. 데이터의 주기적 점검 및 정제
    • 데이터를 지속적으로 모니터링하고 교정하는 작업이 필요함. AI 학습에 사용되는 데이터셋을 정기적으로 재검토하고, 편향적인 요소가 발견되면 이를 투명하게 공개하고 정정하는 프로세스를 마련해야 함.
  3. AI 윤리 가이드라인 및 규제 강화
    • 선진국/AI 관련 연구 기관들은 윤리적인 AI 개발을 위해 규제와 가이드라인을 제정하고 있음. 근본 기틀이 될 윤리적 기준을 세우고 AI 시스템이 특정 사회적 차별을 방지할 수 있도록 설계해야 함.
  4. 설명 가능한 AI(Explainable AI) 개발
    • 블랙박스 문제를 해결하기 위한 방안으로, AI의 의사 결정 과정을 설명할 수 있도록 개발하고 이력을 남기는 것이 중요함. AI가 왜 그러한 결정을 내렸는지 이해할 수 있게 하고, 이슈 발생 시 그 원인을 파악해 개선 가능하게 함.

“AI도 실수 많이 해…위험 감지 위해 ‘설명 가능한 AI’로 신뢰 높여야”(헤럴드 경제)