https://time.com/6247678/openai-chatgpt-kenya-workers/
OpenAI가 ChatGPT의 독성 (toxic) 응답을 줄이기 위해 시간당 2달러 미만으로 케냐 근로자들을 장시간에 걸쳐 독성컨텐츠에 노출시켰다는 내용에 대한 타임지의 폭로 기사 요약:
1. chatgpt는 학습 타래의 편향성으로 인해 폭력적이고 성차별적이며 인종차별적인 발언을 불쑥 내뱉는 경향이 있었음. 이는 AI가 인간 언어의 방대한 저장소인 인터넷에서 스크랩한 수천억 개의 단어로 훈련되었기 때문. 거대한 훈련 데이터 세트는 GPT-3의 인상적인 언어 기능의 이유였지만 동시에 가장 큰 숙제이기도 했음
2. 인터넷의 일부는 독성과 편향으로 가득 차 있기 때문에 교육 데이터의 해당 섹션을 제거하는 쉬운 방법이 없었음. 수백 명의 인간으로 구성된 팀조차도 방대한 데이터 세트를 수동으로 샅샅이 뒤지는 데 수십 년이 걸렸을 것인데, OpenAI가 그 피해를 억제할 수 있는 것은 AI 기반 안전 메커니즘을 추가로 구축하는 것 뿐이었음
3. OpenAI는 이러한 문제에 대한 해결의 실마리를 페이스북의 플레이북에서 힌트를 찾음. 페이스북은 기존에 혐오발언을 어떻게 필터링해서 플랫폼에서 성공적으로 제거할 수 있는지를 보여주었음.
4. 폭력, 증오심 표현, 성적 학대의 라벨이 붙은 예를 AI에 제공하면 해당 도구는 야생에서 이러한 형태의 악성 표현을 감지하는 방법을 학습할 수 있음.
이 탐지기는 ChatGPT에 내장되어 훈련 데이터의 독성을 반향하는지 확인하고 사용자에게 도달하기 전에 필터링 할 수 있었음. 또한 미래 AI 모델의 교육 데이터 세트에서 독성 텍스트를 제거하는 데에도 도움이 됨
5. 이러한 레이블을 얻기 위해 OpenAI는 2021년 11월부터 수만 개의 텍스트 스니펫을 케냐의 아웃소싱 회사에 보냄. 그 텍스트의 대부분은 인터넷의 가장 어두운 곳에서 가져온 것으로 보임. 그 중 일부는 아동 성적 학대, 수간, 살인, 자살, 고문, 자해, 근친상간과 같은 상황을 생생하게 자세하게 묘사한 것이었음
6. 케냐에서 OpenAI의 아웃소싱 파트너는 Google, Meta 및 Microsoft와 같은 실리콘 밸리 고객을 위해 데이터에 레이블을 지정하기 위해 케냐, 우간다 및 인도에서 직원을 고용하는 샌프란시스코 기반 회사인 Sama였음. Sama는 스스로를 "윤리적 AI" 회사로 홍보하고 50,000 명 이상의 사람들을 빈곤에서 구하는 데 도움을 주었다고 주장하는 회사임
7. 기사는 해당 회사의 작업 방식이나, OpenAI가 어떤 작업 방침을 내렸는지 등에 대해 매우 디테일하게 조사하고 보도하였음. 기사의 요는 우리가 열광하는 기술발전에 이면에서는 제3세계 노동자들이 시간당 1달러 정도의 소득을 얻으면서 다양한 독성 컨텐츠를 시청하며 라벨링하는 작업이 있었다는 사실임
8. 아직은 인간이 AI 시스템용 데이터에 레이블을 지정해야 할 필요성이 남아 있는 것이 사실임. ChatGPT 및 기타 generative 모델은 인간 노동의 대규모 공급망과 스크랩한 데이터에 의존하며, 그 중 많은 부분이 귀속되지 않고 동의 없이 사용되고 있음. 이것은 OpenAI가 해결하지 못하는 심각하고 근본적인 문제임
'크립토, 블록체인' 카테고리의 다른 글
AI의 발전은 아마도 하스스톤을 멸망시킬 것이다 (이미 망겜이지만) (0) | 2023.01.29 |
---|