티스토리 뷰
발생일: 2020.02.04
키워드: GTP-3, GTP-Neo, NLP
내용:
화제가 됐던 NLP 모델인 GTP-3의 무료 복제본인 GPT-Neo 를 개발하고 있다는 소식
GPT-Neo
- GTP-3 의 복제 버전을 무료 공개용으로 제작할 목적
- GTP-3는 현재 마이크로소프트가 독점 라이선스를 가지고 있음
- 올해 8월 초까지 완성할 계획으로 목표는 GTP-3와 동일한 수준으로 구현하는 것
- 파라미터 1750억개의 버전이 목표이고, 현재 파라미터 1000억개까지는 완료함
- 사회적 편견을 없애는데 주의를 기울이고 있음
- CoreWeave 라는 클라우드 서비스가 인프라를 무료로 제공해주기로 함
- 학습 데이터는 825GB
- 텍스트 데이터셋, IRC 챗로그, 유튜브 자막, 의학 연구 보고서 등
- 성별, 종교, 인종 편견에 데이터를 평가하기 위해 감정 분석을 사용함
- 너무 심한 수준의 편향 데이터는 학습 데이터에서 제거함
파라미터는 뉴럴 네트워크 내 뉴런의 개수라고 이해하면 될 것 같다.
여러 사례를 보면, NLP에서는 다양한 측면에서 감정 분석을 활용하고 있는 것 같다.
문장의 의미 뿐 아니라 분위기를 이해하는 것이 모두에게 도전적이고 중요한 일인 것 같다.
얼마 전에 본 포스트에선 GTP-3를 학습하려고 쿠버네티스로 GPU 인스턴스를 동시에 7500대를 띄워서 작업했다는 내용도 있더라.
위 소식의 파라미터 수도 그렇고, 인스턴스 수도 그렇고, 놀라울 따름이다.
물론, 기존 모델을 활용해서 적은 데이터로 의미있는 결과를 냈다는 뉴스도 많으니... ㅎㅎ
참고:
GTP-Neo: https://www.eleuther.ai/projects/gpt-neo
GTP-3 쿠버네티스: openai.com/blog/scaling-kubernetes-to-7500-nodes/