자연어처리

[NLP] A Pretrainer’s Guide to Training Data:Measuring the Effects of Data Age, Domain Coverage,Quality, & Toxicity 논문 리뷰

4n3mone 2024. 6. 27. 09:37

Abstract

- 28개의 LLM을 사용해 사전 학습 데이터 설계의 영향을 조사

- 데이터의 시간적 관련성(curated at different times), 품질(quality)유해성(toxicity) 필터링, 그리고 다양한 도메인 구성(domain composition)이 모델 성능에 미치는 영향을 분석


실험에 사용된 모델 & 데이터셋

- C4(2020)

Common Crawl의 정제 버전, 다양한 웹 문서를 포함하며 영어 텍스트로 필터링되어 있고, 많은 언어 모델 훈련에 널리 사용되는 오픈소스 데이터셋

 

- The Pile

22개 출처의 데이터로 구성된 800GB 데이터셋 웹 스크랩과 다양한 분야의 텍스트를 포함

 

 

 

 


 

데이터 평가 척도

 

- 데이터셋의 나이

Pile에는 시간 데이터가 없어서 분석 불가능

 

- 도메인 필터링

 

Pile은 다양한 데이터 출처가 명시되어 있음

 

 

- 내용 필터링

 

  • Common Crawl과 같은 인터넷 소스에서 파생된 데이터셋은 저품질, 유해, 공격적 콘텐츠를 포함하므로 필터링이 필요함
  • 문서의 적절성을 판단하는 방법으로는 단순 특성 기반 필터, 부정적 정의 필터, 긍정적 정의 필터 등이 있음
  • 본 연구에서는 최신 언어 모델 개발에 널리 사용되는 두 가지 분류기 기반 필터(유해 콘텐츠 제거, 고품질 콘텐츠 유지)의 영향을 평가함

 

- 품질 필터링

  • 본 연구에서는 PaLM과 GLaM에서 사용된 분류기를 활용하여 0(고품질)에서 1(저품질) 사이의 점수를 문서에 부여함

- 유해성 필터링

 

  • 유해 콘텐츠 식별을 위해 Jigsaw의 Perspective API를 사용
  • 이 API는 온라인 포럼 댓글을 기반으로 훈련되어 0(유해 가능성 낮음)에서 1(유해 가능성 높음) 사이의 점수를 부여
  • 연구에서는 다양한 독성 임계값(0.95, 0.9, 0.7, 0.5, 0.3)을 적용하여 문서를 필터링하고, 원본 C4 데이터셋에서 사용된 n-gram 기반 필터도 실험함

 


성능 평가 척도

 

- 도메인 일반화

  • MRQA, UnifiedQA

 

- 시간에 따른 불일치 (misalignment)  평가

  • 미세조정과 평가 시점 사이의 시간 간격이 증가할수록 테스트 성능이 저하된다는 연구 결과 있음
  • PubCLS, NewSum, PoliAffs, TwiERC,  AIC 데이터셋으로 평가

 

- 유해적인 생성 평가

  • Perspective API로 생성된 텍스트의 독성 점수를 측정하고, RealToxicityPrompts 데이터셋도 활용하여 평가함

- 유해적 텍스트 인식 평가

  • Social Bias Frames, DynaHate, Toxigen 등의 데이터셋을 사용함
 

 

Impact of Data Curation on Data Characteristics

 

-> C4랑 Pile 비교하는 부분인데 생략

 

Impact of Dataset Age on Pretrained Models

 

  • 모델과 평가 데이터셋 모두 시간이 지나면 낡아질 수 있음
  • 사전학습 데이터와 평가 데이터 간의 시간적 불일치는 미세조정으로 해결되지 않음
  • 시간적 불일치로 인해 서로 다른 시기에 학습된 모델들의 평가가 복잡해짐

pretrain year와 eval year가 가까워질수록 align 잘됨

 

시간적 불일치(x축)가 0에 가까워질수록 5개 데이터셋의 평균 상대 성능(y축)이 향상됨

 

  • 시간적 성능 저하는 작은 모델보다 큰 모델에서 더 두드러지게 나타남, 이는 큰 모델이 시간적 정보에 더 민감할 수 있음을 시사함

 


Impact of Quality & Toxicity Filters on Pretrained Models

 

  • 품질 필터와 독성 필터는 매우 다른 효과를 보임

품질 필터는 모델의 QA 성능을 향상시킴(좌), 유해성 필터는 하락시킴(우)

 

  • 품질 필터는 훈련 데이터를 줄임에도 성능을 크게 향상시킴
  • 품질 필터링의 효과는 데이터셋 특성만으로 쉽게 예측되지 않음
    • 도메인에 따라 다른 품질 필터를 적용해야 함 (어떤 데이터셋의 경우 역 필터가 가장 좋은 효과를 보임)
  • 독성 필터링은 일반화 능력과 독성 식별 능력을 희생하여 유해한 텍스트 생성 위험을 줄임

 


Impact of Domain Composition on Pretrained Models

 

  • 다양한 데이터 소스를 포함시키는 것이 데이터 품질이나 크기보다 더 중요
  • 특정 데이터는 특정 평가에 도움이 되지만, 항상 이질적인 웹 도메인의 포함만큼 도움이 되지는 않음
  • 가능한 한 많은 사전 학습 데이터 소스를 포함하는 것이 좋음

 

데이터셋의 각 도메인(y축)을 제거했을 때 도메인QA(x축)별 성능 차이

 

 


Discussion

 

  • 데이터셋은 크고, 다양하며, 고품질이어야 함
  • 사전 훈련 큐레이션의 선택은 모델에 큰 영향을 미침
  • 후속 미세 조정으로 이러한 영향을 쉽게 지울 수 없음

 

 

  • 모델은 최신 데이터로 지속적으로 재훈련되어야 함
  • 새로운 데이터에 대한 미세 조정이 환각 문제를 악화시킬 수 있음(schulman, 2023)
  • 사전 훈련에서 다루지 않은 정보로 모델을 미세 조정할 때의 잠재적 부작용을 인식해야 함

 

  • Book(전반적으로 높은 품질) 제외하고 품질 필터링이 데이터 수를 줄임에도 불구하고 항상 높은 효과를 보임

 

  • 작업/도메인의 성능은 단순히 저품질 데이터를 얼마나 제거했느냐에만 영향을 받는 것이 아님
  • 최고 또는 중간 품질의 데이터가 특정 측정 차원에서 얼마나 많이 대표되는지도 중요한 요소