[NLP] A Pretrainer’s Guide to Training Data:Measuring the Effects of Data Age, Domain Coverage,Quality, & Toxicity 논문 리뷰

자연어처리

[NLP] A Pretrainer’s Guide to Training Data:Measuring the Effects of Data Age, Domain Coverage,Quality, & Toxicity 논문 리뷰

4n3mone 2024. 6. 27. 09:37

Abstract

- 28개의 LLM을 사용해 사전 학습 데이터 설계의 영향을 조사

- 데이터의 시간적 관련성(curated at different times), 품질(quality) 및 유해성(toxicity) 필터링, 그리고 다양한 도메인 구성(domain composition)이 모델 성능에 미치는 영향을 분석

실험에 사용된 모델 & 데이터셋

- C4(2020)

Common Crawl의 정제 버전, 다양한 웹 문서를 포함하며 영어 텍스트로 필터링되어 있고, 많은 언어 모델 훈련에 널리 사용되는 오픈소스 데이터셋

- The Pile

22개 출처의 데이터로 구성된 800GB 데이터셋 웹 스크랩과 다양한 분야의 텍스트를 포함

데이터 평가 척도

- 데이터셋의 나이

Pile에는 시간 데이터가 없어서 분석 불가능

- 도메인 필터링

Pile은 다양한 데이터 출처가 명시되어 있음

- 내용 필터링

Common Crawl과 같은 인터넷 소스에서 파생된 데이터셋은 저품질, 유해, 공격적 콘텐츠를 포함하므로 필터링이 필요함
문서의 적절성을 판단하는 방법으로는 단순 특성 기반 필터, 부정적 정의 필터, 긍정적 정의 필터 등이 있음
본 연구에서는 최신 언어 모델 개발에 널리 사용되는 두 가지 분류기 기반 필터(유해 콘텐츠 제거, 고품질 콘텐츠 유지)의 영향을 평가함

- 품질 필터링

본 연구에서는 PaLM과 GLaM에서 사용된 분류기를 활용하여 0(고품질)에서 1(저품질) 사이의 점수를 문서에 부여함

- 유해성 필터링

유해 콘텐츠 식별을 위해 Jigsaw의 Perspective API를 사용
이 API는 온라인 포럼 댓글을 기반으로 훈련되어 0(유해 가능성 낮음)에서 1(유해 가능성 높음) 사이의 점수를 부여
연구에서는 다양한 독성 임계값(0.95, 0.9, 0.7, 0.5, 0.3)을 적용하여 문서를 필터링하고, 원본 C4 데이터셋에서 사용된 n-gram 기반 필터도 실험함

성능 평가 척도

- 도메인 일반화

MRQA, UnifiedQA

- 시간에 따른 불일치 (misalignment) 평가

미세조정과 평가 시점 사이의 시간 간격이 증가할수록 테스트 성능이 저하된다는 연구 결과 있음
PubCLS, NewSum, PoliAffs, TwiERC, AIC 데이터셋으로 평가

- 유해적인 생성 평가

Perspective API로 생성된 텍스트의 독성 점수를 측정하고, RealToxicityPrompts 데이터셋도 활용하여 평가함

- 유해적 텍스트 인식 평가

Social Bias Frames, DynaHate, Toxigen 등의 데이터셋을 사용함

Impact of Data Curation on Data Characteristics

-> C4랑 Pile 비교하는 부분인데 생략

Impact of Dataset Age on Pretrained Models

모델과 평가 데이터셋 모두 시간이 지나면 낡아질 수 있음
사전학습 데이터와 평가 데이터 간의 시간적 불일치는 미세조정으로 해결되지 않음
시간적 불일치로 인해 서로 다른 시기에 학습된 모델들의 평가가 복잡해짐

pretrain year와 eval year가 가까워질수록 align 잘됨

시간적 불일치(x축)가 0에 가까워질수록 5개 데이터셋의 평균 상대 성능(y축)이 향상됨

시간적 성능 저하는 작은 모델보다 큰 모델에서 더 두드러지게 나타남, 이는 큰 모델이 시간적 정보에 더 민감할 수 있음을 시사함

Impact of Quality & Toxicity Filters on Pretrained Models

품질 필터와 독성 필터는 매우 다른 효과를 보임

품질 필터는 모델의 QA 성능을 향상시킴(좌), 유해성 필터는 하락시킴(우)

품질 필터는 훈련 데이터를 줄임에도 성능을 크게 향상시킴
품질 필터링의 효과는 데이터셋 특성만으로 쉽게 예측되지 않음
- 도메인에 따라 다른 품질 필터를 적용해야 함 (어떤 데이터셋의 경우 역 필터가 가장 좋은 효과를 보임)
독성 필터링은 일반화 능력과 독성 식별 능력을 희생하여 유해한 텍스트 생성 위험을 줄임

Impact of Domain Composition on Pretrained Models

다양한 데이터 소스를 포함시키는 것이 데이터 품질이나 크기보다 더 중요
특정 데이터는 특정 평가에 도움이 되지만, 항상 이질적인 웹 도메인의 포함만큼 도움이 되지는 않음
가능한 한 많은 사전 학습 데이터 소스를 포함하는 것이 좋음

데이터셋의 각 도메인(y축)을 제거했을 때 도메인QA(x축)별 성능 차이

Discussion

데이터셋은 크고, 다양하며, 고품질이어야 함
사전 훈련 큐레이션의 선택은 모델에 큰 영향을 미침
후속 미세 조정으로 이러한 영향을 쉽게 지울 수 없음

모델은 최신 데이터로 지속적으로 재훈련되어야 함
새로운 데이터에 대한 미세 조정이 환각 문제를 악화시킬 수 있음(schulman, 2023)
사전 훈련에서 다루지 않은 정보로 모델을 미세 조정할 때의 잠재적 부작용을 인식해야 함

Book(전반적으로 높은 품질) 제외하고 품질 필터링이 데이터 수를 줄임에도 불구하고 항상 높은 효과를 보임

작업/도메인의 성능은 단순히 저품질 데이터를 얼마나 제거했느냐에만 영향을 받는 것이 아님
최고 또는 중간 품질의 데이터가 특정 측정 차원에서 얼마나 많이 대표되는지도 중요한 요소

'자연어처리' 카테고리의 다른 글

[NLP] solar-pro-preview살펴보기 (1)	2024.09.21
[NLP] Large Language Models are Superpositions of All Characters: AttainingArbitrary Role-play via Self-Alignment 논문 리뷰 (0)	2024.08.13
[NLP] PROMETHEUS: INDUCING FINE-GRAINEDEVALUATION CAPABILITY IN LANGUAGE MODELS 논문 간단 리뷰 (0)	2024.04.10
[NLP]FLASK: FINE-GRAINED LANGUAGE MODELEVALUATION BASED ON ALIGNMENT SKILL SETS 논문 리뷰 (0)	2024.03.25
[NLP]MoE(Mixture of Experts)과 Mixtral 살펴보기 (1)	2024.02.08

현재글[NLP] A Pretrainer’s Guide to Training Data:Measuring the Effects of Data Age, Domain Coverage,Quality, & Toxicity 논문 리뷰