팔딱팔딱 자연어

진짜로 '잘' 아세요? Attention & Self Attention (feat. 혁펜하임의 <Easy! 딥러닝>)

4n3mone — Sat, 1 Mar 2025 18:10:36 +0900

들어가며

LLM 과 에이전트의 시대로 접어든 지금일수록( DeepSeek로 인해 다시금 점화되었죠.), 이론에 대한 원리를 더 확실히 알고 있는 것이 중요하다고 생각합니다. 단순히 AI 툴을 사용하는 '소비자' 가 아니라 AI 개발을 하고, 제품과 서비스를 만드는 '생산자'의 입장에 계신 분들이라고 한다면 더더욱 그렇습니다.

이번에 좋은 기회로 혁펜하임님이 출판하신 딥러닝 책 <Easy! 딥러닝> 을 제공받아 리뷰를 할 수 있게 되었습니다. 본 리뷰에서는 크게 두 가지 관점에서 이 책을 추천드리는 이유를 말씀드리겠습니다.

마치며

인공지능 기술의 발전은 이미 거품이 아닌 현실이 되었고, 현실 세계에 가치를 가져다 주고 있는 해자가 되고 있습니다. 인공지능 분야에서 이미 종사하고 있는 사람, 그리고 인공지능에 처음 관심을 가지기 시작한 사람 모두에게 이 책을 추천합니다.

본 게시글은 혁펜하임의 <Easy! 딥러닝> 책의 리뷰어 활동으로 작성되었습니다.
도서 구매 링크 1 (교보문고): https://product.kyobobook.co.kr/detail/S000214848175
도서 구매 링크 2 (출판사 자사몰): https://shorturl.at/yqZpW

[NLP] solar-pro-preview살펴보기

4n3mone — Sat, 21 Sep 2024 18:31:41 +0900

들어가며

지난 9월 11일 업스테이지에서 solar-pro-preview, solar-pro-preview-instruct 가 오픈소스 모델로 출시되었습니다. 업스테이지에서 처음으로 공개했던 모델 SOLAR 10.7B보다 2배 이상 큰 파라미터 수를 가지고 있으며, 단일 GPU에서 효율적으로 실행할 수 있다고 합니다. 본 포스트에서는 solar-pro-preview 모델의 특징에 대해 살펴보겠습니다.

Spec

solar-pro-preview 모델의 간략한 스펙은 다음과 같습니다.

# params	22.1B
context window	4k
지원 언어	en

context window가 최근 출시되는 다른 오픈소스 모델에 비해 꽤나 짧다는 점과, 지원 언어가 영어 한 가지라는 점이 눈에 띄네요.

이 두 가지 사항 모두 solar pro 정식 출시할 때 개선해서 나온다고 하니 기대해 봐야 할 것 같습니다.

모델링 코드 살펴보기

기존 solar 10.7B는 transformers 라이브러리의 LlamaForCausalLM 구조를 채택하고 있기에, vllm을 포함한 다양한 서빙 라이브러리에서 문제 없이 동작했습니다.

그러나 이번에 출시된 solar-pro-preview 모델에서는 기존 transformers 라이브러리의 모델 클래스를 사용하지 않고, SolarForCausalLM이라는 새로운 아키텍쳐를 사용합니다. 따라서

model = AutoModelForCausalLM.from_pretrained(
    "upstage/solar-pro-preview-instruct",
    device_map="cuda",  
    torch_dtype="auto",  
    trust_remote_code=True,
)

와 같이 모델을 사용할 때 trust_remote_code=True 라는 부분을 꼭 지정을 해줘야 하죠.

그렇다면 SolarForCausalLM 아키텍처는 다른 transformers의 LLM 아키텍처에 비해 어떤 점이 달라졌을까요?

사용자 지정 아키텍처를 사용하는 모델은 modeling_{model_name}.py 에 해당 모델의 아키텍처를 정의해서 사용합니다.

solar-pro-preview 모델의 아키텍처 또한 허깅페이스 repo의 modeling_solar.py 에 정의되어 있고, 각종 config 들은 configuration_solar.py에서 불러와 사용하는 구조입니다.

먼저 solar의 model config를 살펴보면, 대부분은 llama나 mistral과 비슷한 구조를 가지나, 한 가지 추가된 사항이 있습니다.

SolarConfig라는 클래스를 초기화할 때, bskcn이라는 리스트 형태의 변수를 선언하는 것을 확인할 수 있습니다. 1~4번까지는 정수의 리스트, bskcn_tv 에는 0.9와 0.8이 들어있는 리스트 형태입니다. 이 값들이 어디에서 쓰이는 지 확인해 보겠습니다.

        # modeling_solar.py line 1051~
        # decoder layers
        all_hidden_states = () if output_hidden_states else None
        all_self_attns = () if output_attentions else None
        next_decoder_cache = None

        bskcn_1 = None
        bskcn_2 = None
        bskcn_tv = self.config.bskcn_tv[0] if self.training else self.config.bskcn_tv[1]
        for layer_idx, decoder_layer in enumerate(self.layers):
            if layer_idx in self.config.bskcn_1:
                bskcn_1 = hidden_states
            if layer_idx in self.config.bskcn_2:
                bskcn_2 = hidden_states
            if layer_idx in self.config.bskcn_3:
                hidden_states = (bskcn_1*bskcn_tv).to(hidden_states.device) + hidden_states*(1-bskcn_tv)
            if layer_idx in self.config.bskcn_4:
                hidden_states = (bskcn_2*bskcn_tv).to(hidden_states.device) + hidden_states*(1-bskcn_tv)

위 코드는 solar 모델의 decoder 부분 forward 함수의 일부분입니다.

코드를 살펴보면 다음과 같은 로직이 적용되어있는 것을 확인할 수 있습니다.

bskcn_1: 12, 20, 32, 44번째 레이어에서 hidden states를 저장
bskcn_2: 20, 32번째 레이어에서 hidden states를 저장

bskcn_3: 16, 24, 36, 48번째 레이어에서 bskcn_1의 hidden states를 현재 hidden states와 결합
bskcn_4: 28, 40번째 레이어에서 bskcn_2의 hidden states를 현재 hidden states와 결합

위에서 선언되었던

bskcn_1,3 리스트는 hidden states를 저장할 리스트 인덱스
bskcn_2,4 리스트는 미리 저장했던 hidden states와 현재 인덱스의 hideen state를 결합하는 인덱스
bskcn_tv는 결합할 때의 가중치

가 되겠네요.

이 때, 모델이 훈련 중이라면 가중치를 0.9, 추론 중이라면 0.8으로 각각 다르게 설정한 부분까지 확인할 수 있습니다.

이 구조를 claude에게 주고 시각화 해달라고 하니 이런 다이어그램이 나왔네요. 이해가 잘 가시나요?

이러한 구조는

ResNet 등의 모델에서 사용하고 있는 skip connection기법 을 레이어 단위로, 가중치를 적용해서 하는 것이라고 할 수 있겠네요. LLM에서 이러한 모델 구조를 사용하는 것은 처음 본 것 같은데, 혹시 아니라면 댓글로 알려주시면 감사하겠습니다 ㅎㅎ

그리고 현재 공개된 solar-pro-preview의 hidden_layer 수는 32지만, bskcn 인덱스 리스트에는 32를 초과하는 36,40,48 등의 수도 있는 것을 확인할 수 있습니다. 이는 아마도 더 큰 모델(아마도 API 전용)을 위한 config가 아닐까 생각됩니다.

한국어는 어느정도 할까?

solar-pro-preview- 의 공식 지원 언어는 영어 하나뿐이지만, 그래도 한국 기업에서 만든 모델이어서 solar-pro-preview-instruct에 한국어 인스트럭트 벤치마크 Logickor 테스트를 돌려보았습니다.

각각 default(0-shot), 1-shot, cot-1-shot

애초부터 영어만 지원하는 모델이었기 때문에 Logickor 리더보드 상위 모델들과는 점수 차이가 많이 나는 모습이지만,

예시를 1개 제공하는 것만으로도 점수가 크게 오르는 것(5.75->6.55)을 보아 모델 자체의 추론 능력이 상당하다는 것을 확인할 수 있었습니다.

마치며

최근 exaone이나 solar와 같이 한국 기업에서 자체적으로 개발한 언어 모델을 오픈 소스로 공개하는 일들이 많아지고 있어 정말 흥미진진한데요, 이에 자극을 받아 더욱 다양한 IT 기업에서 자체 언어 모델을 제작고 배포하는 일이 많아졌으면 하는 마음입니다.

읽어주셔서 감사합니다!

[NLP] Large Language Models are Superpositions of All Characters: AttainingArbitrary Role-play via Self-Alignment 논문 리뷰

4n3mone — Tue, 13 Aug 2024 15:49:18 +0900

arxiv

github

개요

이 논문은 LLM이 Role-Playing을 더 잘할 수 있도록 하는 방법론 Ditto를 설명하고 있습니다.

알리바바 그룹의 qwen2에 적용되어 주목받기도 하였습니다.

Abstract

DITTO는 LLM의 역할 수행 능력을 강화하기 위해 캐릭터 지식을 활용한 셀프 얼라인먼트 방법을 제시하며, 4000개의 캐릭터로 구성된 대규모 역할 수행 훈련 세트를 생성하여 모델을 fine-tuning합니다.
평가 결과, DITTO는 다양한 파라미터 스케일에서 일관된 역할 정체성을 유지하며, 모든 오픈소스 역할 수행 기준을 능가하는 성능을 보여줍니다.
역할 수행 도메인에서 최초로 교차 지도(cross-supervision) 정렬 실험을 통해, LLM의 본질적인 능력이 역할 수행 지식을 제한하지만, 역할 수행 스타일은 작은 모델의 지도로 쉽게 습득될 수 있음을 확인했습니다.

Role-Playing이란

Role-play는 특정 캐릭터의 행동과 발화 스타일을 모방하는 대화 시스템을 개발하는 것을 목표로 합니다. 이를 통해 대형 언어 모델(LLM)이 특정 캐릭터의 특징을 정확하게 반영하고 대화 내용에 일관성을 유지하는지를 평가합니다.

Self-Algnment란

Self-alignment란 약한 언어 모델(LLM)의 성능을 향상시키기 위한 방법으로, 더 강력한 모델(ex, gpt-4o)의 출력을 활용하지 않고, 모델 자체를 사용하여 자체적으로 조정(fine-tuning)하는 접근 방식을 말합니다.

Ditto Method

1. 캐릭터 지식 수집

- 위키피디아에서 다양한 캐릭터 이름, 설명, 주요 속성을 수집(한국어, 영어)

2. Dialogue Simulation

2.1. Query Simulation

대상 캐릭터 A + 그 캐릭터와 상관이 없는 캐릭터 B를 각각 정함

LLM에게 각각의 정보를 전달하면서 A는 대달할 수 있지만 B는 대답할 수 없는 질문을 생성해달라고 부탁

2.2. Response Simulation

LLM에게 캐릭터의 정보를 제공한 뒤에 대답을 해달라고 요청함

(위키피디아에서 직접 정보 추출했으므로 환각이 적을 것이라고 기대)

3902개 캐릭터의 정보를 탐은 QA 멀티턴 데이터를 제작함

이 때, train 데이터는 seed LLM(qwen-chat), test 데이터는 gpt-4-turbo 사용

3. SFT

생성한 질문-답변 쌍으로 모델을 학습시킨다.

(질문에서 캐릭터에 대한 구체적인 지식보다는 간략한 정보로 대체)

4. 평가

LLMs-as-Judges 방법 채택하여 파인튜닝한 모델의 응답을 평가함

추론할 때에도 모델에게 간략한 정보만을 제공( “You are Edward III of England, king of England.")

4.1. Consistent Role Identity

- LLM은 다중 턴 대화에서 지정된 역할을 매끄럽게 수행하며, 캐릭터 일관성을 유지하고 이탈하지 않아야 함

- 역할 일관성 평가를 네 가지 가능한 역할 후보가 포함된 다지선다 문제로 구조화

- 평가자 LLM이 이 문제를 맞추면 성공적으로 학습한 것

4.2. Accurate Role-related Knowledge

- 전의 단계에서 수집한 정확한 정보를 제공하고 모델의 응답에 환각 현상이 있었는지 점수를 매겨달라 함

4.3. Unknown Question Rejection

test set에 있는 관련 없는 질문을 모델에게 한 뒤 잘 reject했는지 LLM에게 판단하도록 함

실험 결과

General Baselines 결과 : 상용모델 / 오픈소스 모델에게 WIKIROLEEVAL 태스크 수행한 결과

Role-play Expertise Baselines : 롤플레잉 전문 모델들

Ours 모델 : QWEN1.8B~72B에게 DITTO 방법 적용

롤플레잉 전문 모델들이 상용 모델보다 나은 결과를 보일 때도 있었음(특히 일관성)
그러나 이들은 캐릭터에 대한 지식이 매우 모자랐음
DITTO 방법으로 학습한 seed 모델들은 파라미터가 증가함에 따라 모든 능력이 향상됨
특히 가장 큰 파라미터인 72B의 경우 상용 모델들을 상회하는 결과를 보임

쿼리 품질 분석

인간이 평가한 결과 #파라미터가 증가할 수록 스스로 생성하는 쿼리의 품질이 좋아짐

지식 주입 분석

모델이 같을 때, 쿼리에 지식을 주입하는 것이 더 효과를 보임

교차 지도(cross-supervision) 학습 분석

역할 정체성:
- 일관된 역할 정체성은 감독이 좋지 않은 경우에도 모방 학습을 통해 지속적으로 이점을 얻음.
- 시드 LLM은 감독에서 부적절한 시범이 있더라도 역할 수행 형식을 쉽게 배울 수 있음.
- 역할 일관성은 학습하기 더 쉽고 감독 품질에 더 강인함.
지식 관련 지표:
- 지식과 거부에 대한 성능은 모방 학습 후에 저하되는 경향이 있음.
- 지식 관련 지표는 일관된 이점을 얻지 못하고, 모방 학습 후 성능이 저하될 수 있음.
데이터 포인트 위치:
- 일관성에 대한 데이터 포인트는 대각선 위에 위치하여, 모방 성능이 감독 성능보다 일관되게 높음을 의미함.
- 지식과 거부에 대한 데이터 포인트는 대각선 아래에 위치하여, 모방 학습 후 성능이 저하되는 경향을 나타냄.
지식 제한:
- 지식은 큰 모델(지도)에서 작은 모델(학습)로 설정될 때, LLM의 내재된 능력에 의해 제한됨.
내재된 능력의 제한:
- 시드 LLM의 내재된 능력이 역할별 지식을 제한함.
- 훨씬 더 강력한 LLM을 감독으로 사용하는 것이 미미한 개선만을 가져올 수 있음.
거부 지표:
- 역할별 지식에 의존하는 거부 지표에서도 유사한 결론이 도출됨.

결론

frontier 모델을 사용하지 않고 자기 자신의 응답 결과를 다시 사용하는 self-alignment 학습으로도 RP에 요구되는 '일관성'은 증가시킬 수 있었다. 그러나 '지식'의 경우에는 모델 자체의 능력에 크게 영향을 받는다는 것을 발견

chatglm LoRA 튜닝하기 (LoRA 안되는 LLM 모델 학습하는 방법)

4n3mone — Tue, 9 Jul 2024 10:38:08 +0900

THUDM/glm-4-9b-chat 은 LogiKor 리더보드에서 공개 모델 중 상당한 순위를 자랑하는 중국산 모델인데요,

문제는 이 모델은 huggingface transformer 라이브러리에 등록되어있지 않아 인터넷에 공개되어있는 여러 예제 코드가 작동하지 않을 때가 많습니다.

peft_config = LoraConfig(
    task_type=TaskType.CAUSAL_LM,
    inference_mode=False,
    r=8,
    lora_alpha=32,
    lora_dropout=0.1,
    target_modules=["q_proj", "v_proj"],
)
model = get_peft_model(model, peft_config)

위의 코드는 많이들 사용하는 LoRAConfig 세팅인데요, chatglm 모델에 다음과 같은 코드를 적용하면 이런 에러를 볼 수 있습니다.

ValueError: Target modules ["q_proj", "v_proj"] not found in the base model. Please check the target modules and try again.

이는 chatglm의 모델링 코드 구조에서 "q_proj", "v_proj" 가 없어서 존재하는 오류로, 실제 내부 코드 "modeling_glm.py" 를 들여다보면 다음과 같습니다.

class SelfAttention(torch.nn.Module):
    """Parallel self-attention layer abstract class.
    Self-attention layer takes input with size [s, b, h]
    and returns output of the same size.
    """

    def __init__(self, config: ChatGLMConfig, layer_number, device=None):
        super(SelfAttention, self).__init__()
        self.layer_number = max(1, layer_number)

        self.projection_size = config.kv_channels * config.num_attention_heads

        # Per attention head and per partition values.
        self.hidden_size_per_attention_head = self.projection_size // config.num_attention_heads
        self.num_attention_heads_per_partition = config.num_attention_heads

        self.multi_query_attention = config.multi_query_attention
        self.qkv_hidden_size = 3 * self.projection_size
        if self.multi_query_attention:
            self.num_multi_query_groups_per_partition = config.multi_query_group_num
            self.qkv_hidden_size = (
                    self.projection_size + 2 * self.hidden_size_per_attention_head * config.multi_query_group_num
            )
        self.query_key_value = nn.Linear(config.hidden_size, self.qkv_hidden_size,
                                         bias=config.add_bias_linear or config.add_qkv_bias,
                                         device=device, **_config_to_kwargs(config)
                                         )

        self.core_attention = CORE_ATTENTION_CLASSES[config._attn_implementation](config, self.layer_number)

        # Output.
        self.dense = nn.Linear(self.projection_size, config.hidden_size, bias=config.add_bias_linear,
                               device=device, **_config_to_kwargs(config)
                               )

이상한점을 잘 모르시겠다면, transformers 라이브러리의 modeling_llama.py 를 한번 볼까요?

class LlamaAttention(nn.Module):
    """Multi-headed attention from 'Attention Is All You Need' paper"""

    def __init__(self, config: LlamaConfig, layer_idx: Optional[int] = None):
        super().__init__()
        self.config = config
        self.layer_idx = layer_idx
        if layer_idx is None:
            logger.warning_once(
                f"Instantiating {self.__class__.__name__} without passing a `layer_idx` is not recommended and will "
                "lead to errors during the forward call if caching is used. Please make sure to provide a `layer_idx` "
                "when creating this class."
            )

        self.attention_dropout = config.attention_dropout
        self.hidden_size = config.hidden_size
        self.num_heads = config.num_attention_heads
        self.head_dim = self.hidden_size // self.num_heads
        self.num_key_value_heads = config.num_key_value_heads
        self.num_key_value_groups = self.num_heads // self.num_key_value_heads
        self.max_position_embeddings = config.max_position_embeddings
        self.rope_theta = config.rope_theta
        self.is_causal = True

        if (self.head_dim * self.num_heads) != self.hidden_size:
            raise ValueError(
                f"hidden_size must be divisible by num_heads (got `hidden_size`: {self.hidden_size}"
                f" and `num_heads`: {self.num_heads})."
            )

        self.q_proj = nn.Linear(self.hidden_size, self.num_heads * self.head_dim, bias=config.attention_bias)
        self.k_proj = nn.Linear(self.hidden_size, self.num_key_value_heads * self.head_dim, bias=config.attention_bias)
        self.v_proj = nn.Linear(self.hidden_size, self.num_key_value_heads * self.head_dim, bias=config.attention_bias)
        self.o_proj = nn.Linear(self.hidden_size, self.hidden_size, bias=config.attention_bias)
        self._init_rope()

맞습니다. transformers 내부 코드의 modeling 코드에는 "q_proj", "v_proj"가 존재하지만, chatglm의 커스텀 코드에는 존재하지 않는 다는 것을 확인할 수 있죠.

따라서 LoRA 학습을 하기 위해서는 모델링 코드를 수정하거나(어려운 방법), 모델링 코드에서 지정해놓은 매개변수 이름으로 LoraConfig를 수정하면 됩니다.

chatglm의 모델링 코드에서 ["q_proj", "v_proj"] 와 유사한 기능을 하는 매개변수는 "query_key_value" 이므로, 다음과 같이 LoraConfig를 바꿔주면 학습을 할 수 있습니다.

peft_config = LoraConfig(
    task_type=TaskType.CAUSAL_LM,
    inference_mode=False,
    r=8,
    lora_alpha=32,
    lora_dropout=0.1,
    target_modules=["query_key_value"],
)
model = get_peft_model(model, peft_config)

이와 유사한 방법으로 사용하던 LoraConfig가 작동하지 않는 커스텀 코드를 사용하는 모델에 대해 Lora 학습을 해볼 수 있겠습니다.

혹시 틀린 점이 있다면 댓글로 달아주세요!

[NLP] A Pretrainer’s Guide to Training Data:Measuring the Effects of Data Age, Domain Coverage,Quality, & Toxicity 논문 리뷰

4n3mone — Thu, 27 Jun 2024 09:37:05 +0900

Abstract

- 28개의 LLM을 사용해 사전 학습 데이터 설계의 영향을 조사

- 데이터의 시간적 관련성(curated at different times), 품질(quality) 및 유해성(toxicity) 필터링, 그리고 다양한 도메인 구성(domain composition)이 모델 성능에 미치는 영향을 분석

실험에 사용된 모델 & 데이터셋

- C4(2020)

Common Crawl의 정제 버전, 다양한 웹 문서를 포함하며 영어 텍스트로 필터링되어 있고, 많은 언어 모델 훈련에 널리 사용되는 오픈소스 데이터셋

- The Pile

22개 출처의 데이터로 구성된 800GB 데이터셋 웹 스크랩과 다양한 분야의 텍스트를 포함

데이터 평가 척도

- 데이터셋의 나이

Pile에는 시간 데이터가 없어서 분석 불가능

- 도메인 필터링

Pile은 다양한 데이터 출처가 명시되어 있음

- 내용 필터링

Common Crawl과 같은 인터넷 소스에서 파생된 데이터셋은 저품질, 유해, 공격적 콘텐츠를 포함하므로 필터링이 필요함
문서의 적절성을 판단하는 방법으로는 단순 특성 기반 필터, 부정적 정의 필터, 긍정적 정의 필터 등이 있음
본 연구에서는 최신 언어 모델 개발에 널리 사용되는 두 가지 분류기 기반 필터(유해 콘텐츠 제거, 고품질 콘텐츠 유지)의 영향을 평가함

- 품질 필터링

본 연구에서는 PaLM과 GLaM에서 사용된 분류기를 활용하여 0(고품질)에서 1(저품질) 사이의 점수를 문서에 부여함

- 유해성 필터링

유해 콘텐츠 식별을 위해 Jigsaw의 Perspective API를 사용
이 API는 온라인 포럼 댓글을 기반으로 훈련되어 0(유해 가능성 낮음)에서 1(유해 가능성 높음) 사이의 점수를 부여
연구에서는 다양한 독성 임계값(0.95, 0.9, 0.7, 0.5, 0.3)을 적용하여 문서를 필터링하고, 원본 C4 데이터셋에서 사용된 n-gram 기반 필터도 실험함

성능 평가 척도

- 도메인 일반화

MRQA, UnifiedQA

- 시간에 따른 불일치 (misalignment) 평가

미세조정과 평가 시점 사이의 시간 간격이 증가할수록 테스트 성능이 저하된다는 연구 결과 있음
PubCLS, NewSum, PoliAffs, TwiERC, AIC 데이터셋으로 평가

- 유해적인 생성 평가

Perspective API로 생성된 텍스트의 독성 점수를 측정하고, RealToxicityPrompts 데이터셋도 활용하여 평가함

- 유해적 텍스트 인식 평가

Social Bias Frames, DynaHate, Toxigen 등의 데이터셋을 사용함

Impact of Data Curation on Data Characteristics

-> C4랑 Pile 비교하는 부분인데 생략

Impact of Dataset Age on Pretrained Models

모델과 평가 데이터셋 모두 시간이 지나면 낡아질 수 있음
사전학습 데이터와 평가 데이터 간의 시간적 불일치는 미세조정으로 해결되지 않음
시간적 불일치로 인해 서로 다른 시기에 학습된 모델들의 평가가 복잡해짐

pretrain year와 eval year가 가까워질수록 align 잘됨

시간적 불일치(x축)가 0에 가까워질수록 5개 데이터셋의 평균 상대 성능(y축)이 향상됨

시간적 성능 저하는 작은 모델보다 큰 모델에서 더 두드러지게 나타남, 이는 큰 모델이 시간적 정보에 더 민감할 수 있음을 시사함

Impact of Quality & Toxicity Filters on Pretrained Models

품질 필터와 독성 필터는 매우 다른 효과를 보임

품질 필터는 모델의 QA 성능을 향상시킴(좌), 유해성 필터는 하락시킴(우)

품질 필터는 훈련 데이터를 줄임에도 성능을 크게 향상시킴
품질 필터링의 효과는 데이터셋 특성만으로 쉽게 예측되지 않음
- 도메인에 따라 다른 품질 필터를 적용해야 함 (어떤 데이터셋의 경우 역 필터가 가장 좋은 효과를 보임)
독성 필터링은 일반화 능력과 독성 식별 능력을 희생하여 유해한 텍스트 생성 위험을 줄임

Impact of Domain Composition on Pretrained Models

다양한 데이터 소스를 포함시키는 것이 데이터 품질이나 크기보다 더 중요
특정 데이터는 특정 평가에 도움이 되지만, 항상 이질적인 웹 도메인의 포함만큼 도움이 되지는 않음
가능한 한 많은 사전 학습 데이터 소스를 포함하는 것이 좋음

데이터셋의 각 도메인(y축)을 제거했을 때 도메인QA(x축)별 성능 차이

Discussion

데이터셋은 크고, 다양하며, 고품질이어야 함
사전 훈련 큐레이션의 선택은 모델에 큰 영향을 미침
후속 미세 조정으로 이러한 영향을 쉽게 지울 수 없음

모델은 최신 데이터로 지속적으로 재훈련되어야 함
새로운 데이터에 대한 미세 조정이 환각 문제를 악화시킬 수 있음(schulman, 2023)
사전 훈련에서 다루지 않은 정보로 모델을 미세 조정할 때의 잠재적 부작용을 인식해야 함

Book(전반적으로 높은 품질) 제외하고 품질 필터링이 데이터 수를 줄임에도 불구하고 항상 높은 효과를 보임

작업/도메인의 성능은 단순히 저품질 데이터를 얼마나 제거했느냐에만 영향을 받는 것이 아님
최고 또는 중간 품질의 데이터가 특정 측정 차원에서 얼마나 많이 대표되는지도 중요한 요소

ValueError: The input size is not aligned with the quantized weight shape. This can be caused by too large tensor parallel size.

4n3mone — Tue, 18 Jun 2024 17:27:11 +0900

에러

ValueError: The input size is not aligned with the quantized weight shape. This can be caused by too large tensor parallel size.

문제상황

GPTQ (8bit) 로 양자화한 QWEN2-72B를 vllm으로 서빙하려고 할 때 해당 에러 발생

llm = LLM(model=model_path, tokenizer=model_path, tensor_parallel_size=2, quantization='gptq')

tensor_parallel_size를 1,2,4 무엇으로 해도 똑같은 에러가 발생함

원인

모델의 intermediate_size가 quantized group_size* tensor-parallel-size 의 배수가 되어야 한다.

QWEN2의 intermediate_size는 29568이고, 나는 GPTQ의 group_size를 128로 양자화했었다.(거의 모든 예시 코드에서 128로 설정함)

29568/128 = 231이고, 이는 1,2,4 아무것으로도 나누어지지 않는다.

해결방법

group_size=64 로 다시 GPTQ 양자화를 하여 해결하였다.

ref

https://github.com/vllm-project/vllm/issues/2699

[NLP] PROMETHEUS: INDUCING FINE-GRAINEDEVALUATION CAPABILITY IN LANGUAGE MODELS 논문 간단 리뷰

4n3mone — Wed, 10 Apr 2024 22:39:17 +0900

PROMETHEUS: INDUCING FINE-GRAINEDEVALUATION CAPABILITY IN LANGUAGE MODELS

깃허브

데이터셋

FLASK 논문을 쓴 연구진들이 후속(?) 논문으로 작성한 Fine-grained LLM Evaluator 논문으로 ICLR 2024에 accept 되었습니다.

GPT-4와 같은 priority LLM을 생성된 텍스트에 대한 평가자로 쓰는 것은 다음과 같은 한계가 있음

- Closed-Source 생태계 : 공정하지 못할 수 있고, 중립성과 자율성 부족

- Uncontrolled visioning : 버전이 바뀌면 생성 결과를 재현하기 어려움

- prohibited costs : 가격 문제

따라서 연구진들은 오픈 소스, 재현 가능, 운용이 비싸지 않은 13B 프로메테우스 언어모델을 공개함

Feedback Collection 데이터셋

프로메테우스 모델은 LLaMA-2-chat 13B 모델을 Feedback Collection 데이터셋으로 파인튜닝한 모델임

데이터셋을 구축할 때 연구자들이 신경 쓴 것은 다음의 4가지이다

1. 최대한 많은 레퍼런스를 데이터셋에 포함시킬 것

2. 답변 길이에 따라 점수가 편향되는것을 방지하기위해 데이터셋에 포함되는 답변의 길이를 통제함

3. 데이터셋 내에 포함되는 점수의 분포를 균일하게 함

4. 지침과 대응의 범위를 사용자가 LLM과 상호작용하는 현실적인 상황으로 제한함

데이터셋의 입력 부분

- 인스트럭션 : LLM에게 입력되는 프롬프트

- 평가해야 할 응답 : 인스트럭션에 대한 응답

- 점수에 대한 기준 : 평가 기준 + 1~5점을 주는 기준 두 가지로 구성되어 있음

- 레퍼런스 응답 : 5점을 받는 응답의 예시

데이터셋의 출력 부분

- 피드백 : 응답이 왜 해당 점수를 받아야 하는지에 대한 근거(rationale). CoT와 유사한 형식을 띠고 있음

- 점수 : 1~5 사이의 정수 점수

데이터셋 구축 과정

1. Seed Rubric(시드 평가기준) 제작

: 사람이 직접 fine-grained 평가기준을 50개 제작함

2. gpt-4를 통한 증강

시드 평가기준을 gpt-4를 통해 강건하고 다양한 1000개의 평가 기준으로 증강함 (In-Context-Learning 사용)

먼저 새로운 기준을 여러 개 만들고(brainstorming), 그것을 다시 의역(paraphrasing)해서 합치는 식으로 모델이 일반화할 수 있도록 함

총 1000개의 기준을 만듦

3. 기준에 부합하는 인스트럭션 제작

: gpt-4에게 평가 기준과 연관성 있는 인스트럭션을 제작하도록 해 총 2만개(각 기준당 20개) 제작함

4. 점수에 맞는 응답 예시 제작

: gpt-4에게 평가 기준의 각 점수에 부합하는 응답 예시를 생성하도록 함

결과적으로는 20개의 인스트럭션, 5개의 점수&피드백 조합을 가지고 있는 기준이 1000개로 데이터셋이 구성됨

Feedback Collection 데이터셋으로 llama-2-chat 7b와 13b를 훈련시켜 프로메테우스 모델을 만듦

(현재 허깅페이스에 MoE 8*7B도 올라와있음)

성능

성능을 측정하기 위해 데이터셋과 동일한 구조로 이루어진 Feedback Bench(데이터셋에 있는 seen 1000개, 없는 unseen 50개 중 unseen 만 사용)를 제작하였음

거기에 더해 vicuna-bench와 mt-bench에서 각각 80개 프롬프트 추출해서 각 프롬프트에 맞는 기준 제작해서 사용하고,

기존 flask 데이터셋에서 200개 프롬프트 추출하여 사용했음

또한, 단순한 점수를 매기는 언어 모델이 아닌 rewarding model로써의 사용 가능성도 가늠하기 위해 HHH alignment나 MT Bench Judgement와 같은 데이터셋에서도 실험을 진행함

인간이 매긴 평가 결과와의 피어슨 상관계수가 gpt-4와 동등한 수준임

평가 피드백 퀄리티에 대한 win-rate 또한 gpt-4를 상회함

각 벤치에 관해 gpt-4가 평가한 점수와 프로메테우스가 평가한 점수의 상관계수

llama-2 coarse 모델은 FLASK 데이터셋의 일부만 샘플링해서 파인튜닝한 llama-2 모델임

RLHF에 활용될 수 있는 ranking grading scheme 데이터셋에서도 괜찮은 성능을 보임

-> 이것을 위한 데이터로 튜닝되지 않았음에도 이런 성능을 보이는것에 주목

[NLP]FLASK: FINE-GRAINED LANGUAGE MODELEVALUATION BASED ON ALIGNMENT SKILL SETS 논문 리뷰

4n3mone — Mon, 25 Mar 2024 21:47:23 +0900

FLASK: FINE-GRAINED LANGUAGE MODEL EVALUATION BASED ON ALIGNMENT SKILL SETS

Github

Demo

이번에 소개드릴 논문은 FLASK라는 논문으로, ICLR 2024 Spotlight에 선정된 논문입니다. 저와 같이 LLM Evaluation에 관심을 갖고 계신 분들은 이 논문을 출판한 KAIST의 서민준 교수님 연구실의 다른 페이퍼들을 팔로잉 해보시는 것도 좋을 것 같습니다.

개요

LLM의 생성물이 인간이 원하는 방향과 얼마나 일치(align)하는 지 평가하는 것은 다음 의 두 가지 특징 때문에 한계점을 가지고 있습니다.

instrucion은 여러 능력의 조합을 요구하기 때문에 단일 메트릭으로 측정하기에는 한계가 있다.
instruction들은 task에 구애받지 않기 때문에 고정된 metric set으로 평가하는 것은 비현실적이다.

현재 LLM의 평가는 ROUGE, 정확도와 같은 정량적이고 자동적인 평가방식이나 인간(혹은 언어모델)의 선호도를 전반적으로 평가(flan, chatbot-arena) 하는 평가 방식중 하나를 채택하고 있습니다. 그러나 이 논문에서는 두 가지 방법 모두 한계점이 있다고 지적합니다.

여러 메트릭을 채택하는 벤치마크는 각각이 다른 기술, 도메인 및 난이도를 대상으로 하기 때문에 확장성이 없습니다. 또한, 이러한 자동 메트릭에 의존하면 해석 가능성과 신뢰성이 제한되며, 자동 메트릭이 표면 형태에 민감하기 때문에 작업별 분석만 가능합니다. 게다가, 선호도에 기반한 단일 점수를 할당하는 것만으로는 응답을 평가할 여러 기준이 있을 수 있기 때문에 온전한 평가를 할 수 없습니다.

따라서 이 논문에서는 다양한 관점에서 모델의 생성 결과를 평가할 수 있는 세분화된 평가 기준(Fine-grained Criteria)의 필요성을 주장합니다. 최근 여러 평가 세트를 복합적으로 사용해서 LLM을 평가하거나 세분화된 평가 기준을 사용하는 연구가 늘어나곤 있지만, 이 논문에서는 그런 연구들 또한 고정된 평가 세트를 사용하고 있기 때문에 한계점이 있다고 지적합니다.

기존 평가 방식 (a) / FLASK의 평가 방식 (b)

FLASK에서는 4가지의 주요 능력을 정의하고 총 12개의 세분화된 능력을 정의함으로써 복합적인 평가 프로토콜을 구축하고 태스크에 구애받지 않는 능력 평가를 할 수 있도록 시도했습니다. 주요 능력과 세분화된 능력은 각각 다음과 같습니다.

Primary Abilities	fine grained skills
논리적 사고(Logical Thinking)	Logical Correctness, Logical Robustness, Logical Efficiency
배경 지식(Background Knowledge)	Factuality, Commonsense Understanding
문제 해결(Problem Handling)	Comprehension, Insightfulness, Completeness, Metacognition
사용자와의 정렬 (User Alignment)	Conciseness, Readability, Harmlessness

데이터셋 구축 : 평가 항목 수집

FLASK 평가 데이터셋은 다양한 도메인, 난이도, 태스크를 포함하는 122개의 자연어처리 데이터셋으로부터 1740개의 평가 항목을 수집했습니다. 다양성을 위해서 단일 태스크 평가 데이터셋으로부터는 20개를 초과하여 수집하지 않았다고 합니다.

수집한 평가 항목에 대해 다음과 같은 라벨링을 언어모델을 통해 수행했습니다.

instruction을 수행하기 위해 필요되는 skill
target domain
instrruction의 난이도

이 연구에서는 언어 모델의 라벨링에 정당성을 부여하기 위해 200개를 우선 샘플링한 후 인간 평가자와 언어 모델이 라벨링을 하도록 한 후, 피어슨 상관계수를 측정하여 인간과 언어 모델의 평가가 같은 경향성을 가진다고 판단하여 모든 데이터셋에 대해 gpt-4가 라벨링을 수행하였습니다.

첫 번째 항목: Instruction을 평가하기 위해 요구되는 핵심적인 능력 3가지를 12개의 세분화된 능력중에 고름

두 번째 항목 : 위키피디아 분류에서 따온 다음의 10가지 도메인 중 한 가지를 고름.

Humanities, Language, Culture, Health, History, Natural Science, Math, Social Science, Technology, and Coding

세 번째 항목 : 다음과 같은 기준을 적용해 1~5의 점수로 분류합니다.

simple lifestyle knowledge(1), advanced lifestyle knowledge(2), formal education knowledge(3), major-level knowledge(4), and expert-level knowledge(5)

데이터셋 구축 : 평가 점수 라벨링

이렇게 구축한 평가 데이터셋에 대해 인간 평가자와 언어모델 평가자는 평가 대상 모델이 평가 항목 instruction에 대해서 작성한 답변, 3개의 세분화된 능력에 대한 평가 기준과 함께 전달받고 점수를 평가하게 됩니다.

언어 모델이 평가할 경우 평가 전에 Chain-of-Thought(CoT) Prompting 기법을 응용하여 점수에 대한 근거도 같이 작성하도록 유도했습니다.

FLASK-HARD

난이도 평가에서 5점을 받은 89개 항목은 따로 분류하여 FLASK-HARD 서브셋으로 분류하였고, 위에서 평가한 능력별 점수(skill-specific score) 대신 항목 특화 점수(instance-specific score)를 도입하였습니다.

항목 특화 점수는 각 평가 항목에 대해 언어 모델로 instruction을 수행하기 위해 지켜져야 할 체크리스트(각 세부능력과 연관된)를 생성하고, 이 체크리스트를 얼마나 지켰는지에 대한 점수를 매기는 방식으로 매겼습니다.

FLASK의 신뢰성 평가

이 논문에서는 대부분의 라벨링을 언어 모델을 통해 진행했기 때문에, 4장에서는 FLASK 평가 데이터셋에 대한 신뢰성을 검증합니다.

인간과 언어모델의 평가 결과 유사성

FLASK 평가 데이터셋에 대한 언어모델의 대답을 평가한 인간과 언어모델의 평가 경향은 대체로 유사했으나, 두 평가자 모두 완벽하진 않았습니다.

인간의 경우 중간 점수에 평가가 쏠리는 경향(central tendency bias)을 보였고, 이에 따라 평가 점수가 정규분포에 다까웠습니다. 또한 코드와 같은 특정 도메인에서는 지식을 활용하기 때문에 더 쉽게 피로를 느꼈다고 합니다.

모델 평가자의 경우 길이가 길고 장황한 응답에 높은 점수를 주는 편향이 있기 때문에 인간과 다르게 BARD보다 GPT3.5에 더 높은 점수를 부여했습니다.

FLASK 평가 결과 분석

현재 오픈소스 언어 모델들은 특정 능력에서 주요 모델들보다 확연히 뒤떨어지는 성능을 보인다.

이 논문은 23년 7월에 공개되었다는 것을 참고하세요.

오픈 소스 모델과 closed 모델은 Problem Handling, User Alignment에서는 큰 차이가 없었으나, Logical Thinking과 Background Knowledge에서는 차이가 두드러졌습니다.

특정 스킬들은 모델 사이즈에 많이 구애받는다.

TULU라는 모델을 대상으로 7,13,30,65B로 사이즈를 올리면서 FLASK 평가를 실행한 결과 전반적으로 사이즈가 커질수록 성능이 좋아졌으나, Logical Robustness, Logical Correctness, 그리고 Logical Efficiency에서는 그 증가폭이 훨씬 컸습니다.

반면에 특정 스킬들은 일정 사이즈 이상 올라가면 성능이 크게 차이나지 않는 것 또한 발견할 수 있었습니다.

(Logical Efficiency, Conciseness, , Insightfulness, Metacognition)

지식과 난이도 측면에서는, instruction의 난이도가 쉬울수록 성능에 모델 크기가 영향을 많이 준다고 합니다.

FLASK-HARD에 관해서는 주요 모델들도 성능이 좋지 않다.

읽으면서 느낀 점

- 12개의 세부 스킬에 대한 1~5점 평가 기준과 프롬프트가 상세히 적혀있는게 인상적이었고, 저도 추후 프로젝트 등지에서 유용하게 써먹을 것 같습니다.

- 하루가 멀다 하고 새로운 모델 학습 방법론, 모델 구조가 쏟아져 나오는 시기라서 그런지, 1년이 채 되지 않은 이 논문에 등장하는 언어 모델들 또한 조금은 outdated된걸로 느껴져서 아쉬웠습니다.(최근 논문들에서 거의 스탠다드 모델이 된 llama-2가 없는 것이 큰 것 같습니다)

데모 페이지에서라도 최근 언어 모델들을 많이 업데이트 해주셨으면 좋았겠다는 생각이 들었습니다.

- 평가 데이터셋과 프로토콜이 아무리 체계적이고 인간과 align된 평가를 한다고 하더라도, 실제로 그것을 이용하는 곳이 많지 않으면 의미가 많이 퇴색되는 것 같습니다. 앞으로도 LLM Evaluation의 standard라고 칭할 수 있는 패러다임이 등장할 수 있을지 여부가 궁금합니다.

[NLP]MoE(Mixture of Experts)과 Mixtral 살펴보기

4n3mone — Thu, 8 Feb 2024 17:15:45 +0900

MoE(Mixture of Experts)는 최근 DPO, DUS 등과 더불어 주목받고 있는 LLM의 성능을 높이기 위해 사용되는 방법론 중 하나입니다.

23년 12월에 Mixtral 8x7B가 공개되었고, 이 모델이 llama2-70B를 상회하는 성능을 보임에 따라 다른 많은 오픈소스 모델에서도 MoE 방법론을 채택하기 시작했습니다.

24년 2월 기준 오픈소스 리더보드 순위, 상당 수의 모델이 MoE 구조를 채택함

본 포스트에서는 Mixtral 논문과 논문에서 다루고 있는 MoE 관련 개념을 다루도록 하겠습니다.

MoE(Mixture of Experts)

*MoE 개념은 1991년에 처음 제시되었고 SVM, LSTM등의 고전적(?)인 기법에 먼저 사용되었으나 본 포스트에서는 트랜스포머 구조에서 적용되는 MoE를 위주로 다루겠습니다.

Dense VS Sparse Expert

일반적인 Dense 트랜스포머 구조(왼쪽)에서는 토큰이 입력된 후 셀프 어텐션 연산을 거치고 나서 똑같은 FFN(Feed Forward network)으로 전달됩니다. 반면 Sparse Expert 모델 구조에서는 각 토큰이 다른 FFN으로 라우팅되어 연산됩니다. 여기서 각각의 FFN을 Expert라고 정의합니다. 이와 같은 구조를 적용하게 되면 Dense Model과 비교해서 연산량은 유사하지만, 각 토큰에 대해 더 특화된 파라미터(unique parameter)를 적용하여 성능을 향상시킬 수 있습니다. 이와 같은 과정은 학습, 추론 두 단계에서 모두 적용됩니다.

라우팅 알고리즘과 Top-K 라우팅

라우팅 알고리즘이란 주어진 토큰을 어느 expert에 보내는지 결정하는 것을 의미하고, 이를 위해 학습 가능한 레이어가 이 과정을 담당합니다. 이것을 라우터(Router) 혹은 게이트 레이어(Gate Layer)라고 부릅니다.

라우터는 각 Expert당 하나의 벡터 값으로 이루어져 있으며, 토큰 입력이 들어오면 토큰의 임베딩 벡터와 각 expert를 담당하는 벡터의 합성곱(dot product)을 계산한 후(그림에서 Router Scores부분), 소프트맥스 함수를 통해 어느 expert를 사용할 지 결정하게 됩니다. (그림에서 Nomalized Router Scores 부분)

토큰을 몇 개의 expert에 라우팅하는지에 따라 Top-K 라우팅 알고리즘이라고 칭합니다. Top-1 라우팅의 경우 라우터 스코어가 가장 높은 expert에게 할당하고, Top-2 라우팅은 높은 점수 순으로 2개의 expert에게 토큰을 보내고 각 레이어를 통과한 값들이 가중합되어 다음 레이어로 보내게 됩니다.

이외에도 다양한 라우팅 알고리즘이 존재하지만 본 포스트에서 다루고 있는 Mixtral은 Top-2 라우팅 알고리즘을 채택하였으므로 여기서는 다루지 않겠습니다.

MoE 모델의 특징

MoE 구조로 이루어진 모델은 다음과 같은 특징들을 지닙니다.

1. 같은 파라미터를 가진 Dense 모델과 비교해서 훈련과 추론 과정에서 적은 파라미터를 사용하며 그만큼 속도가 더 빠르고, 비용 측면에서 효율적입니다.

2. 많은 개수의 GPU/TPU 를 가지고 모델을 학습/추론할 때, 데이터 분산을 활용할 때 더욱 효과적입니다.

3. (dense 모델과 비교하여) 학습 과정이 불안정할 때가 있습니다.

4. (dense 모델과 비교하여) 새로운 도메인에 맞추어 파인 튜닝 되었을 때 성능이 떨어질 때가 있습니다.

Mixtral 8x7B

Mixtral 8x7B는 Mistral 7B의 구조를 기준으로 8개의 expert(FFN Block)을 사용하는 MoE 모델입니다.

라우팅 알고리즘으로는 Top-2 라우팅을 채택하였으며, 기존 트랜스포머 구조의 FFN Sub-block을 8개의 SwiGLU sub-block 구조의 expert로 대체하였습니다.

위 수식은 n개의 expert로 이루어진 MixTral 구조의 토큰 x에 대한 출력값 y 계산 수식입니다.

각 expert에 대한 routing score를 계산하고 소프트맥스함수를 거친 값이 Top 2안에 든다면 점수를 반영하여 expert에게 넘어가고, 그렇지 않다면 무시됩니다.

코드 형식으로 살펴보면 다음과 같습니다.

import dataclasses
from typing import List

import torch
import torch.nn.functional as F
from simple_parsing.helpers import Serializable
from torch import nn


@dataclasses.dataclass
class MoeArgs(Serializable):
    num_experts: int
    num_experts_per_tok: int


class MoeLayer(nn.Module):
    def __init__(self, experts: List[nn.Module], gate: nn.Module, moe_args: MoeArgs):
        super().__init__()
        assert len(experts) > 0
        self.experts = nn.ModuleList(experts)
        self.gate = gate
        self.args = moe_args

    def forward(self, inputs: torch.Tensor):
        # Step 1 : Expert로 보내기 위한 gate linear layer 통과
        gate_logits = self.gate(inputs)
        # Step 2 : gate logits에 대해 Top-K개 Expert 뽑기
        weights, selected_experts = torch.topk(gate_logits, self.args.num_experts_per_tok)
        # Step 3 : Top-K개의 experts에 대한 weights 구하기 (by softmax)
        weights = F.softmax(weights, dim=1, dtype=torch.float).to(inputs.dtype)
        results = torch.zeros_like(inputs)

        # N개의 experts 돌면서 순회
        for i, expert in enumerate(self.experts):
            # Step 4 : i_th expert에 해당하는 tokens 뽑기
            batch_idx, nth_expert = torch.where(selected_experts == i)
            # Step 5 : i_th expert에 해당하는 token들 i_th expert에 통과
            # Step 6 : 통과된 결과값에 expert weight 반영
            results[batch_idx] += weights[batch_idx, nth_expert, None] * expert(
                inputs[batch_idx]
            )
        return results

원본 코드 : 미스트랄 깃허브

주석 : 김수환님 블로그

사전학습된 Mixtral을 Instruction+Feedback 데이터셋과 DPO 방법으로 파인튜닝한 Mixtral-Instruct는 mixtral 논문 작성일 기준으로 가중치가 공개된 LLM 중 MT-Bench에서 가장 높은 성능을 보여주었습니다.

(포스트 작성 시점에서는 mistral사의 새 모델인 mistral-medium 모델보다 뒤처지지만, API based 모델이므로 여전히 open weight 중에서는 가장 높은 점수입니다.)

라우팅 분석

Mixtral 연구진들은 각각의 expert가 도메인별로(수학, 생물학, 철학 등) 특화되어있는지를 검증하기 위해 Pile 데이터셋을 활용해 실험했습니다.

실험 결과, 라우터들이 각각의 expert에게 토큰을 할당하는 패턴이 arxiv 논문 문서들,생물학 문서들(PubMed), 철학 문서들(PhilPapers)에서는 굉장히 유사하게 나타나는 반면, 수학 도메인 문서에서는 다른 분포를 가지는 것을 확인할 수 있었습니다.

각 토큰이 어느 expert에게 라우팅되는지를 색으로 칠해 나타냄

그러나 코드, 수학문제, 자연어 구문 등의 다양한 도메인의 토큰이 어느 expert에게 할당되는지를 분석한 결과 각각의 expert들이 선택되는 기준은 도메인 그 자체보다는 문서에서 각 토큰이 가지는 구문적 성질에 더 좌우받는다는 것을 관측할 수 있었습니다. 그리고 이러한 현상은 입력과 출력에 깊게 관여받는 첫 번째 레이어와 마지막 레이어에서 더욱 두드러지게 나타났습니다.

Refernce

Mixtral of Experts 논문

A REVIEW OF SPARSE EXPERT MODELS IN DEEP LEARNING 논문

김수환님 블로그 포스트

참고

Phixstral : phi-2 모델에 MoE 방법론을 적용한 모델

허깅페이스 MoE모델 모음

[NLP]OPENCHAT: ADVANCING OPEN-SOURCE LANGUAGEMODELS WITH MIXED-QUALITY DATA 논문 리뷰

4n3mone — Thu, 9 Nov 2023 14:58:24 +0900

논문 링크

허깅페이스

깃허브

ChatGPT와 유사한 성능이 나오는 최초의 7B 언어모델
다양한 벤치마크에서 오픈소스 언어 모델 중 1위 기록중

OpenChat 소개

최근 LLM을 파인튜닝하는 방법론에는 SFT(Supervised Fine-Tuning)과 RLFT(Reinforcement Fine-Tuning)이 있는데, SFT는 데이터의 품질을 보장할 수 없다는 단점, RLFT에는 데이터를 구축하는 데에 비용이 많이 들어간다는 단점이 존재한다. OpenChat은 이러한 단점을 극복하기 위해 데이터 소스에 따라 강화학습 보상을 다르게 부여하는 C(onditioned)-RLFT 방법론을 제시한다. OpenChat13B 모델은 오픈 소스 13B 모델 중에서 가장 좋은 성능을 보였다.

SFT와 RLFT

인스트럭션 xi와 응답 yi로 구성된 대화 데이터셋

사전학습된 언어 모델

파인튜닝된 언어 모델

Supervised Fine-Tuning(SFT)

SFT는 대화 데이터셋을 MLE와 같은 지도학습으로 파인튜닝하는 기법이다. 파인튜닝한 모델이 높은 성능을 내기 위해서는 데이터셋 D가 굉장히 높은 품질을 가져야 하는데, 이는 SFT 방법에서는 데이터셋의 모든 데이터를 동등하게(uniformly) 다루기 때문이다. 그러나 SFT를 하기 위한 품질 높은 데이터셋을 구축하는 것은 굉장히 비용이 많이 드는 일이다. 따라서 현존하는 대부분의 오픈 소스 LLM들은 비용 문제로 인해 품질을 보장할 수 없는 데이터로 이루어진 대화 데이터를 파인튜닝에 사용한다. 이는 필연적으로 생성 결과물의 품질 하락으로 이루어질 수 밖에 없다.

Reinforcement Learning Fine-Tuning(RLFT)

RLFT는 인간 피드백이나 사전에 정의된 classifiers에 따라서 보상을 부여하는 구조로, 이 보상을 최대화하는 식으로 LLM을 파인튜닝한다. 보상 r(x,y)는 바람직한 반응에는 높은 값을, 나쁜 반응에는 낮은 값을 할당하며 파인튜닝된 LLM을 학습시킨다. 가장 많이 사용하는 강화학습을 활용한 LLM 파인튜닝 프레임워크는 KL-정규화 RL이다. 이는 파인 튜닝된 LLM에 KL 패널티를 부여하여 데이스 모델로부터 너무 멀어지지 않도록 한다. (수식에서 빼는 부분) 이는 강화학습의 보상을 최대화 하려나 원래 모델의 분표가 망가지는 (distribution collapse)일을 방지한다. RLFT에서 중요한 것은 높은 퀄리티의 보상 신호이다. 그러나 인간의 피드백을 모델을 학습시킬 수 있을 만큼 충분히 모으는 것은 비용이 많이 드는 일이고, 이는 오픈 소스 모델이 강화학습 기법을 학습에 도입하는 것을 망설이게 만든다.

OpenChat

OpenChat은 위에서 소개한 방법들의 한계점을 극복하기 위해 완성도가 높지 않은 (sub-optimal) 데이터셋과 높은 퀄리티/전문가에 의해 제작된 데이터셋 모두를 활용하여 파인튜닝할 수 있는 방법론을 사용하였다. 가장 유명한 SFT 데이터셋인 ShareGPT (vicuna를 학습시킬 때 사용됨)은 gpt-4와 gpt-3.5 두 가지 소스로부터 가져온 데이터로 구성되어 있는데, 각각 높은 퀄리티 데이터셋과 낮은 퀄리티 데이터셋으로 간주할 수 있다.

데이터의 퀄리티 차이만으로 정확한 보상 신호(fine-grained reward signals)를 주는 것은 불가능하지만, 내재적이거나(implicit) 약하고 거친 보상신호(coarse-grained reward imformation)로는 취급할 수 있다. 따라서 본 논문에서는 파인튜닝된 언어모델에 데이터 소스를 반영한 새로운 정규화 방법을 적용하는 것을 제안한다.

Class-Conditioned Dataset and Rewards

전문가 데이터셋

차선책 데이터셋

위의 두 데이터셋의 소스를 라벨링하여 새로운 데이터셋을 구축한다. 이 데이터셋으로 다음과 같은 거친 보상 신호를 인코딩 할 수 있다.

차선책 데이터에 대한 보상을 전문가 데이터셋에 대한 보상보다 낮게 설정함으로써 파닝튜닝한 모델이 높은 퀄리티의 응답에 가깝게 학습되도록 할 수 있다.

Fine-Tuning via C(onditioned)-RLFT

위의 식에서 부여하는 보상이 매우 거친 방식으로 책정되었기 때문에 추가적인 정보를 제공해야 한다. 오프라인 RL의 목표 조건 지도 학습에서 영감을 얻은 C-RLFT를 소개합니다. 이는 목표/결과 조건 정책에서 적절한 정보를 조건화함으로써 최적화된 성능을 복구할 수 있다. C-RLFT의 핵심은 2가지이다.

LLM을 파인튜닝 할 때 class-condition 에 따라 하는 것
RL 정규화 시 원래의 사전학습 모델 대신 클래스 정보를 답고 있는 모델을 사용하는 것

Class-conditioned policy

현존하는 방법으로 바로 파인튜닝하는 것 대신 다음과 같이 데이터들의 소스를 반영한 토큰을 삽입하는 방법을 사용함

여기에서 <|end.of.turn|> 토큰은 EOS 토큰과 유사한 기능을 하나, 사전학습 시 학습한 EOS 토큰과 모델이 착각하지 않도록 새로 추가한 것이다.

Policy optimization

C-RLFT에서는 거칠게 정제된(coarse-grained) 데이터 소스 보상 체계를 만들기 위해 위에서 설명했던 KL 정규화 강화학습 식에서 약간의 수정을 가했다.

위의 원본 KL Regularized RL 식과 다른 점은 사전학습 모델 자리에 class-conditioned 데이터셋으로 학습된 모델이 들어갔다는 점이다. 이와 같은 구조를 채택한 이유는 다음과 같다.

현존하는 대부분의 오픈 소스 사전학습 LLM들은 API 기반 모델들(gpt-4 등)에 비해 성능이 좋지 못하다. 이는 곧 gpt-3.5로부터 모은 D_sub 데이터조차 사전학습 모델보다 퀄리티가 높다는 것을 의미한다.
class-conditioned 방법으로 학습한 모델은 데이터 소스에 관한 추가 정보를 담고 있어서 데이터의 퀄리티를 차별화 할 수 있다.

본 방법론의 목적함수는 다음과 같고, KL divergence의 값을 최소화하는 방향으로 학습된다.

이 목적함수는 정확한 보상 라벨링을 요구하지 않으며, 대신 모델의 생성물 결과의 좋고 나쁨을 구별하는 방법을 사용한다. 또한 사전학습된 모델을 사용하지 않음으로써 PPO를 사용하는 다른 강화학습 방법론들과 다르게 사전학습 모델을 로드할 필요가 없고, 그만큼 컴퓨팅 자원을 아낄 수 있다.

Model inference

높은 퀄리티의 결과물을 얻기 위해, 학습 시 사용했던 GPT-4 프롬프트를 추론 때에도 사용한다.

모델 실험

사용된 벤치마크

AlpacaEval
MT-bench
Vicuna-bench
AGIEval

베이스라인 모델

gpt-4
gpt-3.5
claude
llama-2-chat (SFT, RLHF)
wizardlm, guanaco, ultralm, vicuna (SFT)

gpt에 의한 평가 벤치마크 실험

AlpacaEval, MT-bench, Vicuna-bench와 같은 벤치마크들은 gpt-4 나 alpaca_eval_gpt와 같은 언어 모델을 평가자로 사용하고, 인간 평가와 비교했을 때 신뢰성이 있다고 주장되었다. 평가 결과 같은 13B수준 모델들 중에서는 vicuna-bench를 제외한 2개의 벤치마크에서 가장 좋은 성능을 보였으며, 파라미터가 더 많은 모델들과도 경쟁할만한 결과를 보였다.

MT-bench 벤치마크 비교 결과 API 기반 언어 모델들보다는 떨어지지만 오픈 소스 언어 모델중에서는 가장 좋은 걸 확인할 수 있었다. (심지어 70B 모델보다도)

일반화 성능을 확인하기 위해 AGIEval 벤치마크 점수를 확인 결과 llama-2-13b보다 평균 점수가 더 높은 것을 확인할 수 있다. (다른 베이스라인 모델들은 그렇지 못함)

(mixed-quality data, ablation studies 생략)

Revealing secrets of C-RLFT

ablation studty에서 사용한 SFT 학습 방법만 사용한 openchat-13b와 C-RLFT를 적용한 원래 버전을 비교하기 위해 2000개의 gpt-4, gpt-3.5 대화를 무작위 선별해 임베딩을 추출했다. 그 후 UMAP 기법을 사용하여 차원축소 후 시각화 결과 두 가지 모델에서 모두 클러스터터가 어느정도 생성되어 있지만 SFT버전 모델의 임베딩은 대화 소스의 구분이 없는 반면 C-RLFT 버전은 데이터 소스에 따라 임베딩이 확연하게 다르게 나타나는 모습을 보인다.

추론 단계에서 사용한 class-conditioned prompt 를 바꾸어서 실험해본 결과 성능이 차이난다는것을 확인했다. 이는 곧 openchat 모델이 데이터의 다른 품질을 구분할 수 있으며 또한 gpt-4에서 얻은 데이터가 gpt-3.5에서 얻은 데이터보다 월등하다는 것 또한 의미한다.

팔딱팔딱 자연어

진짜로 '잘' 아세요? Attention & Self Attention (feat. 혁펜하임의 <Easy! 딥러닝>)

들어가며

추천드리는 이유 1. AI를 쉽게 설명할 필요가 있을 때

추천드리는 이유 2. '진짜로' 잘 알고 있는지 확인하고 싶을 때

마치며

[NLP] solar-pro-preview살펴보기

들어가며

Spec

모델링 코드 살펴보기

한국어는 어느정도 할까?

마치며

[NLP] Large Language Models are Superpositions of All Characters: AttainingArbitrary Role-play via Self-Alignment 논문 리뷰

개요

Abstract

Role-Playing이란

Self-Algnment란

Ditto Method

1. 캐릭터 지식 수집

2. Dialogue Simulation

2.1. Query Simulation

2.2. Response Simulation

3. SFT

4. 평가

4.1. Consistent Role Identity

4.2. Accurate Role-related Knowledge

4.3. Unknown Question Rejection

쿼리 품질 분석

지식 주입 분석

교차 지도(cross-supervision) 학습 분석

결론

chatglm LoRA 튜닝하기 (LoRA 안되는 LLM 모델 학습하는 방법)

[NLP] A Pretrainer’s Guide to Training Data:Measuring the Effects of Data Age, Domain Coverage,Quality, & Toxicity 논문 리뷰

Abstract

실험에 사용된 모델 & 데이터셋

데이터 평가 척도

성능 평가 척도

Impact of Dataset Age on Pretrained Models

Impact of Quality & Toxicity Filters on Pretrained Models

Impact of Domain Composition on Pretrained Models

Discussion

ValueError: The input size is not aligned with the quantized weight shape. This can be caused by too large tensor parallel size.

에러

문제상황

원인

해결방법

ref

[NLP] PROMETHEUS: INDUCING FINE-GRAINEDEVALUATION CAPABILITY IN LANGUAGE MODELS 논문 간단 리뷰

Feedback Collection 데이터셋

성능

[NLP]FLASK: FINE-GRAINED LANGUAGE MODELEVALUATION BASED ON ALIGNMENT SKILL SETS 논문 리뷰

개요

데이터셋 구축 : 평가 항목 수집

데이터셋 구축 : 평가 점수 라벨링

FLASK-HARD

FLASK의 신뢰성 평가

FLASK 평가 결과 분석

[NLP]MoE(Mixture of Experts)과 Mixtral 살펴보기

MoE(Mixture of Experts)

Mixtral 8x7B

[NLP]OPENCHAT: ADVANCING OPEN-SOURCE LANGUAGEMODELS WITH MIXED-QUALITY DATA 논문 리뷰

OpenChat 소개

SFT와 RLFT

Supervised Fine-Tuning(SFT)

Reinforcement Learning Fine-Tuning(RLFT)

OpenChat

Class-Conditioned Dataset and Rewards

Fine-Tuning via C(onditioned)-RLFT

Class-conditioned policy

Policy optimization

Model inference

모델 실험

사용된 벤치마크

베이스라인 모델

gpt에 의한 평가 벤치마크 실험

Revealing secrets of C-RLFT