분류 전체보기 16

[NLP] solar-pro-preview살펴보기

들어가며  지난 9월 11일 업스테이지에서 solar-pro-preview, solar-pro-preview-instruct 가 오픈소스 모델로 출시되었습니다. 업스테이지에서 처음으로 공개했던 모델 SOLAR 10.7B보다 2배 이상 큰 파라미터 수를 가지고 있으며, 단일 GPU에서 효율적으로 실행할 수 있다고 합니다. 본 포스트에서는 solar-pro-preview 모델의 특징에 대해 살펴보겠습니다. Specsolar-pro-preview 모델의 간략한 스펙은 다음과 같습니다. # params22.1Bcontext window4k지원 언어en context window가 최근 출시되는 다른 오픈소스 모델에 비해 꽤나 짧다는 점과, 지원 언어가 영어 한 가지라는 점이 눈에 띄네요. 이 두 가지 사항 모두..

자연어처리 2024.09.21

[NLP] Large Language Models are Superpositions of All Characters: AttainingArbitrary Role-play via Self-Alignment 논문 리뷰

arxivgithub  개요이 논문은 LLM이 Role-Playing을 더 잘할 수 있도록 하는 방법론 Ditto를 설명하고 있습니다.알리바바 그룹의 qwen2에 적용되어 주목받기도 하였습니다. Abstract DITTO는 LLM의 역할 수행 능력을 강화하기 위해 캐릭터 지식을 활용한 셀프 얼라인먼트 방법을 제시하며, 4000개의 캐릭터로 구성된 대규모 역할 수행 훈련 세트를 생성하여 모델을 fine-tuning합니다.평가 결과, DITTO는 다양한 파라미터 스케일에서 일관된 역할 정체성을 유지하며, 모든 오픈소스 역할 수행 기준을 능가하는 성능을 보여줍니다.역할 수행 도메인에서 최초로 교차 지도(cross-supervision) 정렬 실험을 통해, LLM의 본질적인 능력이 역할 수행 지식을 제한하지만,..

자연어처리 2024.08.13

chatglm LoRA 튜닝하기 (LoRA 안되는 LLM 모델 학습하는 방법)

THUDM/glm-4-9b-chat 은 LogiKor 리더보드에서 공개 모델 중 상당한 순위를 자랑하는 중국산 모델인데요,  문제는 이 모델은  huggingface transformer 라이브러리에 등록되어있지 않아 인터넷에 공개되어있는 여러 예제 코드가 작동하지 않을 때가 많습니다. peft_config = LoraConfig( task_type=TaskType.CAUSAL_LM, inference_mode=False, r=8, lora_alpha=32, lora_dropout=0.1, target_modules=["q_proj", "v_proj"],)model = get_peft_model(model, peft_config) 위의 코드는 많이들 사용하는 LoRACon..

공부 2024.07.09

[NLP] A Pretrainer’s Guide to Training Data:Measuring the Effects of Data Age, Domain Coverage,Quality, & Toxicity 논문 리뷰

Abstract- 28개의 LLM을 사용해 사전 학습 데이터 설계의 영향을 조사- 데이터의 시간적 관련성(curated at different times), 품질(quality) 및 유해성(toxicity) 필터링, 그리고 다양한 도메인 구성(domain composition)이 모델 성능에 미치는 영향을 분석실험에 사용된 모델 & 데이터셋- C4(2020)Common Crawl의 정제 버전, 다양한 웹 문서를 포함하며 영어 텍스트로 필터링되어 있고, 많은 언어 모델 훈련에 널리 사용되는 오픈소스 데이터셋 - The Pile22개 출처의 데이터로 구성된 800GB 데이터셋 웹 스크랩과 다양한 분야의 텍스트를 포함     데이터 평가 척도 - 데이터셋의 나이Pile에는 시간 데이터가 없어서 분석 불가능 -..

자연어처리 2024.06.27

ValueError: The input size is not aligned with the quantized weight shape. This can be caused by too large tensor parallel size.

에러ValueError: The input size is not aligned with the quantized weight shape. This can be caused by too large tensor parallel size. 문제상황 GPTQ (8bit) 로 양자화한 QWEN2-72B를 vllm으로 서빙하려고 할 때 해당 에러 발생llm = LLM(model=model_path, tokenizer=model_path, tensor_parallel_size=2, quantization='gptq')tensor_parallel_size를 1,2,4 무엇으로 해도 똑같은 에러가 발생함 원인모델의 intermediate_size가 quantized group_size* tensor-parallel-si..

공부 2024.06.18

[NLP] PROMETHEUS: INDUCING FINE-GRAINEDEVALUATION CAPABILITY IN LANGUAGE MODELS 논문 간단 리뷰

PROMETHEUS: INDUCING FINE-GRAINEDEVALUATION CAPABILITY IN LANGUAGE MODELS 깃허브 데이터셋 FLASK 논문을 쓴 연구진들이 후속(?) 논문으로 작성한 Fine-grained LLM Evaluator 논문으로 ICLR 2024에 accept 되었습니다. GPT-4와 같은 priority LLM을 생성된 텍스트에 대한 평가자로 쓰는 것은 다음과 같은 한계가 있음 - Closed-Source 생태계 : 공정하지 못할 수 있고, 중립성과 자율성 부족 - Uncontrolled visioning : 버전이 바뀌면 생성 결과를 재현하기 어려움 - prohibited costs : 가격 문제 따라서 연구진들은 오픈 소스, 재현 가능, 운용이 비싸지 않은 13B..

자연어처리 2024.04.10

[NLP]FLASK: FINE-GRAINED LANGUAGE MODELEVALUATION BASED ON ALIGNMENT SKILL SETS 논문 리뷰

FLASK: FINE-GRAINED LANGUAGE MODEL EVALUATION BASED ON ALIGNMENT SKILL SETS Github Demo 이번에 소개드릴 논문은 FLASK라는 논문으로, ICLR 2024 Spotlight에 선정된 논문입니다. 저와 같이 LLM Evaluation에 관심을 갖고 계신 분들은 이 논문을 출판한 KAIST의 서민준 교수님 연구실의 다른 페이퍼들을 팔로잉 해보시는 것도 좋을 것 같습니다. 개요 LLM의 생성물이 인간이 원하는 방향과 얼마나 일치(align)하는 지 평가하는 것은 다음 의 두 가지 특징 때문에 한계점을 가지고 있습니다. instrucion은 여러 능력의 조합을 요구하기 때문에 단일 메트릭으로 측정하기에는 한계가 있다. instruction들은 ..

자연어처리 2024.03.25

[NLP]MoE(Mixture of Experts)과 Mixtral 살펴보기

MoE(Mixture of Experts)는 최근 DPO, DUS 등과 더불어 주목받고 있는 LLM의 성능을 높이기 위해 사용되는 방법론 중 하나입니다. 23년 12월에 Mixtral 8x7B가 공개되었고, 이 모델이 llama2-70B를 상회하는 성능을 보임에 따라 다른 많은 오픈소스 모델에서도 MoE 방법론을 채택하기 시작했습니다. 본 포스트에서는 Mixtral 논문과 논문에서 다루고 있는 MoE 관련 개념을 다루도록 하겠습니다. MoE(Mixture of Experts) *MoE 개념은 1991년에 처음 제시되었고 SVM, LSTM등의 고전적(?)인 기법에 먼저 사용되었으나 본 포스트에서는 트랜스포머 구조에서 적용되는 MoE를 위주로 다루겠습니다. Dense VS Sparse Expert 일반적인 ..

자연어처리 2024.02.08

[NLP]OPENCHAT: ADVANCING OPEN-SOURCE LANGUAGEMODELS WITH MIXED-QUALITY DATA 논문 리뷰

논문 링크 허깅페이스 깃허브 ChatGPT와 유사한 성능이 나오는 최초의 7B 언어모델 다양한 벤치마크에서 오픈소스 언어 모델 중 1위 기록중 OpenChat 소개 최근 LLM을 파인튜닝하는 방법론에는 SFT(Supervised Fine-Tuning)과 RLFT(Reinforcement Fine-Tuning)이 있는데, SFT는 데이터의 품질을 보장할 수 없다는 단점, RLFT에는 데이터를 구축하는 데에 비용이 많이 들어간다는 단점이 존재한다. OpenChat은 이러한 단점을 극복하기 위해 데이터 소스에 따라 강화학습 보상을 다르게 부여하는 C(onditioned)-RLFT 방법론을 제시한다. OpenChat13B 모델은 오픈 소스 13B 모델 중에서 가장 좋은 성능을 보였다. SFT와 RLFT 인스트럭..

자연어처리 2023.11.09

[NLP]한국어 거대모델(LLM)들 소개 (23년 5월)

ChatGPT의 등장 이후 자연어처리, 그 중에서도 언어 모델과 관련된 연구의 트렌드는 GPT류의 큰 파라미터를 가진 Causal Language Model 혹은 Auto-agressive model에 집중되어 왔습니다. OpenAI가 ChatGPT의 정확한 구조와 모델 가중치를 공개하지 않은 덕에 ClosedAI?, 다양한 연구자 또는 기업들은 ChatGPT와 유사하지만 파라미터가 공개되어 누구나 파인튜닝하고 연구나 영리적 목적으로 사용할 수 있는 Multi-Task Conversational AI를 만들어냈습니다. 본 포스트에서는 포스트를 작성하고 있는 현 시점에서 인터넷에 공개되어있는 한국어 데이터로 사전학습 혹은 파인튜닝된 GPT-like LLM들을 소개시켜드리겠습니다. 1. Polyglot-ko..

자연어처리 2023.05.04