자연어처리 13

[NLP] solar-pro-preview살펴보기

들어가며  지난 9월 11일 업스테이지에서 solar-pro-preview, solar-pro-preview-instruct 가 오픈소스 모델로 출시되었습니다. 업스테이지에서 처음으로 공개했던 모델 SOLAR 10.7B보다 2배 이상 큰 파라미터 수를 가지고 있으며, 단일 GPU에서 효율적으로 실행할 수 있다고 합니다. 본 포스트에서는 solar-pro-preview 모델의 특징에 대해 살펴보겠습니다. Specsolar-pro-preview 모델의 간략한 스펙은 다음과 같습니다. # params22.1Bcontext window4k지원 언어en context window가 최근 출시되는 다른 오픈소스 모델에 비해 꽤나 짧다는 점과, 지원 언어가 영어 한 가지라는 점이 눈에 띄네요. 이 두 가지 사항 모두..

자연어처리 2024.09.21

[NLP] Large Language Models are Superpositions of All Characters: AttainingArbitrary Role-play via Self-Alignment 논문 리뷰

arxivgithub  개요이 논문은 LLM이 Role-Playing을 더 잘할 수 있도록 하는 방법론 Ditto를 설명하고 있습니다.알리바바 그룹의 qwen2에 적용되어 주목받기도 하였습니다. Abstract DITTO는 LLM의 역할 수행 능력을 강화하기 위해 캐릭터 지식을 활용한 셀프 얼라인먼트 방법을 제시하며, 4000개의 캐릭터로 구성된 대규모 역할 수행 훈련 세트를 생성하여 모델을 fine-tuning합니다.평가 결과, DITTO는 다양한 파라미터 스케일에서 일관된 역할 정체성을 유지하며, 모든 오픈소스 역할 수행 기준을 능가하는 성능을 보여줍니다.역할 수행 도메인에서 최초로 교차 지도(cross-supervision) 정렬 실험을 통해, LLM의 본질적인 능력이 역할 수행 지식을 제한하지만,..

자연어처리 2024.08.13

[NLP] A Pretrainer’s Guide to Training Data:Measuring the Effects of Data Age, Domain Coverage,Quality, & Toxicity 논문 리뷰

Abstract- 28개의 LLM을 사용해 사전 학습 데이터 설계의 영향을 조사- 데이터의 시간적 관련성(curated at different times), 품질(quality) 및 유해성(toxicity) 필터링, 그리고 다양한 도메인 구성(domain composition)이 모델 성능에 미치는 영향을 분석실험에 사용된 모델 & 데이터셋- C4(2020)Common Crawl의 정제 버전, 다양한 웹 문서를 포함하며 영어 텍스트로 필터링되어 있고, 많은 언어 모델 훈련에 널리 사용되는 오픈소스 데이터셋 - The Pile22개 출처의 데이터로 구성된 800GB 데이터셋 웹 스크랩과 다양한 분야의 텍스트를 포함     데이터 평가 척도 - 데이터셋의 나이Pile에는 시간 데이터가 없어서 분석 불가능 -..

자연어처리 2024.06.27

[NLP] PROMETHEUS: INDUCING FINE-GRAINEDEVALUATION CAPABILITY IN LANGUAGE MODELS 논문 간단 리뷰

PROMETHEUS: INDUCING FINE-GRAINEDEVALUATION CAPABILITY IN LANGUAGE MODELS 깃허브 데이터셋 FLASK 논문을 쓴 연구진들이 후속(?) 논문으로 작성한 Fine-grained LLM Evaluator 논문으로 ICLR 2024에 accept 되었습니다. GPT-4와 같은 priority LLM을 생성된 텍스트에 대한 평가자로 쓰는 것은 다음과 같은 한계가 있음 - Closed-Source 생태계 : 공정하지 못할 수 있고, 중립성과 자율성 부족 - Uncontrolled visioning : 버전이 바뀌면 생성 결과를 재현하기 어려움 - prohibited costs : 가격 문제 따라서 연구진들은 오픈 소스, 재현 가능, 운용이 비싸지 않은 13B..

자연어처리 2024.04.10

[NLP]FLASK: FINE-GRAINED LANGUAGE MODELEVALUATION BASED ON ALIGNMENT SKILL SETS 논문 리뷰

FLASK: FINE-GRAINED LANGUAGE MODEL EVALUATION BASED ON ALIGNMENT SKILL SETS Github Demo 이번에 소개드릴 논문은 FLASK라는 논문으로, ICLR 2024 Spotlight에 선정된 논문입니다. 저와 같이 LLM Evaluation에 관심을 갖고 계신 분들은 이 논문을 출판한 KAIST의 서민준 교수님 연구실의 다른 페이퍼들을 팔로잉 해보시는 것도 좋을 것 같습니다. 개요 LLM의 생성물이 인간이 원하는 방향과 얼마나 일치(align)하는 지 평가하는 것은 다음 의 두 가지 특징 때문에 한계점을 가지고 있습니다. instrucion은 여러 능력의 조합을 요구하기 때문에 단일 메트릭으로 측정하기에는 한계가 있다. instruction들은 ..

자연어처리 2024.03.25

[NLP]MoE(Mixture of Experts)과 Mixtral 살펴보기

MoE(Mixture of Experts)는 최근 DPO, DUS 등과 더불어 주목받고 있는 LLM의 성능을 높이기 위해 사용되는 방법론 중 하나입니다. 23년 12월에 Mixtral 8x7B가 공개되었고, 이 모델이 llama2-70B를 상회하는 성능을 보임에 따라 다른 많은 오픈소스 모델에서도 MoE 방법론을 채택하기 시작했습니다. 본 포스트에서는 Mixtral 논문과 논문에서 다루고 있는 MoE 관련 개념을 다루도록 하겠습니다. MoE(Mixture of Experts) *MoE 개념은 1991년에 처음 제시되었고 SVM, LSTM등의 고전적(?)인 기법에 먼저 사용되었으나 본 포스트에서는 트랜스포머 구조에서 적용되는 MoE를 위주로 다루겠습니다. Dense VS Sparse Expert 일반적인 ..

자연어처리 2024.02.08

[NLP]OPENCHAT: ADVANCING OPEN-SOURCE LANGUAGEMODELS WITH MIXED-QUALITY DATA 논문 리뷰

논문 링크 허깅페이스 깃허브 ChatGPT와 유사한 성능이 나오는 최초의 7B 언어모델 다양한 벤치마크에서 오픈소스 언어 모델 중 1위 기록중 OpenChat 소개 최근 LLM을 파인튜닝하는 방법론에는 SFT(Supervised Fine-Tuning)과 RLFT(Reinforcement Fine-Tuning)이 있는데, SFT는 데이터의 품질을 보장할 수 없다는 단점, RLFT에는 데이터를 구축하는 데에 비용이 많이 들어간다는 단점이 존재한다. OpenChat은 이러한 단점을 극복하기 위해 데이터 소스에 따라 강화학습 보상을 다르게 부여하는 C(onditioned)-RLFT 방법론을 제시한다. OpenChat13B 모델은 오픈 소스 13B 모델 중에서 가장 좋은 성능을 보였다. SFT와 RLFT 인스트럭..

자연어처리 2023.11.09

[NLP]한국어 거대모델(LLM)들 소개 (23년 5월)

ChatGPT의 등장 이후 자연어처리, 그 중에서도 언어 모델과 관련된 연구의 트렌드는 GPT류의 큰 파라미터를 가진 Causal Language Model 혹은 Auto-agressive model에 집중되어 왔습니다. OpenAI가 ChatGPT의 정확한 구조와 모델 가중치를 공개하지 않은 덕에 ClosedAI?, 다양한 연구자 또는 기업들은 ChatGPT와 유사하지만 파라미터가 공개되어 누구나 파인튜닝하고 연구나 영리적 목적으로 사용할 수 있는 Multi-Task Conversational AI를 만들어냈습니다. 본 포스트에서는 포스트를 작성하고 있는 현 시점에서 인터넷에 공개되어있는 한국어 데이터로 사전학습 혹은 파인튜닝된 GPT-like LLM들을 소개시켜드리겠습니다. 1. Polyglot-ko..

자연어처리 2023.05.04

[Hugging Face] PEFT에 대해 알아보자

본 포스트에서는 자연어처리 분야에서 입지전적인 위치를 가지고 있는 Hugging Face에서 새로이 개발한 🤗PEFT :Parameter-Efficient Fine-Tuning of Billion-Scale Models on Low-Resource Hardware의 설명 문서를 번역하여 소개하겠습니다. 원문 링크 PEFT의 등장배경 GPT, t5, bert와 같은 트랜스포머 기반의 거대 언어 모델은 현재 다양한 자연어처리 작업에서 가장 좋은 성능을 보이고 있습니다. 그리고 트랜스포머 구조는 VIT, Stable diffusion, LayoutLM과 같은 컴퓨터 비전 분야, whisper, XLS-R과 같은 음성 분야에도 진출하기도 했습니다. 기존의 패러다임은 거대한 단위의 웹 데이터를 사전학습(pre-t..

자연어처리 2023.02.16

[NLP] Lexical Simplification(어휘 단순화)

본 포스트에서는 자연어처리의 세부 task중 과 Lexical Simplification(어휘 단순화) 에 관해 다루도록 하겠습니다.Lexical Simplification(어휘 단순화) 1. 용어 정의Lexical Simplification(어휘 단순화, 이하 LS)의 목적은 복잡하고 어려운 어휘를 더 단순하지만 의미가 같은 단어로 바꾸어 어린이, 외국어 학습자 등의 해당 언어가 익숙하지 않은 사람들이 텍스트를 더 잘 이해할 수 있도록 하는 것입니다.  2. 작업 파이프라인 일반적으로 LN은 다음의 세 가지 절차로 이루어집니다. 1. 복잡한 단어 정의 (Complex Word Identification, CWI) 2. 대체 단어 생성 (Substitute word Generation, SG)3. 대체 ..

자연어처리 2023.02.11