자연어처리 9

[NLP] PROMETHEUS: INDUCING FINE-GRAINEDEVALUATION CAPABILITY IN LANGUAGE MODELS 논문 간단 리뷰

PROMETHEUS: INDUCING FINE-GRAINEDEVALUATION CAPABILITY IN LANGUAGE MODELS 깃허브 데이터셋 FLASK 논문을 쓴 연구진들이 후속(?) 논문으로 작성한 Fine-grained LLM Evaluator 논문으로 ICLR 2024에 accept 되었습니다. GPT-4와 같은 priority LLM을 생성된 텍스트에 대한 평가자로 쓰는 것은 다음과 같은 한계가 있음 - Closed-Source 생태계 : 공정하지 못할 수 있고, 중립성과 자율성 부족 - Uncontrolled visioning : 버전이 바뀌면 생성 결과를 재현하기 어려움 - prohibited costs : 가격 문제 따라서 연구진들은 오픈 소스, 재현 가능, 운용이 비싸지 않은 13B..

자연어처리 2024.04.10

[NLP]FLASK: FINE-GRAINED LANGUAGE MODELEVALUATION BASED ON ALIGNMENT SKILL SETS 논문 리뷰

FLASK: FINE-GRAINED LANGUAGE MODEL EVALUATION BASED ON ALIGNMENT SKILL SETS Github Demo 이번에 소개드릴 논문은 FLASK라는 논문으로, ICLR 2024 Spotlight에 선정된 논문입니다. 저와 같이 LLM Evaluation에 관심을 갖고 계신 분들은 이 논문을 출판한 KAIST의 서민준 교수님 연구실의 다른 페이퍼들을 팔로잉 해보시는 것도 좋을 것 같습니다. 개요 LLM의 생성물이 인간이 원하는 방향과 얼마나 일치(align)하는 지 평가하는 것은 다음 의 두 가지 특징 때문에 한계점을 가지고 있습니다. instrucion은 여러 능력의 조합을 요구하기 때문에 단일 메트릭으로 측정하기에는 한계가 있다. instruction들은 ..

자연어처리 2024.03.25

[NLP]MoE(Mixture of Experts)과 Mixtral 살펴보기

MoE(Mixture of Experts)는 최근 DPO, DUS 등과 더불어 주목받고 있는 LLM의 성능을 높이기 위해 사용되는 방법론 중 하나입니다. 23년 12월에 Mixtral 8x7B가 공개되었고, 이 모델이 llama2-70B를 상회하는 성능을 보임에 따라 다른 많은 오픈소스 모델에서도 MoE 방법론을 채택하기 시작했습니다. 본 포스트에서는 Mixtral 논문과 논문에서 다루고 있는 MoE 관련 개념을 다루도록 하겠습니다. MoE(Mixture of Experts) *MoE 개념은 1991년에 처음 제시되었고 SVM, LSTM등의 고전적(?)인 기법에 먼저 사용되었으나 본 포스트에서는 트랜스포머 구조에서 적용되는 MoE를 위주로 다루겠습니다. Dense VS Sparse Expert 일반적인 ..

자연어처리 2024.02.08

[NLP]OPENCHAT: ADVANCING OPEN-SOURCE LANGUAGEMODELS WITH MIXED-QUALITY DATA 논문 리뷰

논문 링크 허깅페이스 깃허브 ChatGPT와 유사한 성능이 나오는 최초의 7B 언어모델 다양한 벤치마크에서 오픈소스 언어 모델 중 1위 기록중 OpenChat 소개 최근 LLM을 파인튜닝하는 방법론에는 SFT(Supervised Fine-Tuning)과 RLFT(Reinforcement Fine-Tuning)이 있는데, SFT는 데이터의 품질을 보장할 수 없다는 단점, RLFT에는 데이터를 구축하는 데에 비용이 많이 들어간다는 단점이 존재한다. OpenChat은 이러한 단점을 극복하기 위해 데이터 소스에 따라 강화학습 보상을 다르게 부여하는 C(onditioned)-RLFT 방법론을 제시한다. OpenChat13B 모델은 오픈 소스 13B 모델 중에서 가장 좋은 성능을 보였다. SFT와 RLFT 인스트럭..

자연어처리 2023.11.09

[NLP]한국어 거대모델(LLM)들 소개 (23년 5월)

ChatGPT의 등장 이후 자연어처리, 그 중에서도 언어 모델과 관련된 연구의 트렌드는 GPT류의 큰 파라미터를 가진 Causal Language Model 혹은 Auto-agressive model에 집중되어 왔습니다. OpenAI가 ChatGPT의 정확한 구조와 모델 가중치를 공개하지 않은 덕에 ClosedAI?, 다양한 연구자 또는 기업들은 ChatGPT와 유사하지만 파라미터가 공개되어 누구나 파인튜닝하고 연구나 영리적 목적으로 사용할 수 있는 Multi-Task Conversational AI를 만들어냈습니다. 본 포스트에서는 포스트를 작성하고 있는 현 시점에서 인터넷에 공개되어있는 한국어 데이터로 사전학습 혹은 파인튜닝된 GPT-like LLM들을 소개시켜드리겠습니다. 1. Polyglot-ko..

자연어처리 2023.05.04

[Hugging Face] PEFT에 대해 알아보자

본 포스트에서는 자연어처리 분야에서 입지전적인 위치를 가지고 있는 Hugging Face에서 새로이 개발한 🤗PEFT :Parameter-Efficient Fine-Tuning of Billion-Scale Models on Low-Resource Hardware의 설명 문서를 번역하여 소개하겠습니다. 원문 링크 PEFT의 등장배경 GPT, t5, bert와 같은 트랜스포머 기반의 거대 언어 모델은 현재 다양한 자연어처리 작업에서 가장 좋은 성능을 보이고 있습니다. 그리고 트랜스포머 구조는 VIT, Stable diffusion, LayoutLM과 같은 컴퓨터 비전 분야, whisper, XLS-R과 같은 음성 분야에도 진출하기도 했습니다. 기존의 패러다임은 거대한 단위의 웹 데이터를 사전학습(pre-t..

자연어처리 2023.02.16

[NLP]Word Sense Induction(단어 의미 추론)

Word Sense Disambiguation (단어 의미 중의성 해소, 단어 의미 판별) Word Sense Induction(이하 WSI)에 관해 이야기하기 위해서는 먼저 Word Sense Disambiguation(이하 WSD)에 대해 이해하는 것이 필요하다. WSD는 특정 문장에 등장하는 단어들이 어떤 의미인지 판별하는 자연어처리 작업이다. 예를 들면 다음과 같은 네 문장이 있을 때, 1. 배가 불러서 더 이상 못 먹겠다. 2. 올 해에는 배가 풍년이다. 3. 내가 더보다 몇 배는 더 빠르다. 4. 사촌이 땅을 사면 내 배가 아프다. 1~4번의 의미는 각기 다른 의미로 쓰였는데, 표준국어대사전 기준으로 1번과 4번은 배01, 2번은 배03, 3번은 배08에 해당된다. 사람이 문맥에 따라서 문장에..

자연어처리 2023.02.06

[Continual Learning] Knowledge Distillation 기법 정리

Knowledge Distillation(지식 증류)란? Knowledge Distillation(이하 KD)는 Teacher Network에서 얻어낸 지식을 Student Network로 전달시켜 학습하는 기법이다. 처음 이 방법이 제안되었을 때에는 큰 모델에서 학습한 지식을 작은 모델로 전달함으로써 모바일 기기 등 연산능력이 강력하지 않은 하드웨어에서도 딥러닝 모델을 동작시키려는 목적이었다. 최근에는 지속적으로 들어오는 데이터 스트림을 학습하기 위한 Continual Learning 방법론 중 하나로 KD가 대두되고 있는데, 이전 시점의 모델이 학습한 지식(Hidden Knowledge)를 현재 시점 모델에게 주입하는 방식으로 모델에게 새로운 지식을 학습시킨다. 본 포스팅에서는 언어 모델의 Conti..

자연어처리 2023.01.30

[워드 임베딩] Glove : Gloval Vectors for word Representation

논문 pdf 링크 : https://nlp.stanford.edu/pubs/glove.pdf * 본 논문은 2014년 EMNLP학회에 제출되었으며, 워드 임베딩 방법론인 Glove를 다루고 있습니다. * 본 포스트는 2022년 9월 6일 자연어처리 논문 스터디에서 작성자가 발표한 내용을 재구성해 작성했습니다. 본문을 읽기 위해 필요한 지식들 워드 임베딩 : https://wikidocs.net/33520 word2vec : https://wikidocs.net/22660 기존 워드 임베딩 방법론들의 한계 본 논문이 발표되기 이전에 워드 임베딩에서 주요한 방법론은 크게 2가지가 있었습니다. 먼저 LSA(Latent Semantic Analysis) 는 문서에서 각 단어의 빈도를 행렬화한 뒤 그것을 차원축소..

자연어처리 2023.01.20