'분류 전체보기' 카테고리의 글 목록

진짜로 '잘' 아세요? Attention & Self Attention (feat. 혁펜하임의 <Easy! 딥러닝>)

들어가며 LLM 과 에이전트의 시대로 접어든 지금일수록( DeepSeek로 인해 다시금 점화되었죠.), 이론에 대한 원리를 더 확실히 알고 있는 것이 중요하다고 생각합니다. 단순히 AI 툴을 사용하는 '소비자' 가 아니라 AI 개발을 하고, 제품과 서비스를 만드는 '생산자'의 입장에 계신 분들이라고 한다면 더더욱 그렇습니다. 이번에 좋은 기회로 혁펜하임님이 출판하신 딥러닝 책 을 제공받아 리뷰를 할 수 있게 되었습니다. 본 리뷰에서는 크게 두 가지 관점에서 이 책을 추천드리는 이유를 말씀드리겠습니다. 추천드리는 이유 1. AI를 쉽게 설명할 필요가 있을 때 AI 관련해서 일을 하다 보면, 관련 직종이 아닌 사람들로부터 흔히 이런 질문을 받곤 합니다. '인공지능(딥러닝)이 뭐야?', '그게 그렇게 ..

자연어처리 2025.03.01

[NLP] solar-pro-preview살펴보기

들어가며 지난 9월 11일 업스테이지에서 solar-pro-preview, solar-pro-preview-instruct 가 오픈소스 모델로 출시되었습니다. 업스테이지에서 처음으로 공개했던 모델 SOLAR 10.7B보다 2배 이상 큰 파라미터 수를 가지고 있으며, 단일 GPU에서 효율적으로 실행할 수 있다고 합니다. 본 포스트에서는 solar-pro-preview 모델의 특징에 대해 살펴보겠습니다. Specsolar-pro-preview 모델의 간략한 스펙은 다음과 같습니다. # params22.1Bcontext window4k지원 언어en context window가 최근 출시되는 다른 오픈소스 모델에 비해 꽤나 짧다는 점과, 지원 언어가 영어 한 가지라는 점이 눈에 띄네요. 이 두 가지 사항 모두..

자연어처리 2024.09.21

[NLP] Large Language Models are Superpositions of All Characters: AttainingArbitrary Role-play via Self-Alignment 논문 리뷰

arxivgithub 개요이 논문은 LLM이 Role-Playing을 더 잘할 수 있도록 하는 방법론 Ditto를 설명하고 있습니다.알리바바 그룹의 qwen2에 적용되어 주목받기도 하였습니다. Abstract DITTO는 LLM의 역할 수행 능력을 강화하기 위해 캐릭터 지식을 활용한 셀프 얼라인먼트 방법을 제시하며, 4000개의 캐릭터로 구성된 대규모 역할 수행 훈련 세트를 생성하여 모델을 fine-tuning합니다.평가 결과, DITTO는 다양한 파라미터 스케일에서 일관된 역할 정체성을 유지하며, 모든 오픈소스 역할 수행 기준을 능가하는 성능을 보여줍니다.역할 수행 도메인에서 최초로 교차 지도(cross-supervision) 정렬 실험을 통해, LLM의 본질적인 능력이 역할 수행 지식을 제한하지만,..

자연어처리 2024.08.13

chatglm LoRA 튜닝하기 (LoRA 안되는 LLM 모델 학습하는 방법)

THUDM/glm-4-9b-chat 은 LogiKor 리더보드에서 공개 모델 중 상당한 순위를 자랑하는 중국산 모델인데요, 문제는 이 모델은 huggingface transformer 라이브러리에 등록되어있지 않아 인터넷에 공개되어있는 여러 예제 코드가 작동하지 않을 때가 많습니다. peft_config = LoraConfig( task_type=TaskType.CAUSAL_LM, inference_mode=False, r=8, lora_alpha=32, lora_dropout=0.1, target_modules=["q_proj", "v_proj"],)model = get_peft_model(model, peft_config) 위의 코드는 많이들 사용하는 LoRACon..

공부 2024.07.09

[NLP] A Pretrainer’s Guide to Training Data:Measuring the Effects of Data Age, Domain Coverage,Quality, & Toxicity 논문 리뷰

Abstract- 28개의 LLM을 사용해 사전 학습 데이터 설계의 영향을 조사- 데이터의 시간적 관련성(curated at different times), 품질(quality) 및 유해성(toxicity) 필터링, 그리고 다양한 도메인 구성(domain composition)이 모델 성능에 미치는 영향을 분석실험에 사용된 모델 & 데이터셋- C4(2020)Common Crawl의 정제 버전, 다양한 웹 문서를 포함하며 영어 텍스트로 필터링되어 있고, 많은 언어 모델 훈련에 널리 사용되는 오픈소스 데이터셋 - The Pile22개 출처의 데이터로 구성된 800GB 데이터셋 웹 스크랩과 다양한 분야의 텍스트를 포함 데이터 평가 척도 - 데이터셋의 나이Pile에는 시간 데이터가 없어서 분석 불가능 -..

자연어처리 2024.06.27

ValueError: The input size is not aligned with the quantized weight shape. This can be caused by too large tensor parallel size.

에러ValueError: The input size is not aligned with the quantized weight shape. This can be caused by too large tensor parallel size. 문제상황 GPTQ (8bit) 로 양자화한 QWEN2-72B를 vllm으로 서빙하려고 할 때 해당 에러 발생llm = LLM(model=model_path, tokenizer=model_path, tensor_parallel_size=2, quantization='gptq')tensor_parallel_size를 1,2,4 무엇으로 해도 똑같은 에러가 발생함 원인모델의 intermediate_size가 quantized group_size* tensor-parallel-si..

공부 2024.06.18

[NLP] PROMETHEUS: INDUCING FINE-GRAINEDEVALUATION CAPABILITY IN LANGUAGE MODELS 논문 간단 리뷰

PROMETHEUS: INDUCING FINE-GRAINEDEVALUATION CAPABILITY IN LANGUAGE MODELS 깃허브 데이터셋 FLASK 논문을 쓴 연구진들이 후속(?) 논문으로 작성한 Fine-grained LLM Evaluator 논문으로 ICLR 2024에 accept 되었습니다. GPT-4와 같은 priority LLM을 생성된 텍스트에 대한 평가자로 쓰는 것은 다음과 같은 한계가 있음 - Closed-Source 생태계 : 공정하지 못할 수 있고, 중립성과 자율성 부족 - Uncontrolled visioning : 버전이 바뀌면 생성 결과를 재현하기 어려움 - prohibited costs : 가격 문제 따라서 연구진들은 오픈 소스, 재현 가능, 운용이 비싸지 않은 13B..

자연어처리 2024.04.10

[NLP]FLASK: FINE-GRAINED LANGUAGE MODELEVALUATION BASED ON ALIGNMENT SKILL SETS 논문 리뷰

FLASK: FINE-GRAINED LANGUAGE MODEL EVALUATION BASED ON ALIGNMENT SKILL SETS Github Demo 이번에 소개드릴 논문은 FLASK라는 논문으로, ICLR 2024 Spotlight에 선정된 논문입니다. 저와 같이 LLM Evaluation에 관심을 갖고 계신 분들은 이 논문을 출판한 KAIST의 서민준 교수님 연구실의 다른 페이퍼들을 팔로잉 해보시는 것도 좋을 것 같습니다. 개요 LLM의 생성물이 인간이 원하는 방향과 얼마나 일치(align)하는 지 평가하는 것은 다음 의 두 가지 특징 때문에 한계점을 가지고 있습니다. instrucion은 여러 능력의 조합을 요구하기 때문에 단일 메트릭으로 측정하기에는 한계가 있다. instruction들은 ..

자연어처리 2024.03.25

[NLP]MoE(Mixture of Experts)과 Mixtral 살펴보기

MoE(Mixture of Experts)는 최근 DPO, DUS 등과 더불어 주목받고 있는 LLM의 성능을 높이기 위해 사용되는 방법론 중 하나입니다. 23년 12월에 Mixtral 8x7B가 공개되었고, 이 모델이 llama2-70B를 상회하는 성능을 보임에 따라 다른 많은 오픈소스 모델에서도 MoE 방법론을 채택하기 시작했습니다. 본 포스트에서는 Mixtral 논문과 논문에서 다루고 있는 MoE 관련 개념을 다루도록 하겠습니다. MoE(Mixture of Experts) *MoE 개념은 1991년에 처음 제시되었고 SVM, LSTM등의 고전적(?)인 기법에 먼저 사용되었으나 본 포스트에서는 트랜스포머 구조에서 적용되는 MoE를 위주로 다루겠습니다. Dense VS Sparse Expert 일반적인 ..

자연어처리 2024.02.08

[NLP]OPENCHAT: ADVANCING OPEN-SOURCE LANGUAGEMODELS WITH MIXED-QUALITY DATA 논문 리뷰

논문 링크 허깅페이스 깃허브 ChatGPT와 유사한 성능이 나오는 최초의 7B 언어모델 다양한 벤치마크에서 오픈소스 언어 모델 중 1위 기록중 OpenChat 소개 최근 LLM을 파인튜닝하는 방법론에는 SFT(Supervised Fine-Tuning)과 RLFT(Reinforcement Fine-Tuning)이 있는데, SFT는 데이터의 품질을 보장할 수 없다는 단점, RLFT에는 데이터를 구축하는 데에 비용이 많이 들어간다는 단점이 존재한다. OpenChat은 이러한 단점을 극복하기 위해 데이터 소스에 따라 강화학습 보상을 다르게 부여하는 C(onditioned)-RLFT 방법론을 제시한다. OpenChat13B 모델은 오픈 소스 13B 모델 중에서 가장 좋은 성능을 보였다. SFT와 RLFT 인스트럭..

자연어처리 2023.11.09

분류 전체보기 17

티스토리툴바