자연어처리 13

[NLP]Word Sense Induction(단어 의미 추론)

Word Sense Disambiguation (단어 의미 중의성 해소, 단어 의미 판별) Word Sense Induction(이하 WSI)에 관해 이야기하기 위해서는 먼저 Word Sense Disambiguation(이하 WSD)에 대해 이해하는 것이 필요하다. WSD는 특정 문장에 등장하는 단어들이 어떤 의미인지 판별하는 자연어처리 작업이다. 예를 들면 다음과 같은 네 문장이 있을 때, 1. 배가 불러서 더 이상 못 먹겠다. 2. 올 해에는 배가 풍년이다. 3. 내가 더보다 몇 배는 더 빠르다. 4. 사촌이 땅을 사면 내 배가 아프다. 1~4번의 의미는 각기 다른 의미로 쓰였는데, 표준국어대사전 기준으로 1번과 4번은 배01, 2번은 배03, 3번은 배08에 해당된다. 사람이 문맥에 따라서 문장에..

자연어처리 2023.02.06

[Continual Learning] Knowledge Distillation 기법 정리

Knowledge Distillation(지식 증류)란? Knowledge Distillation(이하 KD)는 Teacher Network에서 얻어낸 지식을 Student Network로 전달시켜 학습하는 기법이다. 처음 이 방법이 제안되었을 때에는 큰 모델에서 학습한 지식을 작은 모델로 전달함으로써 모바일 기기 등 연산능력이 강력하지 않은 하드웨어에서도 딥러닝 모델을 동작시키려는 목적이었다. 최근에는 지속적으로 들어오는 데이터 스트림을 학습하기 위한 Continual Learning 방법론 중 하나로 KD가 대두되고 있는데, 이전 시점의 모델이 학습한 지식(Hidden Knowledge)를 현재 시점 모델에게 주입하는 방식으로 모델에게 새로운 지식을 학습시킨다. 본 포스팅에서는 언어 모델의 Conti..

자연어처리 2023.01.30

[워드 임베딩] Glove : Gloval Vectors for word Representation

논문 pdf 링크 : https://nlp.stanford.edu/pubs/glove.pdf * 본 논문은 2014년 EMNLP학회에 제출되었으며, 워드 임베딩 방법론인 Glove를 다루고 있습니다. * 본 포스트는 2022년 9월 6일 자연어처리 논문 스터디에서 작성자가 발표한 내용을 재구성해 작성했습니다. 본문을 읽기 위해 필요한 지식들 워드 임베딩 : https://wikidocs.net/33520 word2vec : https://wikidocs.net/22660 기존 워드 임베딩 방법론들의 한계 본 논문이 발표되기 이전에 워드 임베딩에서 주요한 방법론은 크게 2가지가 있었습니다. 먼저 LSA(Latent Semantic Analysis) 는 문서에서 각 단어의 빈도를 행렬화한 뒤 그것을 차원축소..

자연어처리 2023.01.20