Paper Review(논문 리뷰)/NLP

[논문 리뷰] [NLP] Evaluation methods for unsupervised word embeddings

23학번이수현 2025. 3. 30. 02:28

0. Reference

https://aclanthology.org/D15-1036/

 

Evaluation methods for unsupervised word embeddings

Tobias Schnabel, Igor Labutov, David Mimno, Thorsten Joachims. Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. 2015.

aclanthology.org

1. Introduction

- 본 논문은 Embedding Vector의 품질을 측정하는 방식에 대해 다룬 논문이다.

- 기존의 word embedding vector의 평가 방법은 크게 두 가지 범주로 나뉜다.

 

i) Extrinsic Evaluation

- word embedding을 downstream task의 input feature로 활용하고, 해당 과제의 성능 변화를 지표로 삼는 평가 방식이다.

 

ii) Intrinsic Evaluation

- 단어 간의 문법적 또는 의미적 관계를 직접 테스트한다.

- 주로 사전에 선정된 query term과 의미적으로 연관된 target word set을 사용한다.

- 이 아이들을 Querty Inventory라고 불린다.

 

2. Word Embedding

- word embedding은 다음과 같이 정의한다.

 

- embedding space에서, word similarity는 보통 cosine similarity로 계산한다고 한다.

 

- 우선 평가하게될 모델은 총 6개인데,context기반으로 예측하냐, Co-occurence matrix로부터 예측하냐 로 나뉜다.

- Context

i) CBOW

ii) C&W Embedding

- Co-occurence matrix

i) Hellinger PCA

ii) GloVe

iii) TSCCA

iv) Sparse Randim Projections

 

3. Intrinsic 평가 두가지

3.1. Absolute Intrinsic Evaluation

- 기존 데이터셋을 사용하여 사람이 평가한 유사도와 embedding vector 유사도 간의 상관계수를 구한다.

- 주요 task는 4가지이다.

--> relatedness : 단어쌍 유사도 상관관계

--> analogy : king - man + woman = ?

--> categorization : 유사 단어들 클러스터링

--> selectional preference : eat의 주어로 "사람"은 자연스럽고, "바나나"는 부자연스러움

 

3.2. Comparative Intrinsic Evaluation

- 사용자에게 직접 묻는 방식 : 여러 임베딩이 추천한 이웃 단어들 중, 가장 적절한 것을 선택

ex) 

skillfully --> (a) swiftly, (b) expertly (c) cleverly (d) pointedly

--> 어떤게 제일 유사한가?

 

4. Coherence Task

- 단어 하나와 이웃 단어 2개 + intruder(침입자) 1개를 제시한다.

- intruder를 골라내는 정확도를 평가한다. --> coherence를 평가

ex)

(a) finally, (b) eventually, (c) immediately, (d) put

--> d가 가장 벗어나 보임

 

5. Extrinsic Evaluation

- Chunking (구문 분석) : 문법적 정보

- Sentiment Analysis : 의미 정보

 

6. Conclusion

- 실험을 계속해보니, embedding은 word frequency를 많이 반영하고 있음을 발견하였다.

- 특히 Cosine sim은 빈도가 높은 단어끼리 더 유사하게 보이는 편향이 존재한다고 한다.

- frequency 보정이 없는 cosine sim을 과신하면 안된다고 한다.

 

- 본 논문에선, 어떤 임베딩이 좋다고 절대적으로 말할 순 없으며,

- 목적에 따라 달라지는 상대적 개념이라고 말한다.

- 즉, 오늘날 Bert로만 Embedding할 생각보단,

- ELMo나 이러한 다양한 모델들을 task에 맞게 사용하는 게 중요할 듯하다.