[논문 리뷰] [NLP] Evaluation methods for unsupervised word embeddings

23학번이수현 2025. 3. 30. 02:28

0. Reference

Evaluation methods for unsupervised word embeddings

Tobias Schnabel, Igor Labutov, David Mimno, Thorsten Joachims. Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. 2015.

aclanthology.org

1. Introduction

- 본 논문은 Embedding Vector의 품질을 측정하는 방식에 대해 다룬 논문이다.

- 기존의 word embedding vector의 평가 방법은 크게 두 가지 범주로 나뉜다.

i) Extrinsic Evaluation

- word embedding을 downstream task의 input feature로 활용하고, 해당 과제의 성능 변화를 지표로 삼는 평가 방식이다.

ii) Intrinsic Evaluation

- 단어 간의 문법적 또는 의미적 관계를 직접 테스트한다.

- 주로 사전에 선정된 query term과 의미적으로 연관된 target word set을 사용한다.

- 이 아이들을 Querty Inventory라고 불린다.

2. Word Embedding

- word embedding은 다음과 같이 정의한다.

- embedding space에서, word similarity는 보통 cosine similarity로 계산한다고 한다.

- 우선 평가하게될 모델은 총 6개인데,context기반으로 예측하냐, Co-occurence matrix로부터 예측하냐 로 나뉜다.

- Context

i) CBOW

ii) C&W Embedding

- Co-occurence matrix

i) Hellinger PCA

ii) GloVe

iii) TSCCA

iv) Sparse Randim Projections

3. Intrinsic 평가 두가지

3.1. Absolute Intrinsic Evaluation

- 기존 데이터셋을 사용하여 사람이 평가한 유사도와 embedding vector 유사도 간의 상관계수를 구한다.

- 주요 task는 4가지이다.

--> relatedness : 단어쌍 유사도 상관관계

--> analogy : king - man + woman = ?

--> categorization : 유사 단어들 클러스터링

--> selectional preference : eat의 주어로 "사람"은 자연스럽고, "바나나"는 부자연스러움

3.2. Comparative Intrinsic Evaluation

- 사용자에게 직접 묻는 방식 : 여러 임베딩이 추천한 이웃 단어들 중, 가장 적절한 것을 선택

ex)

skillfully --> (a) swiftly, (b) expertly (c) cleverly (d) pointedly

--> 어떤게 제일 유사한가?

4. Coherence Task

- 단어 하나와 이웃 단어 2개 + intruder(침입자) 1개를 제시한다.

- intruder를 골라내는 정확도를 평가한다. --> coherence를 평가

ex)

(a) finally, (b) eventually, (c) immediately, (d) put

--> d가 가장 벗어나 보임

5. Extrinsic Evaluation

- Chunking (구문 분석) : 문법적 정보

- Sentiment Analysis : 의미 정보

6. Conclusion

- 실험을 계속해보니, embedding은 word frequency를 많이 반영하고 있음을 발견하였다.

- 특히 Cosine sim은 빈도가 높은 단어끼리 더 유사하게 보이는 편향이 존재한다고 한다.

- frequency 보정이 없는 cosine sim을 과신하면 안된다고 한다.

- 본 논문에선, 어떤 임베딩이 좋다고 절대적으로 말할 순 없으며,

- 목적에 따라 달라지는 상대적 개념이라고 말한다.

- 즉, 오늘날 Bert로만 Embedding할 생각보단,

- ELMo나 이러한 다양한 모델들을 task에 맞게 사용하는 게 중요할 듯하다.