0. Reference
https://aclanthology.org/D15-1036/
Evaluation methods for unsupervised word embeddings
Tobias Schnabel, Igor Labutov, David Mimno, Thorsten Joachims. Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. 2015.
aclanthology.org
1. Introduction
- 본 논문은 Embedding Vector의 품질을 측정하는 방식에 대해 다룬 논문이다.
- 기존의 word embedding vector의 평가 방법은 크게 두 가지 범주로 나뉜다.
i) Extrinsic Evaluation
- word embedding을 downstream task의 input feature로 활용하고, 해당 과제의 성능 변화를 지표로 삼는 평가 방식이다.
ii) Intrinsic Evaluation
- 단어 간의 문법적 또는 의미적 관계를 직접 테스트한다.
- 주로 사전에 선정된 query term과 의미적으로 연관된 target word set을 사용한다.
- 이 아이들을 Querty Inventory라고 불린다.
2. Word Embedding
- word embedding은 다음과 같이 정의한다.
- embedding space에서, word similarity는 보통 cosine similarity로 계산한다고 한다.
- 우선 평가하게될 모델은 총 6개인데,context기반으로 예측하냐, Co-occurence matrix로부터 예측하냐 로 나뉜다.
- Context
i) CBOW
ii) C&W Embedding
- Co-occurence matrix
i) Hellinger PCA
ii) GloVe
iii) TSCCA
iv) Sparse Randim Projections
3. Intrinsic 평가 두가지
3.1. Absolute Intrinsic Evaluation
- 기존 데이터셋을 사용하여 사람이 평가한 유사도와 embedding vector 유사도 간의 상관계수를 구한다.
- 주요 task는 4가지이다.
--> relatedness : 단어쌍 유사도 상관관계
--> analogy : king - man + woman = ?
--> categorization : 유사 단어들 클러스터링
--> selectional preference : eat의 주어로 "사람"은 자연스럽고, "바나나"는 부자연스러움
3.2. Comparative Intrinsic Evaluation
- 사용자에게 직접 묻는 방식 : 여러 임베딩이 추천한 이웃 단어들 중, 가장 적절한 것을 선택
ex)
skillfully --> (a) swiftly, (b) expertly (c) cleverly (d) pointedly
--> 어떤게 제일 유사한가?
4. Coherence Task
- 단어 하나와 이웃 단어 2개 + intruder(침입자) 1개를 제시한다.
- intruder를 골라내는 정확도를 평가한다. --> coherence를 평가
ex)
(a) finally, (b) eventually, (c) immediately, (d) put
--> d가 가장 벗어나 보임
5. Extrinsic Evaluation
- Chunking (구문 분석) : 문법적 정보
- Sentiment Analysis : 의미 정보
6. Conclusion
- 실험을 계속해보니, embedding은 word frequency를 많이 반영하고 있음을 발견하였다.
- 특히 Cosine sim은 빈도가 높은 단어끼리 더 유사하게 보이는 편향이 존재한다고 한다.
- frequency 보정이 없는 cosine sim을 과신하면 안된다고 한다.
- 본 논문에선, 어떤 임베딩이 좋다고 절대적으로 말할 순 없으며,
- 목적에 따라 달라지는 상대적 개념이라고 말한다.
- 즉, 오늘날 Bert로만 Embedding할 생각보단,
- ELMo나 이러한 다양한 모델들을 task에 맞게 사용하는 게 중요할 듯하다.