0. Reference
- https://arxiv.org/abs/2306.11207?utm_source=chatgpt.com
Quilt-1M: One Million Image-Text Pairs for Histopathology
Recent accelerations in multi-modal applications have been made possible with the plethora of image and text data available online. However, the scarcity of analogous data in the medical field, specifically in histopathology, has slowed comparable progress
arxiv.org
1. Introduction
- Histopathology WSI는 정보 밀도가 높으며, 개별 image patch조차 중요한 고유하고 복잡한 패턴을 담고 있다.
- 이러한 정보를 단일 레이블로 요약하는 것은 너무 지나친 단순화라고 생각할 수 있다.
- 즉, single label을 넘어선, 더 풍부한 representation의 필요성을 강조한다.
- 이러한 관점에서 자연어는 이를 가능케 한다. 즉, Large Vision-Language Datasets이 존재한다면 상당한 발전을 할 수 있을 것이다.
- 하지만, 기존의 Histopathology 분야에서는 포괄적인 데이터셋이 현저히 부족했다고 한다.
- ARCH나 OpenPath가 있긴 하지만, 너무 적은 샘플(전자 : 8천, 후자 : 20만)때문에 한계를 가진다고 한다.
- 본 논문에서, Large Vision-language daatsets의 필요성을 해결하기 위해, QUILT를 제안하였다.
- 10배 ~ 40배 까지의 현미경 확대 배율에 걸쳐 437,878개의 이미지와 802,144개의 text pair를 포함한다.

- 해당 데이터를 위해 유튜브에서 Histopathology 교육 영상 1,087시간 분량의 가치를 가진 비디오를 사용하여 Quration했다고 한다.
---> Why? : 영상 속에선, 활용되지 않은 잠재력을 나타낸다고 생각했다고 한다.
- QUILT는 어떠한 Dataset들과 중복되지 않는다고 한다.
- 이를 통해 다른 open source dataset과 병합이 가능하다
---> 트위터, 연구 논문, 인터넷 등 다른 출처의 데이터와 결합하여 QUILT-1M을 만들었다고 한다.
---> 100만 쌍의 Image-Text pair를 포함하여, 현재까지 가장 큰 Open Vision-Languege dataset으로 기록되었다고 한다.
- QUILT를 사용하여, Contrastive Objective를 이용하여 Vision-Language model을 fine-tuning한다.
- 그 후, 다양한 하위 병리에 걸쳐 수집된 13개의 외부 histopathology dataset에 대하여 평가하였다고 한다.
---> Zero-shot classification, linear probing, i2t or t2i retriever
- 본 논문에서 주장하는 QUILT의 세 가지 중요한 이점은 다음과 같다.
-- i) 기존 Dataset과 중복되지 않는다.]
-- ii) 교육용 비디오 내에서 추출한 Text는 밀도가 높은 정보와 풍부한 Representation을 제공한다고 한다.
-- iii) 이미지당 여러 문장의 존재는 다양한 관점과 각 histopathology image에 대한 포괄적인 이해를 가능케 한다.
2. Related Work
2.1. Machine Learning for histopathology
- 초기 Computational Pathology에서의 representation learning은 주로 Weakly-Supervised Learning에 의존헀다고 한다.
- 하지만, 최근엔 Self-Supervised Learning(SSL)이 어느정도 좋은 성능을 도출해내자, 해당 방향으로 나아가는 추세라고 한다.
2.2. Medical vision-language datasets
- Vision-Language representations을 학습하기 위해선, 대규모의 datasets이 필요하다.
- 하지만 histopathology 분야에서 현저히 부족하다고 한다.
- 그나마 최근 공개된 PMC-15M이 있는데, 이는 histopathology 뿐만 아니라, PubMed 전반적인 것을 다루기에,
- Histopathology와 관련된 부분이 어느 정도인지 파악하기 어렵다고 한다.
3. Curating QUILT: Overview
- Video에서 VLM datasets을 만드는 것은 상당히 어렵다.
-- 많은 비디오가 음성 오디오가 없거나,
-- 영어가 아니거나,
-- 의학적으로 관련성 없거나
3.1. QUILT Curation : Collecting medical image and text pairs from youtube
- 논문에서 주장하는 Dataset Curation은 다음과 같은 단계를 거친다고 한다.

1) Histopathology 영역을 다루는 Channel 및 Video data 수집
2) 특정 nrrative style을 기반으로 video filtering
3) 다양한 모델, 도구 및 알고리즘을 사용하여 비디오에서 이미지 및 텍스트 modality를 추출하고 denosing
4) LLM을 이용하여 denosing된 텍스트를 후처리하여 의료 텍스트 추출
5) 최종 VLP(Vision-Language Pretraining) data를 Curation하기 위해 모든 modality를 분할 및 정렬
3.1.1. Collecting representative channels and videos

- 위와 같은, 18개의 하위 병맆 분야를 포괄하는 키워드를 사용하여 채널을 검색한 후 비디오를 검색
- 교육용 Histopathology 채널은 보통 구독자 수가 적은 경우가 많기 때문에,
- 대형 일반 과학 채널을 피하기 위해 구독자 수가 30만 명 이상인 채널은 재외
3.1.2. Filtering for narrative-style medical videos
- 각 채널의 각 비디오에 대해 1분 미만, 음성이 없거나, 비영어 오디오가 있는 비디오는 제외
3.1.3. Text Extraction using ASR and text denoising
- 개인 의료 ASR API는 너무 비용이 비싸기 때문에, 일반적인 ASR 모델인 Whisper을 사용하였다고 한다.
- 하지만, 종종 의학 용어를 이해하지 못하였기 때문에, 이를 최소화하고자 후처리 알고리즘을 적용하였다고 한다.
i) Rake 키워드 추출 알고리즘을 사용하여 최대 네 단어의 키워드 또는 키 구문을 추출
ii) SciSpacy를 사용하여 오타 확인
iii) LLM에게 Context내에서 오타를 수정하도록 few-shots과 함께 prompt제공

- Hallucination을 방지하기 위해 temperature을 0으로 설정
3.1.4. Image frame extraction and denoising
- Chunk로 분할하는데, 이 기준이 정적이여한다.
- 그 Chunk의 중앙값 이미지를 추출하여 사용한다고 한다.
3.2. QUILT-1M : QUILT와 다른 histopathology data source 결합
- QUILT-1M을 만들기 위해 LAION, Twitter, PubMed를 추가하여 확장하였다고 한다.

3.3. Quality
- 해당 데이터셋의 성능을 평가하기 위해 여러 측면을 측정하였다고 한다.

3.4. Final dataset statistics

4. QUILTNET : Experiments training with QUILT-1M
- QUILTNET을 Pre-training하기 위해 CLIP(Contrastive Language-Image Pre-training)을 사용하였다고 한다.
- CLIP은 N개의 (image, text) 쌍으로 구성된 batch를 사용하여
- 공동 embedding space를 생성하는 contrastive objective를 최적화한다.
- 이 과정에서, align된 Pair은 embedding cos-sim을 높이고, 그 반대면 낮춘다.

- 이 과정에서 Image-encoder : ViT B/32, ViT B/16을 사용하였고,
- Text-encoder : Context 길이가 77인 GPT-2와 PubmedBert를 사용하였다고 한다.
- Histopathology에서의 성능을 향상시키기 위해 OpenAI가 Pre-training한 CLIP모델을 QUILT-1M에서 Finetuning하여 QUILTNET을 훈련시켰다고 한다.
- 그 후, 두 가지 유형의 down-stream(Image classification, cross-modal retrieval)에 대한 실험을 수행하였다고 한다.
- 또한, Pre-training된 CLIP을 fine-tuning하는 것과 처음부터 pre-training한 성능을 비교하였다고 한다.
- 다음과 같은 13개의 Downstream datasets에 대해서 평가를 진행하였다고 한다.

- CLIP, BiomedCLIP, PLIP에 대해Zero-shot 성능을 평가하였다고 한다.

- Results using Linear Probing

- Results using cross-modal retrieval

5. Discussion
- Limitations
- ASR가 의학 용어를 오해하여 "serous carcinoma(장액성 암종)" --> "Serious Carcinoma(심각한 암종)"으로 전사될 수 있음
- Quilt-1M으로 pre-training한 것보다 Imagenet으로 Pretraining한 clip을 fine-tuning한게 더 좋았음
- 이는, 100만 쌍의 i-t pair로는 여전히 부족하다는 것을 시샇나다.