0. Reference
https://www.nature.com/articles/s41591-021-01343-4
1. Introduction
- 사람들을 진단할 때, 일반적으로 의사들은 데이터를 직접 분석한후 해석하게 된다.
- 하지만, 여러 연구에서 의사들의 이러한 능력은 정확도가 엄청 높은 편은 아니라고 한다.
- 또한, 의료기술이 발전함에 따라 데이터가 더더욱 정밀해지고 더더욱 분석하기 어려워지는데,
- 점점 인간의 시각으론 해결하기 어려운 수준까지 도달하고 있다.
- 이를 AI를 활용하여 진단을 더 효율적이고 더 정확하게 할 수 있다고 한다.
- Ai의 활용이 주목받고 있는 영역 중 하나는 병리학적 조직 분석이라고 한다.
- 보통 이작업은 전문의인 병리학자가 수행하는데, gigapixel 크기의 대용량 이미지를 세밀하게 평가해야 한다고 한다.
- 병리학자들은 암이나 염증성 질환을 진단하고 등급을 매길 때, 조직의 다양한 특징을 평가한다.
ex) 조직 구조의 이상 여부, 특정 세포 특성의 유무, 염증 세포의 과도한 존재 여부
- 이러한 조직 분석을 위해 AI를 활용한 것을 CPATH(Computational Pathology)라고 한다.(계산 병리학)
- CPATH는 주로 Deep Learning으로 구현된다고 한다.
- Deep Learning은 데이터에서 스스로 의미 있는 특징을 추출하기 때문에, 특정 도메인 전문가가 없어도 높은 성능을 보인다.
2. 임상 실무에서의 CPATH
- CPATH의 주요 임상 적용 사례는 다음과 같다고 한다.
"""
1) 종양 검출 및 분류
2) Image Segmentation
3) 세포 검출 및 세포 수 계산
4) 세포 분열 검출
5) 신장이식 조직 검사 분석
6) 종양 등급 결정
"""
- 다음은 autimatic tissue segmentation을 U-net을 이용한 결과이다.(b는 사람, c는 딥러닝)
![]() |
![]() |
![]() |
3. Large-scale datasets
- 병리학 연구소나 의료기관에서 대량의 WSI(Whole-Slide Image)를 수집하는 것은 가능하지만,
- 정확한 주석(annotation)을 생성하는 것은 CPATH에서 장애물이 되고 있다고 한다.
- 해당 Annotation에 대해서 자세히 알아보자.
- CPATH에서 활용되는 주석은 크게 두 가지 유형으로 나눌 수 있다.
i) 이미지 주석(Manual Annotation)
-- 특정 세포 유형의 위치나 조직 영역을 수작업으로 표시하는 과정
-- 병이학자의 전문 지식이 필요하며, 상당한 시간이 소요된다.
ii) 임상 주석(Clinical Annotation)
-- 병리 보고서 및 전자의무기록(EHR)에서 환자의 등급, Molecular subtype, 치료 반응 및 생존율 등 정보를 추출
- 임상 주석은 이미지 주석에 비해 쉽게 확보할 수 있기에, 전립선암, 폐암, 대장암 연구에서 대규모 데이터 셋 구축이 가능하지만,
-CPATH 모델이 모든 병리학적 응용 분야에서 임상 주석만으로 충분한 성능을 내긴 어려웠다고 한다.
- 따라서, Manual Annotation은 필수적이며, 이를 효율적으로 생성할 수 있는 기술이 필요하다고 한다.
- cf) XAI를 통해 ai가 왜 이렇게 예측했는지 보여줄 수 있다고 한다.
4. Weekly Supervised Learning(WSL)
- Manual Annotation를 해결하기 위해서 나오게 된 접근 방식 중 하나가 Weakly Supervised Learning(WSL)이다.
- Image Segmentation에서의 WSL을 알아보자.
- 일반적인 Fully Supervisd Learning에서는 이미지 내 모든 픽셀을 수작업으로 주석처리 했어야 했다.
- 반면, WSL에서는 일부 영역만 간단한 방식(Dots, Scribbles)로 Annotation하여 모델을 학습시킨다.
- 이러한 WSL과 고급 학습 전략을 결합하면 거의 Fully Supervised Learning의 수준에 근접해진다고 한다.
- 이러한 WLS은 뿐만 아니라, WSI 전체를 하나의 레이블로 분류하는 WSL Classification에도 적용 가능하다.
- WSI classification에선 전체 이미지에 대한 단 하나의 라벨만 제공된다.
ex) 특정 WSI가 암을 포함하는지 여부만 알려주고, 암세포가 어디에 있는지 알려주지 않음
- 하지만, CPATH에서 적용할 때, Gigapixel 크기의 WSI가 너무 커서 GPU에 로드할 수 없는 문제가 발생한다고 한다.
- GPU 문제를 해결하는 방법은 무엇일까?
- WSI를 압축하여 중요한 정보만 유지하는 Neural Network 기반으로 접근하였다고 한다.
- 전체 WSI의 크기를 줄인 후, 압축된 데이터를 기반으로 classification model을 학습시킨다고 한다.
- 데이터를 줄이면서도 중요한 semantic information(중요한 정보)을 보존할 수 있다고 한다.
- Gradient Checkpointing 기법을 사용하여, 중간 연산 결과를 GPU 메모리에 저장하지 않고, 필요할 때 다시 계산한다고 한다.
- 이를 통해, 매우 큰 WSI를 GPU에서 처리하는 것이 가능하다고 한다.
5. Generalizability of CPATH algorithms to clinical pratice
- 이러한 CPATH알고리즘은 bias에 되게 큰 영향을 끼친다고 한다.
ex) CPATH이 학습한 데이터에선 최적의 성능을 보이지만, 다른 출처의 데이터에서는 성능이 크게 저하된다고 한다.
- 이러한 단점을 커버하기 위해 세 가지 기법을 본 논문에선 소개하고 있다.
i) 다양한 얌색 배치, 스캐너, 의료 기관에서 수집한 데이터를 포함한 학습 데이터셋 구축
ii) Data Augmentation기법 사용 (특히, Color Augmentation이 가장 효과적이라고 한다.)
iii) Image Normalization
6. Validation of CPATH algorithms
- CPATH를 실무에서 사용하기 위해선, 철저한 검증 과정이 필요하다.
- 어떻게 검증하는지 알아보자.
6.1. Internal Validation
- Hold out validation을 사용한다고 한다.(train : 80, test : 20)
- 만일 Overfitting이 일어난다면,
- Data Augmentation이나, Model Regularization,Deep learning 구조를 단순화 하면 된다.
- 만일 train data가 충분히 크지 않다면, K-fold Cross Validation을 사용하면 된다.
6.2. External Validation
- CPATH가 완전히 새로운 데이터에서도 성능을 유지하는지 검증하기 위해 external Validation이 필요하다.
- External Validation이란 훈련 과정에서 사용되지 않은 완전히 독립적인 출처에서 수집한 데이터로 모델을 평가하는 과정이다.
6.3. Clinical Validation
- TRIPOD-AI 같은 표준화된 보고 기준을 적용하여 CPATH의 성능을 평가한다.
- 이러한 과정이 제대로 수행되지 않으면, CPATH 알고리즘이 과대평가될 위험이 존재한다고 한다.

'Paper Review(논문 리뷰) > TCGA 관련 논문' 카테고리의 다른 글
0. Reference
https://www.nature.com/articles/s41591-021-01343-4
1. Introduction
- 사람들을 진단할 때, 일반적으로 의사들은 데이터를 직접 분석한후 해석하게 된다.
- 하지만, 여러 연구에서 의사들의 이러한 능력은 정확도가 엄청 높은 편은 아니라고 한다.
- 또한, 의료기술이 발전함에 따라 데이터가 더더욱 정밀해지고 더더욱 분석하기 어려워지는데,
- 점점 인간의 시각으론 해결하기 어려운 수준까지 도달하고 있다.
- 이를 AI를 활용하여 진단을 더 효율적이고 더 정확하게 할 수 있다고 한다.
- Ai의 활용이 주목받고 있는 영역 중 하나는 병리학적 조직 분석이라고 한다.
- 보통 이작업은 전문의인 병리학자가 수행하는데, gigapixel 크기의 대용량 이미지를 세밀하게 평가해야 한다고 한다.
- 병리학자들은 암이나 염증성 질환을 진단하고 등급을 매길 때, 조직의 다양한 특징을 평가한다.
ex) 조직 구조의 이상 여부, 특정 세포 특성의 유무, 염증 세포의 과도한 존재 여부
- 이러한 조직 분석을 위해 AI를 활용한 것을 CPATH(Computational Pathology)라고 한다.(계산 병리학)
- CPATH는 주로 Deep Learning으로 구현된다고 한다.
- Deep Learning은 데이터에서 스스로 의미 있는 특징을 추출하기 때문에, 특정 도메인 전문가가 없어도 높은 성능을 보인다.
2. 임상 실무에서의 CPATH
- CPATH의 주요 임상 적용 사례는 다음과 같다고 한다.
"""
1) 종양 검출 및 분류
2) Image Segmentation
3) 세포 검출 및 세포 수 계산
4) 세포 분열 검출
5) 신장이식 조직 검사 분석
6) 종양 등급 결정
"""
- 다음은 autimatic tissue segmentation을 U-net을 이용한 결과이다.(b는 사람, c는 딥러닝)
![]() |
![]() |
![]() |
3. Large-scale datasets
- 병리학 연구소나 의료기관에서 대량의 WSI(Whole-Slide Image)를 수집하는 것은 가능하지만,
- 정확한 주석(annotation)을 생성하는 것은 CPATH에서 장애물이 되고 있다고 한다.
- 해당 Annotation에 대해서 자세히 알아보자.
- CPATH에서 활용되는 주석은 크게 두 가지 유형으로 나눌 수 있다.
i) 이미지 주석(Manual Annotation)
-- 특정 세포 유형의 위치나 조직 영역을 수작업으로 표시하는 과정
-- 병이학자의 전문 지식이 필요하며, 상당한 시간이 소요된다.
ii) 임상 주석(Clinical Annotation)
-- 병리 보고서 및 전자의무기록(EHR)에서 환자의 등급, Molecular subtype, 치료 반응 및 생존율 등 정보를 추출
- 임상 주석은 이미지 주석에 비해 쉽게 확보할 수 있기에, 전립선암, 폐암, 대장암 연구에서 대규모 데이터 셋 구축이 가능하지만,
-CPATH 모델이 모든 병리학적 응용 분야에서 임상 주석만으로 충분한 성능을 내긴 어려웠다고 한다.
- 따라서, Manual Annotation은 필수적이며, 이를 효율적으로 생성할 수 있는 기술이 필요하다고 한다.
- cf) XAI를 통해 ai가 왜 이렇게 예측했는지 보여줄 수 있다고 한다.
4. Weekly Supervised Learning(WSL)
- Manual Annotation를 해결하기 위해서 나오게 된 접근 방식 중 하나가 Weakly Supervised Learning(WSL)이다.
- Image Segmentation에서의 WSL을 알아보자.
- 일반적인 Fully Supervisd Learning에서는 이미지 내 모든 픽셀을 수작업으로 주석처리 했어야 했다.
- 반면, WSL에서는 일부 영역만 간단한 방식(Dots, Scribbles)로 Annotation하여 모델을 학습시킨다.
- 이러한 WSL과 고급 학습 전략을 결합하면 거의 Fully Supervised Learning의 수준에 근접해진다고 한다.
- 이러한 WLS은 뿐만 아니라, WSI 전체를 하나의 레이블로 분류하는 WSL Classification에도 적용 가능하다.
- WSI classification에선 전체 이미지에 대한 단 하나의 라벨만 제공된다.
ex) 특정 WSI가 암을 포함하는지 여부만 알려주고, 암세포가 어디에 있는지 알려주지 않음
- 하지만, CPATH에서 적용할 때, Gigapixel 크기의 WSI가 너무 커서 GPU에 로드할 수 없는 문제가 발생한다고 한다.
- GPU 문제를 해결하는 방법은 무엇일까?
- WSI를 압축하여 중요한 정보만 유지하는 Neural Network 기반으로 접근하였다고 한다.
- 전체 WSI의 크기를 줄인 후, 압축된 데이터를 기반으로 classification model을 학습시킨다고 한다.
- 데이터를 줄이면서도 중요한 semantic information(중요한 정보)을 보존할 수 있다고 한다.
- Gradient Checkpointing 기법을 사용하여, 중간 연산 결과를 GPU 메모리에 저장하지 않고, 필요할 때 다시 계산한다고 한다.
- 이를 통해, 매우 큰 WSI를 GPU에서 처리하는 것이 가능하다고 한다.
5. Generalizability of CPATH algorithms to clinical pratice
- 이러한 CPATH알고리즘은 bias에 되게 큰 영향을 끼친다고 한다.
ex) CPATH이 학습한 데이터에선 최적의 성능을 보이지만, 다른 출처의 데이터에서는 성능이 크게 저하된다고 한다.
- 이러한 단점을 커버하기 위해 세 가지 기법을 본 논문에선 소개하고 있다.
i) 다양한 얌색 배치, 스캐너, 의료 기관에서 수집한 데이터를 포함한 학습 데이터셋 구축
ii) Data Augmentation기법 사용 (특히, Color Augmentation이 가장 효과적이라고 한다.)
iii) Image Normalization
6. Validation of CPATH algorithms
- CPATH를 실무에서 사용하기 위해선, 철저한 검증 과정이 필요하다.
- 어떻게 검증하는지 알아보자.
6.1. Internal Validation
- Hold out validation을 사용한다고 한다.(train : 80, test : 20)
- 만일 Overfitting이 일어난다면,
- Data Augmentation이나, Model Regularization,Deep learning 구조를 단순화 하면 된다.
- 만일 train data가 충분히 크지 않다면, K-fold Cross Validation을 사용하면 된다.
6.2. External Validation
- CPATH가 완전히 새로운 데이터에서도 성능을 유지하는지 검증하기 위해 external Validation이 필요하다.
- External Validation이란 훈련 과정에서 사용되지 않은 완전히 독립적인 출처에서 수집한 데이터로 모델을 평가하는 과정이다.
6.3. Clinical Validation
- TRIPOD-AI 같은 표준화된 보고 기준을 적용하여 CPATH의 성능을 평가한다.
- 이러한 과정이 제대로 수행되지 않으면, CPATH 알고리즘이 과대평가될 위험이 존재한다고 한다.
