본문 바로가기

강연

[학회] ASDP 2024 Seoul 3일차 후기 (10.04.24)

https://apple2jobs.tistory.com/70

 

[학회] ASDP 2024 Seoul 1일차 후기 (10.02.24)

7월에 어쩌다보니 병리과 교수님 밑에서 인턴을 하고, 이를 계기로 9월에 디지털 병리 관련 대회를 참가하는 중이다. 교수님께서 만약 너가 디지털 병리에 관심이 있다면, 이번 10월에 서울에서 1

apple2jobs.tistory.com

https://apple2jobs.tistory.com/71

 

[학회] ASDP 2024 Seoul 2일차 후기 (10.03.24)

https://apple2jobs.tistory.com/70 [ASDP 2024 Seoul] 1일차 후기 (10.05.24)7월에 어쩌다보니 병리과 교수님 밑에서 인턴을 하고, 이를 계기로 9월에 디지털 병리 관련 대회를 참가하는 중이다. 교수님께서 만약

apple2jobs.tistory.com

 

이제 드디어 마지막 날 후기를 작성하려고 한다. 개인적으로 얻어갈 내용이 제일 많은 날이었다. 

AI부터 3D Pathology까지 현재 디지털 병리의 SOTA 주제들의 총집합이었다. 

 

금요일 강연 스케줄

 

1. From image to text: Pathology images understanding and report generation

Sangjeong Ahn (Department of Pathology, Korea University Anam Hospital, Korea University College of Medicine)

 

https://scholar.google.com/citations?user=5YCMv3UAAAAJ&hl=ko

 

Sangjeong Ahn

Department of Pathology, Korea University Anam Hospital, Korea University Colledge of Medicine - 인용 횟수 689번 - Computational Pathology - Gastrointestinal Pathology - Medical Informatics

scholar.google.com

 

안상정 교수님은 고려대학교에서 병리과 교수로 재직 중이시다. 디지털 병리에 매우 관심이 많아 보이셨다.

 

강연을 듣다 보니, 새롭게 알게 된 사실이 있었는데...

그건 바로 우리가 지금 참가하고 있는 대회를 이 분이 관여하시고 있으시다는 것이다.

 

고대에서 지금 이 분야에 대해 논문도 출판하고, 대회도 여는 모습을 보니 이쪽에 많은 투자를 하고 있어보인다.

개인적인 추측으로는, 고대가 내가 알기론 컴퓨터, 정보학과 쪽이 유명해서 이러한 연구가 잘 이루어진 거 아닐까 싶다.

 

발표를 듣다 보니, 대회를 준비하면서 search했던 paper들이 많이 보여서, 그동안 공부했던 것들이 정리되는 느낌이었다!

 

연구 소개에 앞서서, report generation이 왜 필요할까? 

 

병리의사가 환자의 병리 소견을 리포트로 작성하는 일은 매우 노동집약적이기 때문이다.

이러한 일을 AI로 자동화한다면, 병리의사는 AI가 생성한 보고서를 최종 검토만 하면 된다.

그러면 AI가 병리의사를 완전히 대체하는거 아니냐 생각할 수 있겠지만, 그 남은 시간을 활용해 연구에 집중할 수 있는 장점이 있다.

특히 우리나라처럼 교수가 교육, 연구, 임상을 모두 커버해야하는 기이한 의료구조에서는 이런 자동화툴이 그 어디보다 필요하다고 생각한다(자교 병리 교수님만 봐도 얼른 AI가 발전하면 좋겠다).

 

그럼, 다시 본론으로 들어가서 결국 task는 'Image to Text'이다.

이렇게 두 가지 유형의 데이터가 복합된 모델을 Vision-Language Model, Multimodal Model이라고 한다.

 

VLM의 시초는 Open AI에서 개발한 CLIP이다. 

https://apple2jobs.tistory.com/66

 

[AI 논문] CLIP: Learning Transferable Visual Models From Natural Language Supervision (2021)

당시 NLP에서는 raw data로부터 pre-training을 직접 시켜서 zero-shot transfer가 가능하였다. 여기서 zero-shot trasnfer이란 사전 학습 중에 본 적이 없는 새로운 작업이나 데이터에 대해 추가 학습 없이도 바

apple2jobs.tistory.com

 

Multimodal model을 fine-tuning에서 medical domain에 적용시킨 사례도 많은데

그중 하나가 구글에서 발표한 Med-Gemini이다. 

https://arxiv.org/abs/2404.18416

 

Capabilities of Gemini Models in Medicine

Excellence in a wide variety of medical applications poses considerable challenges for AI, requiring advanced reasoning, access to up-to-date medical knowledge and understanding of complex multimodal data. Gemini models, with strong general capabilities in

arxiv.org

 

하지만 DP에서 VLM의 challenge도 분명 존재한다.

 

첫 번째는 visual representation learning을 Patch나 ROI-based로 접근하는데, scarcity of benchmark한 문제가 생긴다.

 

현재 나와있는 데이터셋은 다음과 같다.

- PathVQA (2021): https://paperswithcode.com/dataset/pathvqa

 

Papers with Code - PathVQA Dataset

PathVQA consists of 32,799 open-ended questions from 4,998 pathology images where each question is manually checked to ensure correctness.

paperswithcode.com

- ARCH (2021): https://paperswithcode.com/dataset/arch

 

Papers with Code - ARCH Dataset

ARCH is a computational pathology (CP) multiple instance captioning dataset to facilitate dense supervision of CP tasks. Existing CP datasets focus on narrow tasks; ARCH on the other hand contains dense diagnostic and morphological descriptions for a range

paperswithcode.com

- OpenPath (2022): https://paperswithcode.com/paper/leveraging-medical-twitter-to-build-a-visual

 

Papers with Code - Leveraging medical Twitter to build a visual–language foundation model for pathology AI

Implemented in one code library.

paperswithcode.com

- Quilt-1M (2023): https://paperswithcode.com/dataset/quilt-1m

 

Papers with Code - QUILT-1M Dataset

Recent accelerations in multi-modal applications have been made possible with the plethora of image and text data available online. However, the scarcity of similar data in the medical field, specifically in histopathology, has halted similar progress. To

paperswithcode.com

- PathMMU (2024): https://paperswithcode.com/paper/pathmmu-a-massive-multimodal-expert-level

 

Papers with Code - PathMMU: A Massive Multimodal Expert-Level Benchmark for Understanding and Reasoning in Pathology

Implemented in one code library.

paperswithcode.com

 

두 번째 challenge는, 한 환자로부터 추출되는 WSI 슬라이드는 한 개가 아니라 여러 개인데 그 중에서 clinical importance가 있는 슬라이드는 하나, 거기에다가 그 하나에서도 의미가 있는 정보는 one patch일 수 있기 때문에 extremely weakly alignment하다.  

 

마지막 challenge는 image와 text의 data size가 매우 불균형하다. WSI 한 장당 1~2기가가 되는 반면, text는 몇 바이트밖에 안 된다. 

 

이러한 challenge에도 불구하고, 많은 Vision-Language Large Model이 개발되어 왔다. 

 

- PLIP(2023): OpenPath dataset, ViT-B / CLIP

https://arxiv.org/abs/2305.08386

 

PLIP: Language-Image Pre-training for Person Representation Learning

Language-image pre-training is an effective technique for learning powerful representations in general domains. However, when directly turning to person representation learning, these general pre-training methods suffer from unsatisfactory performance. The

arxiv.org

- QUILTNet(2023): Quilt-1M dataset, ViT-B / CLIP

https://arxiv.org/abs/2306.11207

 

Quilt-1M: One Million Image-Text Pairs for Histopathology

Recent accelerations in multi-modal applications have been made possible with the plethora of image and text data available online. However, the scarcity of analogous data in the medical field, specifically in histopathology, has slowed comparable progress

arxiv.org

- CONCH(2024): PMC-PATH + EDU dataset, ViT-B / CLIP

https://arxiv.org/abs/2307.12914

 

Towards a Visual-Language Foundation Model for Computational Pathology

The accelerated adoption of digital pathology and advances in deep learning have enabled the development of powerful models for various pathology tasks across a diverse array of diseases and patient cohorts. However, model training is often difficult due t

arxiv.org

- PRISM(2024): In-house dataset, ViT-H / CLIP

https://arxiv.org/abs/2405.10254

 

PRISM: A Multi-Modal Generative Foundation Model for Slide-Level Histopathology

Foundation models in computational pathology promise to unlock the development of new clinical decision support systems and models for precision medicine. However, there is a mismatch between most clinical analysis, which is defined at the level of one or

arxiv.org

 

* ViT-B(Base)는 약 86M 파라미터를 가진 중간 크기 모델로, 성능과 계산 비용의 균형을 맞춘다. ViT-H(Huge)는 632M 파라미터를 가진 대규모 모델로, 더 높은 성능을 제공하지만 더 많은 계산 리소스를 요구한다.

 

위 4개 모델 중, PLIP & QUILTNet & CONCH는 Patch-level alignment이다. 

그러나 PRISM은 Slide-level alignment라는 점에서 차이가 있다. 

 

Slide-level visual encoder는 두 가지가 있다. 이중 PRISM 모델에 사용된 인코더는 GigaPath 기반이다.

 

- HIPT(Hierarchical self-attention): https://arxiv.org/abs/2206.02647

 

Scaling Vision Transformers to Gigapixel Images via Hierarchical Self-Supervised Learning

Vision Transformers (ViTs) and their multi-scale and hierarchical variations have been successful at capturing image representations but their use has been generally studied for low-resolution images (e.g. - 256x256, 384384). For gigapixel whole-slide imag

arxiv.org

- GigaPath(LongVit-based approach): https://www.nature.com/articles/s41586-024-07441-w

 

그렇다면 이제 본격적으로 Pathology Report Generation을 개발한 논문도 살펴보자. 

 

- MI-GEN(2023): TCGA-BRCA data source, Cross-modal attention

https://arxiv.org/abs/2311.16480

 

WsiCaption: Multiple Instance Generation of Pathology Reports for Gigapixel Whole-Slide Images

Whole slide images are the foundation of digital pathology for the diagnosis and treatment of carcinomas. Writing pathology reports is laborious and error-prone for inexperienced pathologists. To reduce the workload and improve clinical automation, we inve

arxiv.org

- HistoGPT(2023): In house-Skin data source, Image-text fine tuning

https://www.medrxiv.org/content/10.1101/2024.03.15.24304211v1

 

Generating highly accurate pathology reports from gigapixel whole slide images with HistoGPT

Histopathology is considered the gold standard for determining the presence and nature of disease, particularly cancer. However, the process of analyzing tissue samples and producing a final pathology report is time-consuming, labor-intensive, and non-stan

www.medrxiv.org

- HistGen(2024): TCGA + Public data source, Cross-modal attention

https://arxiv.org/abs/2403.05396

 

HistGen: Histopathology Report Generation via Local-Global Feature Encoding and Cross-modal Context Interaction

Histopathology serves as the gold standard in cancer diagnosis, with clinical reports being vital in interpreting and understanding this process, guiding cancer treatment and patient care. The automation of histopathology report generation with deep learni

arxiv.org

- PathAlign(2024): DS1 + TCGA, BLIP-2 (Q-former)

https://arxiv.org/abs/2406.19578

 

PathAlign: A vision-language model for whole slide images in histopathology

Microscopic interpretation of histopathology images underlies many important diagnostic and treatment decisions. While advances in vision-language modeling raise new opportunities for analysis of such images, the gigapixel-scale size of whole slide images

arxiv.org

 

그리고 고대에서 이번 9월에 발표해 2024 MICCAI에 publish된 논문이다. 이 강연 이후 고대의 다른 교수님께서 이 논문에 대해 발표하는 자리가 있었다.

https://arxiv.org/abs/2409.15574

 

Clinical-grade Multi-Organ Pathology Report Generation for Multi-scale Whole Slide Images via a Semantically Guided Medical Text

Vision language models (VLM) have achieved success in both natural language comprehension and image recognition tasks. However, their use in pathology report generation for whole slide images (WSIs) is still limited due to the huge size of multi-scale WSIs

arxiv.org

 

아무튼, 이러한 Patholgoy Report Generation의 한계점 중 하나는 evaluation metric이 마땅한 게 없다는 것이다.

 

마지막으로 미래의 의료 모습에 대한 슬라이드를 보여주시면서 발표를 마치셨다. 

 

 

여담이지만 올해 겨울에 미국으로 가서 Genetic 연구실에서 인턴을 할 예정이다.

Multi-modal, Precision Medicine이라는 큰 틀에서 다양한 주제를 경험하고(지금은 computational pathology, 겨울방학에는 genomics) 내가 흥미를 느껴서 앞으로 몇 년동안 파고 들만한 분야가 무엇인지 학생 시절동안 남들보다 치열하게 고민해보려고 한다. 

 

2. Generative AI in pathology research

Swapnil Rane (Department of Pathology, Tata Memorial Center-ACTREC, HBNI, Navi Mumbai, India)

https://scholar.google.com/citations?hl=ko&user=J9Lo0C4AAAAJ

 

Swapnil Rane

Dept. of Oncopathology, Tata Memorial Centre, HBNI, India - 인용 횟수 3,441번 - Oncology - Anatomic Pathology - Molecular Pathology - Computational Pathology - AI/ML/DL

scholar.google.com

 

이번 발표는 Generative AI에 대한 컨셉을 알려주셨다.

기존까지의 의료 AI는 단일 모달 데이터를 사용하는 discriminative AI에 기반해, 주로 지도 학습 또는 반지도 학습 방법을 사용했다. 그러나 현재는 Generative AI가 최전선에 있어서, 비지도 학습을 통해 그동안의 한계를 극복하고 있다.

Generative AI의 궁극적 목표는 one model for multiple tasks이다. 

 

 

 

디지털 병리 이미지에 대해선, Resolution Matter and Not Optical Magnification이라고 강조하셨다.

Scanner마다 같은 배율이라고 해도 resolution이 다르다.

- Huron 40x: 0.2um/pixel

- Philips 40x: 0.25um/pixel

- 3d histech 40x: 0.24um/pixel

- Leica 40x: 0.26 um/pixel

 

진단에 쓰이는 대부분의 scan은 20x optical magnication이다. 

AI model을 training시킬 땐, same resolution이 필요한다 스캐너마다 이것이 다르므로 generalizability and adoption을 어렵게 만든다. 

WSI scanning technology가 발전해도 obtaining high resolution images가 challenge가 될 수 있다고 하셨다.

 

Multimodal foundation models이 아까 전 발표에서도 소개했듯이 많은 발전이 이루어지고 있는데 다음과 같은 분야에 활용될 수 있다.

 

 

하지만 이러한 Foundation Model에도 다음과 같은 limitation이 있다.

 

- Resource Intensive

- Need additional engineering for pracitcal applications

- Unreliable Outputs

- Bias

- Most foundation models do multiple tasks well, but excel at few tasks

- No standards for evaluating the foundation models (전 발표에서 강조했던 부분)

 

이어서 최근 떠오르고 있는 연구주제에 대해 설명해주셨다.

 

1. Synthetic Data에 대한 연구가 다음과 같은 이유로 활발히 이루어지고 있다.

 

- Relative paucity of accessible real world data

- Legal, privacy and ethical concerns with real world data

- Gaps in the representation of real world

 

Synthetic data를 이용하면 Discriminative AI가 향상된다는 연구도 있다. 

https://pure.johnshopkins.edu/en/publications/adversarial-u-net-with-spectral-normalization-for-histopathology-

 

Adversarial U-net with spectral normalization for histopathology image segmentation using synthetic data

Automated segmentation of tissue and cellular structure in H&E images is an important first step towards automated histopathology slide analysis. For example, nuclei segmentation can aid with detecting pleomorphism and epithelium segmentation can aid in id

pure.johnshopkins.edu

https://arxiv.org/abs/2111.06399

 

Selective Synthetic Augmentation with HistoGAN for Improved Histopathology Image Classification

Histopathological analysis is the present gold standard for precancerous lesion diagnosis. The goal of automated histopathological classification from digital images requires supervised training, which requires a large number of expert annotations that can

arxiv.org

 

2. stain-less staining for computed histopathology

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4445956/

 

Stain-less staining for computed histopathology

Dyes such as hematoxylin and eosin (H&E) and immunohistochemical stains have been increasingly used to visualize tissue composition in research and clinical practice. We present an alternative approach to obtain the same information using stain-free ...

www.ncbi.nlm.nih.gov

 

3. 3D Histology & Whole Block/Tissue Imaging

https://www.nature.com/articles/s41551-022-00940-z

 

4. Colour Normalization

https://arxiv.org/abs/2002.00647

 

Pix2Pix-based Stain-to-Stain Translation: A Solution for Robust Stain Normalization in Histopathology Images Analysis

The diagnosis of cancer is mainly performed by visual analysis of the pathologists, through examining the morphology of the tissue slices and the spatial arrangement of the cells. If the microscopic image of a specimen is not stained, it will look colorles

arxiv.org

 

5. Virtual Staining

https://www.biorxiv.org/content/10.1101/2021.05.01.442219v3.full

 

3. Multimodal and generative AI for pathology

Faisal Mahmood (Harvard Medical School, Department of Pathology, Brigham and Women’s Hospital, USA)

 

https://scholar.google.com/citations?hl=ko&user=9MsdbKoAAAAJ

 

Faisal Mahmood

Associate Professor, Harvard University - 인용 횟수 6,861번

scholar.google.com

 

무려 하버드 대학교에서 전세계의 Computation Pathology를 선두하고 계시는 연구자이시다. 

발표가 끝나고 사석에서 용기 내서 말을 걸었더니 환하게 웃으시면서 응원해주셨다...

학생이고 이쪽 분야에 관심이 있다 하면 다들 반겨주는 분위기가 있나 보다.

 

이분 또한, 현재 디지털 병리의 최신 연구들을 일목요연하게 소개해주셨다. 논문 대부분이 자신의 연구실에서 나온거라니 정말 대단하다.

 

1. Data-efficient methods for weakly-supervised whole slide classification

 

- cancer diagnosis and subtyping: CLAM

https://arxiv.org/abs/2004.09666

 

Data Efficient and Weakly Supervised Computational Pathology on Whole Slide Images

The rapidly emerging field of computational pathology has the potential to enable objective diagnosis, therapeutic response prediction and identification of new morphological features of clinical relevance. However, deep learning-based computational pathol

arxiv.org

- identifying origins for cancers of unknown primary

https://www.nature.com/articles/s41586-021-03512-4

 

2. Discovering integrative histology-genomic prognostic markers via interpretable multimodal deep learning

 

3. Building unimodal and multimodal foundation models for pathology, contrasting with language and genomics

 

- UNI: https://github.com/mahmoodlab/UNI

 

GitHub - mahmoodlab/UNI: Towards a general-purpose foundation model for computational pathology - Nature Medicine

Towards a general-purpose foundation model for computational pathology - Nature Medicine - mahmoodlab/UNI

github.com

- CONCH: https://github.com/mahmoodlab/CONCH

 

GitHub - mahmoodlab/CONCH: A vision-language foundation model for computational pathology - Nature Medicine

A vision-language foundation model for computational pathology - Nature Medicine - mahmoodlab/CONCH

github.com

 

- MADELINE: https://github.com/mahmoodlab/MADELEINE

 

GitHub - mahmoodlab/MADELEINE: MADELEINE: multi-stain slide representation learning (ECCV'24)

MADELEINE: multi-stain slide representation learning (ECCV'24) - mahmoodlab/MADELEINE

github.com

- TANGLE: https://github.com/mahmoodlab/TANGLE

 

GitHub - mahmoodlab/TANGLE: Transcriptomics-guided Slide Representation Learning in Computational Pathology - CVPR 2024

Transcriptomics-guided Slide Representation Learning in Computational Pathology - CVPR 2024 - mahmoodlab/TANGLE

github.com

- THREADS(unpublished): A contrastive foundation model with Histology + Genomics

 

4. Developing a universal multimodal generative co-pilot and chatbot for pathology

 

- PathChat: https://www.nature.com/articles/s41586-024-07618-3

- AI Agent

 

5. 3D Computational Pathology: 뒤 발표에서 이 교수님의 제자가 설명 예정...한국인이다

 

6. Bias and fairness in computational pathology algorithms

 

4번 설명할 때, Chatbot & AI agent 시연 영상을 틀어줬는데 진짜 말도 안 됐다.

OpenAI 컨퍼런스에 참석한 것마냥 최신 기술에 입이 떡 벌어졌다. 

자교 병리과 교수님도 보시고, 내가 할 일 80%는 줄어들 것 같다고 하셨다...

(영상을 찍어 두었긴 했지만 아직 미공개고 저작권도 걸려서 올리진 않을 예정)

 

 

아무튼 학회에 참석하면 이렇게 frontier의 강연을 바로바로 들을 수 있어서 매우 좋은 경험인 것 같다.

이러한 국제 학회가 한국에서 열리고, 운이 좋게 1회에 참석할 수 있게 되어 매우 영광이었다. (교수님 최고)

 

4. The new 3D pathology paradigm for improved clinical outcome prediction

Andrew H. Song Harvard Medical School, Department of Pathology, Brigham and Women’s Hospital, USA

https://scholar.google.ca/citations?user=1UNlyTcAAAAJ&hl=en

 

많이 적어놨는데 다 날라갔다...다시 적을 기력이 없어서 일단 남겨두겠다.


 

이렇게 디지털 병리 학회의 3일 대장정이 막을 내렸다.

정말 얻어갈 게 많았다. 그동안 참석한 학회나 세미나는 내가 관심을 가지지 않았던 분야라서 그냥 참석에만 의의를 뒀었는데

이번 디지털 병리 학회는 그와 다르게 올해 AI와 병리를 공부해서 그런지 보이는 게 달랐다.

 

후기에 못 담은 자잘한 교훈 몇 가지를 남기면서 후기 포스팅을 마무리짓고자 한다.

 

1. 한 가지 우물을 파자. 10년 넘게 그 분야에 몸을 담그면 그 분야의 탑이 된다. 따라서 학생 때부터 많은 분야에 관심을 가져서 내가 한 우물을 팔 분야를 남들보다 일찍 발견해 expert 궤도에 미리 탑승하는 게 매우 중요하다. 나는 적어도 지금은 그 분야를 찾고 있는 시행착오 단계라고 생각한다. 그러니 서두르지 말자. 길게 보자. (한 직장에서 계속 있어야 한다는 의미는 아니다. 한 분야를 파면서 여러 위치에 몸을 담글 수 있는 시대가 왔다.)

 

2. 나는 프로젝트를 시작하는 건 자신 있지만, 마무리짓는 능력이 아직 부족한 것 같다. 큰 그림을 먼저 그리고 들어가는 게 필요한데, 나는 그냥 냅다 들이박고 보기 때문이다. 시간이 지나고 경험이 쌓이면 해결 될 단점이라고 생각한다. 단점에 대한 메타인지가 이루어졌으니 어떻게 해결할지 곰곰히 생각해보자.

 

3. 취미를 기르자. 잘 노는 것도 중요하다. 일만 열심히 하는 삶도 누군가에겐 좋지만, 일론 머스크도 쉴 땐 게임 엄청 열심히 몰입하면서 한다.