#5 Revision

#5 Revision #

#2025-06-19


Reviewer 1 - Comment 1 #

“In the introduction section, the authors note that most computational methods focus on the frequency of mutation occurrences rather than mutation diversity. This point should be more thoroughly discussed, with a clear explanation of the advantages and potential insights offered by analyzing mutation diversity.”

“서론에서 저자들은 대부분의 계산 방법들이 돌연변이 발생 빈도에 집중하고 있으며, 돌연변이 다양성(mutation diversity)을 간과한다고 언급하였습니다. 돌연변이 다양성을 분석하는 것의 장점과 잠재적인 통찰에 대해 보다 명확하게 논의해 주시기 바랍니다.”

저희 접근법의 이론적 근거, 생물학적 맥락, 선행 연구들과의 연계성, 그리고 기존 빈도 기반 방법과의 비교를 바탕으로 자세히 설명드립니다.

[돌연변이 빈도 기반 접근법의 한계]

기존의 대부분의 계산 기반 돌연변이 핫스팟 탐지 방법은, 특정 유전체 위치에서의 돌연변이 빈도(frequency)에 기반해 관심 영역을 정의해왔습니다. 이 접근은 특정 변이가 여러 샘플에서 반복적으로 관찰될수록 기능적으로 중요할 가능성이 높다는 전제하에 설계되어 있습니다. 예를 들어, 암 유전체에서의 driver mutation 탐지에 유용한 방법입니다. [a]

하지만 이 방식은 다음과 같은 한계점을 지니고 있습니다:

  1. 희귀하지만 다양한 변이들을 간과: 하나의 위치에서 다양한 돌연변이들이 각각 낮은 빈도로 존재할 수 있으며, 이는 바이러스의 적응, 면역 회피, 재조합 등을 반영합니다. 빈도 기반 필터링은 이러한 패턴을 쉽게 놓칩니다.
  2. 계통군 영향: 변이 빈도는 특정 계통(lineage)에 따라 좌우되는 경향이 있습니다. 빈도 기반 방법은 계통 정의 변이(lineage-defining mutation)를 기능적 중요성과 혼동할 수 있습니다.

따라서, 단순 빈도 분석만으로는 바이러스 유전체 내의 진화적/기능적 동역학을 충분히 포착하기 어렵습니다.

[돌연변이 다양성 분석 - 선행 연구 사례]

돌연변이 다양성(mutation diversity)은 일반적으로 샤논 엔트로피(Shannon entropy) 혹은 유사한 지표를 통해 정량화되며, 특정 위치에서 서로 다른 염기들의 분포와 균등성을 반영합니다. 엔트로피가 높은 위치는 다양한 염기가 발생하고 있다는 것을 나타내며, 이는 기능적 유연성 또는 양성 선택이 작용하는 지점을 의미할 수 있습니다.

엔트로피 기반 접근법을 활용해 바이러스 유전체를 돌연변이 다양성 측면에서 분석한 선행 연구 사례는 다음과 같습니다:

  • Rouchka et al. (2024): HIV, HCV, SARS-CoV-2를 비교 분석하여, 엔트로피가 높은 위치가 면역 회피 및 기능적 도메인과 일치함을 보고하였습니다.
  • Singh et al. (2022, PLoS Pathogens): 델타 → 오미크론 전환기 동안 스파이크 단백질의 엔트로피가 급격히 증가하며, 전염성과 면역 회피 성질 변화가 동반됨을 확인하였습니다.
  • Kim et al. (2025, Nat Commun): 백신 접종 이후 스파이크 영역의 엔트로피가 감소했지만, 회피 부위에서는 높은 다양성이 유지됨을 보였습니다.
  • Veeravalli et al. (2023): 샤논 엔트로피 및 Hellinger 거리 기반 분석으로 시간에 따른 구성적 다양성 변화를 추적하였습니다.

정리하면, 엔트로피가 높은 위치는 에피톱, 표면 노출 부위, 면역 회피 부위와 겹치며, 잠재적 변이 발생지 조기 탐지에도 활용 가능함이 확인되었습니다. 단순 빈도 분석에 비해 계통 유래 효과에 덜 민감하면서 특정 위치에서의 진화 경향을 유연성 측면에서 반영하기 때문에 면역적으로 중요한 유연한 영역 탐지에 활용될 수 있습니다.

477개가 entropy만, frequency만 썻을대 어떻게 뽑히는지 개수가 너무 많을거같음


Reviewer 1 - Comment 4 #

“The full name and definition of the H-score should be provided, along with a clear explanation of why it was chosen for this study.”

“H-score의 전체 이름과 정의를 제공하고, 본 연구에서 이를 선택한 이유를 명확히 설명해 주세요.”

H-score는 유전체 내 특정 위치의 돌연변이 중요도를 정량화하기 위한 복합 지표로, 아래 두 요소의 곱으로 계산됩니다: [1] 해당 위치에서 돌연변이가 발생할 확률 (mutation frequency) [2] 돌연변이가 발생한 경우의 돌연변이 엔트로피 (mutation entropy).

[기존 접근의 한계]

저희는 빈도 기반 단독 접근과 엔트로피 단독 접근의 한계를 극복하기 위해 H-score를 도입하였습니다.

빈도만 사용하는 접근의 한계는 다음과 같습니다:

  • 다양하지만 희귀한 변이들을 놓침: 빈도는 낮지만 다양한 변이들이 기능적으로 중요할 수 있으나, 빈도 필터에 의해 배제됩니다.
  • 계통 편향에 취약: 특정 변이가 자주 나타나는 것은 기능보다는 계통적 이유일 수 있습니다.

샤논 엔트로피만 사용하는 접근의 한계는 다음과 같습니다:

  • 돌연변이 자체의 빈도를 반영하지 않음: 특정 변이 위치가 매우 다양한 경우라도, 전체 샘플의 1%에만 존재한다면 (즉 선택률이 낮다면) 중요성이 높다고 판단하기 어렵습니다.

[H-score의 균형적 특성]

저희는 돌연변이의 발생 빈도와 다양성을 동시에 반영할 수 있는 H-score를 제안합니다. 이는 특정 위치에서 돌연변이가 발생했을 때의 조건부 엔트로피를 계산하고, 그 위치의 돌연변이 빈도와 곱하여 계산합니다.

이러한 이중 초점 방식은 다음을 가능하게 합니다:

  • 빈도와 다양성의 통합적 반영: H-score는 자주 변이되며 동시에 다양한 방식으로 변이된 위치를 강조합니다. 이는 선택 압력의 주요 feature를 보존(기능적 중요성)과 다양성(유연성) 두 측면으로 보고, 이를 동시에 반영하는 진정한 핫스팟을 식별합니다.
  • 엔트로피는 돌연변이된 염기만 고려: 보존된 참조 염기는 제외되므로, 변이 분포의 다양성 즉 유연성을 좀 더 강조합니다.

[개념적 및 생물학적 해석력]

H-score는 선택 압력을 정량화한 돌연변이 중요도 지표입니다. 선택 압력은 frequency로 나타난 보존적 특성과 entropy로 나타난 유연성으로 정량화되었습니다. 다시 말해, 양성 선택이 적용된 자주 변이되며 다양한 방식으로 변이되는 위치는 양성 선택에 기여한 ‘중요도’에 따른 결과라는 원리를 반영합니다.

타 연구에 미루어 보면, 양성 선택에 기여한 ‘중요도’는 다음과 같은 의미를 가질 수 있습니다:

  • 면역 회피 가능성
  • 백신 저항성
  • 병원성 변화
  • 환자 예후 변화

strain이


Reviewer 1 - Comment 5 #

“The full name of MutClust should be included, and the rationale for selecting it over other clustering methods should be elaborated.”

“MutClust의 전체 이름을 명시하고, 다른 클러스터링 방법들보다 이를 선택한 이유를 구체적으로 설명해 주세요.”

[MutClust의 전체 이름]

MutClust는 선형 바이러스 유전체 상의 돌연변이 핫스팟을 탐지하기 위해 저희가 직접 개발한 밀도 및 다양성 인식 클러스터링 알고리즘입니다. 기존 클러스터링 기법이 단순한 공간적 거리나 빈도에만 의존하는 반면, MutClust는 생물학적 중요도(H-score)를 반영하고, 동적 밀도 조정 및 감쇠 전략을 통해 선택압에 따른 돌연변이 패턴을 정교하게 포착할 수 있습니다.

[일반적인 클러스터링 방법의 한계]

기존의 K-means, 계층적 클러스터링 등의 일반적 알고리즘은 바이러스 유전체에서의 돌연변이 핫스팟 탐지에 직접 적용하기엔 여러 한계를 지닙니다. 이는 다음과 같은 바이러스 유전체의 생물학적 특성 때문입니다.

  • 불규칙한 클러스터 형태와 크기: 핫스팟의 길이와 밀도는 다양합니다.
  • 클러스터 수 미지정: 생물학적으로 의미 있는 돌연변이 군집 수는 사전에 알 수 없습니다.
  • 노이즈 존재: 무의미한 돌연변이 등이 유의미한 돌연변이 식별 분석을 방해합니다.

[밀도 기반 접근을 수행한 타 연구]

이에 밀도 기반 클러스터링 알고리즘인 DBSCAN이 돌연변이 핫스팟 분석에 효과적으로 활용된 바 있습니다.

  • Identifying recurrent mutations in cancer reveals widespread lineage diversity and mutational specificity: DBSCAN을 사용하여 프로모터나 스플라이스 부위와 같은 기능적 요소와 겹치는 의미 있는 돌연변이 영역(SMR, significantly mutated regions)을 식별하였습니다. 각 암 유형에서 SMR에 포함된 mutation을 가진 환자군을 구분하여 분석하였고 특정 SMR를 가진 환자군이 유의미하게 나쁜 예후 또는 표현형적 특징 차이를 보이는 경우 확인, 일부 SMR는 암 발생 경로가 알려진 유전자 경로(예: p53 signaling, PI3K/AKT 경로)와 연관되어 있었습니다. 이는 탐지된 hotspot이 임상적 표현형, 예후, 치료 반응 등과도 연계됨을 줍니다.
  • Unsupervised clustering analysis of SARS-Cov-2 population structure reveals six major subtypes at early stage across the world: t-SNE와 DBSCAN을 결합하여 SARS-CoV-2 변이를 클러스터링하고, 초기 아형 구조 및 계통 확산 패턴을 규명하였습니다.
  • Extended methods for spatial cell classification with DBSCAN-CellX: DBSCAN을 커스텀한 DBSCAN-CellX 알고리즘을 개발하였습니다. Local adaptive ε & minPts 설정으로 세포 밀도를 기반으로 위치별 ε 조정해서 세포가 희박한 위치는 더 넓게, 밀집된 위치는 좁게 탐색하였고 Core / Edge / Noise 3분류를 수행해서 기존의 이분법(core/noise)에서 벗어나 edge 세포를 따로 구분하여 생물학적으로 중요한 경계 특성을 반영하여 클러스터링하였습니다. Core / Edge / Noise 비율 분석 결과 고밀도 배양 세포에서 core 세포가 중심에 몰리는 edge cell 비율이 나타남을 확인하여 DBSCAN‑CellX가 구조를 잘 반영하고 있음을 확인하였고 다양한 세포주에 적용 결과 각 세포주마다 밀도, 분포 양상이 다름에도 불구, 클러스터 형태 재현이 잘 동작함을 확인하였습니다.

[특수 목적 알고리즘의 필요성]

하지만 DBSCAN의 다음과 같은 특성에 따라 특정 데이터에서는 그대로 적용하기에 부적합합니다.

  • Global ε, MinPts 고정: 돌연변이는 전체 데이터(유전체) 상에서 특정 영역에 집중되어 나타납니다. 비균일한 데이터 분포 상황에서 위치마다 동일한 파라미터를 적용하면 저밀도 영역은 클러스터 누락 고밀도 영역은 클러스터 과도 확장이 발생할 수 있습니다.
  • Edge의 무조건적 통합: DBSCAN은 데이터 포인트를 Core, Edge, Noise로 분류하며 Edge를 따로 취급하지 않고 Core에 같은 클러스터로 소속시킵니다. 노이즈가 많은 돌연변이 데이터의 특성상 Edge의 통합 여부를 결정할 척도, 즉 중요도 지표가 존재한다면 생물학적 중요도를 반영한 동적 밀도 조정 및 감쇠 전략을 통해 선택압에 따른 돌연변이 패턴을 정교하게 포착 가능할 것입니다.
  • 데이터 포인트 별 중요도 가중치 반영 불가: Core 선택애는 데이터 간 거리 즉 밀도만 고려됩니다. 중요도 지표와 밀도를 모두 고려하여 Core를 선택하고 클러스터를 생성한다면 밀도 기반으로 중요한 클러스터를 포착할 때 생물학적 중요도를 반영 가능할 것입니다.

특수 목적 알고리즘의 필요성에 따라 MutClust는 다음과 같은 요건을 충족하기 위해 설계되었습니다:

  • 중요도 기반 Local ε 설정으로 클러스터 형성에 돌연변이의 density와 중요도를 모두 반영
  • 기존의 edge 처리 방식에서 벗어나, density와 중요도를 반영하여 cluster에 edge 포함 유무를 판단(하여 경계를 보정)하는 알고리즘을 도입하여 potential edge의 중요도와 데이터의 density를 모두 반영하여 클러스터 크기 즉 경계 설정을 커스텀 가능하게함 (diminishing factor)

이에 따라 기존 DBSCAN을 기반으로 하되, 바이러스 유전체 분석에 맞춰 구조를 확장한 MutClust를 개발하였습니다.

CCM non CCM 사이 중요도 판단? ccm으로 선별된 애들이 리니지 결정일 확률이 높지 않나 생각이 든다. sars cov 2 돌연변이 db 중에 annotation된 애들이 잇으면

dbscan과 비교 해보기. 중요한 핫스팟을 못찾는다.


Reviewer 2 - Comment 1 #

“The results of this study hold significant value but are buried under technical redundancy. Condensing the manuscript and focusing only on the key contributions will enhance clarity and appeal to a broader audience.”

“이 연구의 결과는 상당한 가치를 지니고 있으나, 과도한 기술적 설명으로 인해 그 가치가 묻혀 있습니다. 원고를 간결하게 다듬고 핵심 기여에 집중한다면 명확성이 향상되어 더 폭넓은 독자층에 어필할 수 있을 것입니다.”

저희는 본 연구의 가치가 방법론적 참신성과 그 함의에 있으며, 과도한 기술적 세부 사항이 이러한 기여를 흐릴 수 있다는 우려에 동의합니다.

본 연구의 핵심 기여는 MutClust의 개발입니다. 이는 DBSCAN 기반 밀도 클러스터링 알고리즘을 유전체 돌연변이의 생물학적 특성에 맞게 적응시킨 새로운 알고리즘입니다. 이 커스터마이징은 기존 DBSCAN의 다음과 같은 한계를 극복하기 위한 것입니다: [1] 고정된 밀도 파라미터 사용으로 지역별 돌연변이 중요도 변화에 민감하지 않음 [2] 단순 빈도 기준 필터링으로 낮은 빈도의 기능적으로 중요한 돌연변이 탐지가 어려움 [3] 클러스터 경계가 자동으로 결정되어 생물학적 신호를 반영한 커스텀 불가

이에 다음 특성을 반영하여 설계되었으며: [1] 중요도 가중 클러스터링 [2] 지역 적응형 파라미터 [3] 감쇠 계수 기반 경계 제어

이러한 개선을 통해 MutClust는 단순히 빈도 높은 클러스터뿐 아니라 기능적으로 중요한 돌연변이 군집을 보다 세밀하게 포착하였으며 생물학적/통계적 유의성을 검증하는 여러 결과를 통해 그 타당성을 입증하였습니다.

[방법론 검증 – 6가지 평가로 구조화]

이전에는 사용된 기술 방법론에 따라 생물학적 해석 및 검증이 흩어져 있었으나 현재는 MutClust의 유효성을 다음 여섯 가지 평가 기준에 따라 명확히 정리하였습니다:

  1. 기존 기능적 돌연변이와의 중복: MutClust는 SARS-CoV-2 스파이크 단백질 내의 기능적으로 특성화된 10개 돌연변이 중 9개를 성공적으로 재탐지하였으며, 이는 본 알고리즘이 핵심 기능적 위치를 정확히 포착함을 시사합니다.
  2. 계통학적 분석: 일부 핫스팟은 계통 정의 돌연변이와 중첩되었지만, 일부는 기존 계통 기반 분석으로는 포착되지 않았던 새로운 기능 기반 군집으로 확인되어, MutClust가 계통학적 접근의 한계를 보완함을 보여줍니다.
  3. 통계적 유의성 (부트스트랩 기반 검증): 무작위 기대 분포에 기반한 부트스트랩 분석을 통해, 탐지된 클러스터는 통계적으로 유의하게 무작위성에서 벗어남이 입증되었습니다.
  4. 임상 결과와의 연관성: COVID-19 환자들을 핫스팟 돌연변이 개수 기준으로 계층화한 결과, 특정 핫스팟 돌연변이 수가 많은 환자일수록 COVID-19 중증도가 높았습니다. 이들 바이러스는 NK 세포 기능 변동에 영향을 주었으며, 이는 환자 NK 세포 수용체 교란과 동반되었습니다.
  5. 중요도 점수 방법 비교: Shannon 엔트로피와 mutation entropy를 비교하여 핫스팟 우선순위를 평가한 결과, mutation entropy를 포함했을 때 중증 연관 핫스팟이 일관되게 상위에 랭크되어, H-중요도 설계의 타당성을 입증하였습니다.
  6. 타 바이러스 적용 가능성: MutClust를 인플루엔자 유전체에 적용한 결과, 다른 돌연변이율과 분포 특성에도 불구하고 의미 있는 핫스팟이 식별되었고, 기능적으로 알려진 돌연변이도 일부 재탐지되어 알고리즘의 범용성이 확인되었습니다.

핫스팟이 생물학적으로 어떤 중요성을 띠는가? 왜 mutation hotspot을 찾고싶은가? 에피톱에 변이가 생겨서 그로 인한 immune evasion 즉 mhc tcr 에피톱 binding affinity가 변화함에 따라 면역 기작이 달라진다. 그 기작에 영향을 주는 mutation hotspot을 찾음.

[원고 수정]

본 연구의 핵심인 방법론적 기여가 강조되도록 결과 섹션을 위의 6가지 생물학적 검증 중심 구조로 재구성하여 각 결과의 의미와 근거가 명확히 드러나도록 수정하였습니다.

또한 본문의 Introduction을 핵심 기여에 집중하도록 아래와 같이 수정하였습니다.

바이러스 돌연변이의 진화적 동역학과 임상적 영향을 이해하기 위해서는 기능적으로 중요한 돌연변이 핫스팟의 식별이 필요하다. 초기 연구들은 주로 돌연변이 빈도에 초점을 맞췄지만, 최근 연구들은 생물학적으로 의미 있는 변이를 중립적 혹은 승객 돌연변이와 구분하기 위해 엔트로피로 측정되는 돌연변이 다양성의 중요성을 강조하고 있다. 샤논 지수를 사용하여 계산되는 돌연변이 엔트로피는 단순히 돌연변이의 존재 여부뿐만 아니라, 다양한 개체군에서의 변이 패턴을 반영한다. 엔트로피가 높은 돌연변이 지점은 선택 압력을 받거나 면역 회피와 관련된 부위일 가능성이 높으며, 특히 SARS-CoV-2와 같은 빠르게 진화하는 바이러스에서 그러하다. 예를 들어, 엔트로피 기반 분석은 SARS-CoV-2 스파이크 단백질 내 면역원성 다양성을 강조하거나, 바이러스 적응과 관련된 돌연변이 시그니처를 식별하거나, 집단 면역 환경에서의 회피 변이의 시간적 추적에 사용되어 왔다. 그러나 엔트로피는 유용함에도 불구하고, 돌연변이의 공간적 조직이나 유전체 상에서의 클러스터링 구조에 대한 정보를 제공하지 못한다는 한계가 있다.

이러한 한계를 보완하기 위해, DBSCAN과 같은 밀도 기반 클러스터링 알고리즘이 도입되었으며, 이는 비정규적이고 불균일한 공간 분포를 가진 돌연변이 핫스팟을 탐지하는 데 강력한 도구로 부상했다. 기존의 슬라이딩 윈도우나 고정된 구간 기반 접근 방식과 달리, DBSCAN은 임의 형태의 클러스터를 탐지할 수 있고, 이상치(잡음 돌연변이)를 처리하며, 사전에 클러스터 수를 지정할 필요가 없기 때문에, 돌연변이가 고르게 분포하지 않고 생물학적으로 관련된 신호가 희소할 수 있는 바이러스 유전체 분석에 특히 적합하다. 실제로, 이전의 여러 연구에서는 DBSCAN을 활용하여 암 유전체 및 바이러스 데이터에서 공간적 돌연변이 클러스터를 성공적으로 탐지한 바 있다. 예를 들어, 한 주요 범암종 연구에서는 밀도 기반 방법을 이용해 비암호화 DNA의 조절 영역에 풍부한 의미 있는 돌연변이 영역(SMRs)을 식별하였다. 바이러스학 분야에서는 DBSCAN이 차원 축소 기법(t-SNE)과 함께 사용되어 SARS-CoV-2 변이체를 전 세계 아형으로 분리함으로써, 기존의 계통 분류만으로는 설명되지 않는 지리적 및 계통학적 구조를 조명하였다. 또한, 공간 전사체 연구에서는 DBSCAN이 지역 세포 밀도 변화를 반영할 수 있도록 맞춤형으로 조정되어, 적절한 튜닝을 통해 다양한 생물학 데이터에 유연하게 적용될 수 있음을 보여주었다.

그럼에도 불구하고, 고전적 DBSCAN은 바이러스 돌연변이 데이터에 적용될 때 몇 가지 중요한 한계를 가진다. 첫째, 돌연변이의 중요성(예: 엔트로피나 임상 연관성)을 클러스터링 과정에 통합할 수 있는 메커니즘이 없다. 둘째, 글로벌 ε 및 MinPts 값에 의존하기 때문에 지역별 밀도 이질성에 민감하여, 생물학적으로 구별되어야 할 영역을 과도하게 분할하거나 병합할 수 있다. 셋째, 전통적인 DBSCAN은 경계점(border point)을 단순한 클러스터 확장의 일부로 간주하기 때문에, 에피토프 회피 영역이나 조절 경계와 같은 기능적으로 중요한 주변부 돌연변이의 역할을 간과할 수 있다.

이러한 문제를 해결하기 위해 우리는 SARS-CoV-2 유전체 상에서 돌연변이 핫스팟을 탐지하도록 설계된 완전 맞춤형 밀도 기반 클러스터링 알고리즘인 MutClust를 제안한다. MutClust는 DBSCAN의 기본 틀을 바탕으로 세 가지 주요 혁신을 통해 확장되었다. 첫째, ε와 MinPts를 지역별 돌연변이 밀도 및 중요도(H-score, 즉 돌연변이 빈도와 엔트로피의 함수)를 기준으로 조정하는 지역 적응형 파라미터 체계를 도입하였다. 둘째, 클러스터 확장을 거리와 지역 엔트로피 신호에 따라 감쇠시키는 경계 인식 확장 알고리즘(diminishing factor)을 구현함으로써, 수동적 컷오프 없이 클러스터 경계를 세밀하게 조절할 수 있도록 하였다. 셋째, 경계점의 생물학적 중요성을 평가하여 선택적으로 통합하는 기능을 추가하여, 단순히 이웃이라는 이유만으로 클러스터에 포함시키지 않도록 하였다.

이러한 수정은 단순히 돌연변이 빈도가 높은 영역이 아니라, 다양성과 기능적 중요성이 교차하는 영역, 즉 생물학적으로 중요한 돌연변이 핫스팟을 탐지하는 데 초점을 맞춘 생물학적 목적의 문제를 해결하기 위해 고안되었다. MutClust를 SARS-CoV-2 유전체 22만 건 이상에 적용한 결과, 바이러스 전반에서 총 477개의 돌연변이 핫스팟을 식별하였으며, 이 중 28개는 COVID-19의 임상적 중증도와 강한 연관성을 보였다. 이들 핫스팟은 알려진 에피토프나 구조적 영역과의 기능적 중첩, NK 세포 반응의 이상과의 연관성, 계통수 상의 클레이드 일치성 등 여러 근거를 통해 검증되었다. 또한, MutClust는 인플루엔자 유전체 등 다른 바이러스 종에서도 견고한 성능을 보여, 바이러스 유전체 전반에 걸쳐 활용 가능한 잠재력을 지녔다.

요약하자면, 본 연구는 (i) 돌연변이 엔트로피와 밀도 기반 클러스터링의 개념적 통합을 통해 핫스팟을 탐지하고, (ii) 바이러스 유전체 분석 요구에 맞춘 유연하고 생물학적으로 해석 가능한 DBSCAN 확장 알고리즘을 제시하며, (iii) 임상, 통계, 기능적 검증을 통해 이를 평가한 계산 프레임워크를 제공한다. 이 결과들은 MutClust가 바이러스 진화 분석 및 기능 유전체학에 있어 유용한 도구임을 강조한다.

[a] Identifying recurrent mutations in cancer reveals widespread lineage diversity and mutational specificity


Reviewer 2 – Comment 4 #

“Network propagation/DEG suggest NK receptor imbalance but lack causal evidence linking mutations to HLA affinity changes. Moreover, the model in Fig. 5 seems to lack direct evidence from patient samples.”

“네트워크 전파 및 차등 발현 유전자 분석은 NK 수용체 불균형을 시사하지만, 해당 돌연변이들이 HLA 결합 친화도 변화를 유발한다는 인과적 증거는 부족합니다. 또한 Figure 5에 제시된 모델은 환자 샘플로부터의 직접적인 실험적 증거가 부족합니다.”

NK 수용체 불균형 해석과 Figure 5에서 제시한 모델에 직접적인 분자적 증거가 부족하다는 지적에 대해 감사드립니다. 저희 역시 SARS-CoV-2 돌연변이와 선천 면역 조절 장애 간의 인과관계를 현재 데이터만으로 확정할 수 없음을 명확히 인지하고 있습니다. 그럼에도 불구하고, 본 연구에서 제시한 결과는 면역학적 맥락에 기반한 의미 있는 가설 생성 증거를 제공하며, 향후 탐색적 연구로 이어질 수 있는 충분한 생물학적 가능성을 시사한다고 생각합니다.

[본 연구의 목적: ‘중요도’ 기반 핫스팟 발굴]

본 연구의 궁극적 목표는 기능적으로 중요한 돌연변이 핫스팟을 탐지할 수 있는 해석 가능한 클러스터링 알고리즘(MutClust)을 개발하는 것이었습니다. 여기서 돌연변이의 중요성은 ‘선택 압력’을 정량화한 중요도 수치로 나타냈습니다. 타 바이러스 면역 연구에 미루어 보면, 양성 선택에 기여한 ‘중요도’는 다음과 같은 의미를 가질 수 있습니다: [1] 면역 회피 가능성 [2] 백신 저항성 [3] 전파력 변화 [4] 환자 예후 변화

기존 연구들이 특정 형질(예: 항생제 내성, 사망률 등)을 명확히 정의하고 시작하는 반면, 저희는 [1] 비지도 클러스터링 기반의 돌연변이 후보 탐색 [2] 사후 생물학적 검증이라는 경로를 따랐습니다. 사전 정의된 라벨에 의존하지 않기 때문에, 기존의 라벨 (계통 정의 유무, 전파력 증가/면역 회피 등의 기능 확인 유무 등)에서 비교적 자유롭게, 의미 있는 생물학적 변이를 감지할 수 있는 구조입니다.

중요도 및 밀도 기반 클러스터링 알고리즘인 MutClust로 중요한 돌연변이 핫스팟 후보 477개를 식별하였고, 특정 핫스팟이 COVID-19 예후가 나쁜 환자에서 돌연변이가 높았으며 전사체 수준에서 NK 신호 이상과의 일관된 연관성을 보였습니다.

[Figure 5 모델과 한계]

저희는 Figure 5가 환자 단위의 기능적 검증(HLA 결합 실험, 펩타이드 가공 확인, NK 세포 살상력 측정 등)에 기반하지 않았다는 점에 동의합니다. 이 도식은 돌연변이 burden, 환자군 층화, 사이토카인 불균형, 유전자 네트워크 전파 등에서 관측된 상관관계 기반 증거를 요약한 개념 모델이며, 기전적 경로로 해석되어서는 안 됩니다.

이를 명확히 하기 위해, 원고 본문과 그림 캡션 모두에서 Figure 5는 가설 기반 요약 모델임을 분명히 명시하겠습니다. 또한, 현재 데이터의 한계와 향후 기전 검증 연구의 필요성을 분리된 단락으로 서술하겠습니다.

[돌연변이와 NK 수용체 신호 간 연관성]

직접적인 인과관계를 입증하지는 못했지만, 다음과 같은 면역학적으로 타당한 정황 근거들이 관측되었습니다:

  • c315 핫스팟은 스파이크 단백질 내 HLA 제시 펩타이드 영역에 위치하며, CD8+ 및 CD4+ T 세포 에피토프와 겹칩니다. 해당 위치의 돌연변이는 NetMHCpan 4.1 예측에 따르면 HLA 앵커 잔기 패턴을 변경시킬 수 있으며, HLA 결합력에 영향을 줄 가능성이 있습니다 (현재는 계산 기반 추정).
  • c442 핫스팟은 ORF3a 영역에 위치하며, 과거 연구에 따르면 ORF3a는 NLRP3 인플라마좀 활성화 및 숙주 세포 스트레스 반응 조절에 관여합니다. 비록 HLA 에피토프는 아니지만, 펩타이드 처리 및 구조 변화로 면역 인식에 영향을 줄 수 있습니다.
  • 전사체 DEG 기반 네트워크 전파 분석에서는 활성 수용체 및 억제 수용체의 일관된 발현 증가가 확인되었으며, 이는 선천면역 활성 상태가 변이 보유 환자에서 달라졌을 가능성을 시사합니다.

이는 분자적 기전을 확정하는 것은 아니지만, 게놈-전사체 수준에서 면역 이상 특징을 형성하는 데 충분한 근거입니다.

[시스템 면역학에서 형질과 돌연변이 간의 연결 접근법]

시스템 면역학 연구에서는 형질-연관 유전적 특징을 발굴하는 데 있어 일반적으로 다음 둘 중 하나의 방법론을 따릅니다: [1] 데이터 기반 탐색과 간접적 검증 [2] 중요 특징 선택 후 실험적 검증.

저희 연구는 비지도 클러스터링을 통한 탐색 후 간접 검증에 해당하며, Mutclust를 통해 탐색한 중요한 후보 핫스팟에 대한 실험적 검증은 수행되지 않고 간접적으로만 검증하였으며 이후 수행된 검증이 명확한 기능적 연결고리를 보이지 않을 수 있음은 인지하고 있습니다. 그러나 변수가 많은 생물학 데이터의 특성상 기전적으로 타당한 가설이라 하더라도 완전한 증거를 찾기는 어렵습니다. 그럼에도 불구하고 엄격한 가설 설정과 통계적 검증을 기반으로 설계된 면역 기전 후보는 또다른 가설 생성을 위한 출발점으로 기능할 수 있습니다. 예를 들어 c315, c442 등 일부 핫스팟이 기존 계통 정의 변이 또는 기능이 알려진 변이와 겹치지 않음은, 오히려 이전까지 알려지지 않은 면역 상호작용 부위일 가능성을 제시합니다.

[본 연구의 공헌과 향후 연구 방향]

저희는 본 연구가 다음 두 측면에서 기여한다고 판단합니다:

  • 방법론적 공헌: 밀도 기반 클러스터링 알고리즘이 밀도와 다양성(엔트로피)를 모두 반영하여 생물학적으로 의미 있는 돌연변이 핫스팟을 탐지할 수 있음을 입증
  • 생물학적 통찰 제시: 일부 핫스팟은 기존 변이와 겹치고, 일부는 신규 변이입니다. 이들에 대한 면역학 기반 해석은 실험 면역학 및 생물정보학 연구자들에게 유용한 가설을 제시할 수 있습니다.

이에 다음과 같은 향후 연구 방향을 설정할 수 있습니다:

  • HLA 결합력 및 NK 세포 활성 실험 기반 검증
  • 해당 핫스팟과 질병 경과 간 임상 연관성 분석
  • MutClust의 기타 바이러스 및 암 유전체에의 적용 및 일반화 가능성 평가

[결론]

정리하자면, 저희도 돌연변이와 NK 수용체 활성 간의 직접적인 인과 연결 고리는 아직 입증되지 않았음을 인정합니다. 이에 원고 본문과 그림 캡션 모두에서 Figure 5는 가설 기반 요약 모델임을 분명히 명시하겠습니다.

그러나 본 연구의 접근은 면역학적으로 타당하고, 통계적으로 견고하며, 해석 가능성을 갖춘 프레임워크입니다. 특정 핫스팟에서 돌연변이 burden이 높은 환자들에서 NK 경로의 이상 조절이 나타났다는 관찰은 충분히 후속 연구의 동기가 되며, SARS-CoV-2의 숙주 면역 상호작용에 대한 이해를 확장시키는 데 기여한다고 생각합니다. 원고에서는 이러한 한계를 명확히 밝히고, 본 결과가 제시하는 연구의 공헌과 향후 연구 방향 강조하도록 수정하겠습니다.