GWAS의 결과들은 질병 위험도를 예측하거나 특정 형질의 genetic architecture를 이해하는데 쓰일 수 있다.
각각 알아보자.
1. Risk prediction
PRS(Polygenic risk score)은 independent한 discovery cohort의 GWAS summary statistics를 사용해 target cohort에서의 risk of disease를 예측하는 방법이다. Risk allele들의 합산 score로 계산된다. PRS를 계산하는 데는 많은 방법들이 있지만 가장 Practical 한 method는 Pruning and thresholding이며 이외에도 여러 방법이 있다. 최대 예측 정확도는 질병의 SNP 기반 유전력 — 모든 SNP에 의해 설명되는 표현형 분산의 비율 — 에 의해 결정되며, PRS 분석의 성능은 질병의 다유전자성(polygenicity)과 원인 변이의 효과 크기에 따라 달라진다. Polygenicity가 많으면 다양한 변이를 모두 고려하여 계산하게 되므로 PRS 모델의 성능이 올라가게 되고, 같은 polygenicity에 대해 effect size가 크면 클수록 역시 성능이 좋아진다.
PRS를 실제 임상현장에 적용할 때의 문제점은 GWAS discovery cohort와 target cohort 간의 조상이 멀어질수록 정확도가 감소한다는 점이다. 대부분의 discovery cohort가 유럽인인 경우가 많다. PRS database로는 Polygenic Score Catalog가 있다.
2. Understanding trait genetic architecture
특정 형질의 genetic architecture를 결정한다는 건 causal varaint의 숫자와 그것들의 effect size와 빈도수를 예측하고 heritability를 추정한다는 것이다. Quantifying heritability하는 방법으로는 크게 두 가지가 있는데, Population based method는 개별 수준의 유전자형 및 표현형 데이터를 사용하여 SNP 기반 heritability를 추정할 수 있다. GCTA(Genome-wide complex trait analsis)라는 방법을 사용한다. 두번째로는 LDSC(LD score regression)를 사용할 수 있다. 중요한 것은 SNP 기반 heritability는 유전자형이 지정되거나 추정된 SNP의 additive effect로 설명되는 분산만 측정한다는 점이다.
Ancestry heterogeneity도 중요하게 고려해야 하는데, 인구 구조는 heritabili를 부풀릴 수 있기 때문이다. (특정 SNP가 유전적 원인 이 아니라 특정집단의 조상적 배경 때문에 특정 표현형과 연관된 것처럼 보일 수 있다.)
또한, 유전적 상관성은 두 형질 간의 인과 관계에 대한 정보를 제공하지 않는다. 사실, 유전적 상관성은 A 형질이 B 형질을 유발하는 수직적 다면발현(vertical pleiotropy), 하나의 변이가 두 가지 형질에 직접 영향을 미치는 수평적 다면발현(horizontal pleiotropy), LD에 의해 유발된 수평적 다면발현(LD induced horizontal pleiotrophy, 두 개의 다른 변이가 연관 불균형 상태에서 각각 두 형질 중 하나에 영향을 미치는 경우), 또는 다유전자성으로 인한 다면발현(polygenicity induced pleiotropy, 여러 변이가 두 가지 형질 모두에 영향을 미치고, 기본 패턴이 위의 혼합인 경우)에 의해 발생할 수 있다.
Mendelian randomization는 GWAS summary statistics를 사용하여 서로 다른 표현형 간의 인과 관계를 평가하는 데 사용할 수 있다. MR은 환경 노출의 대리 척도로 작용하는 도구 변수로서 유전 변이를 사용하는 역학적 기법이고 세 가지 가정이 필요하다: 도구 변수로 사용되는 유전 변이는 노출과 관련되어야 하고, 그러한 유전 변이는 어떤 혼란 변수와도 관련이 없어야 하며, 그러한 유전 변이는 노출의 영향을 통해서만 결과와 관련이 있어야 한다.
MR 예시: 알코올 섭취와 심혈관 질환의 관계
시나리오:
- 노출: 알코올 섭취
- 결과: 심혈관 질환
- 도구 변수: ALDH2 유전자 변이
적용:
- 첫 번째 가정: ALDH2 변이는 알코올 섭취에 영향을 미칩니다. ALDH2의 특정 변이는 알코올 대사를 어렵게 만들어, 알코올 섭취를 줄이는 경향이 있을 수 있습니다.
- 두 번째 가정: ALDH2 변이는 알코올 섭취 외의 다른 변수(예: 흡연, 운동 등)와는 관련이 없어야 합니다. ALDH2가 다른 건강 행동이나 사회경제적 요인과 연관되어 있지 않다면, 이 가정이 충족됩니다.
- 세 번째 가정: ALDH2 변이가 심혈관 질환에 영향을 미치는 유일한 경로는 알코올 섭취를 통해서여야 합니다. 만약 ALDH2가 알코올 섭취와 무관하게 심혈관 질환에 직접적인 영향을 미친다면, 이 가정이 깨집니다.
가정이 깨졌을 때의 문제점
- 첫 번째 가정 위반: 도구 변이가 노출과 관련이 없다면, MR 분석은 인과 관계를 제대로 추정할 수 없습니다.
- 두 번째 가정 위반: 도구 변이가 혼란 변수와 관련이 있다면, 노출과 결과 간의 연관성이 왜곡되어 잘못된 인과 관계 추정이 이루어질 수 있습니다.
- 세 번째 가정 위반: 도구 변이가 노출 외의 경로로 결과에 영향을 미친다면, 결과에 대한 잘못된 원인을 도출하게 됩니다.
References
Uffelmann, E., Huang, Q.Q., Munung, N.S. et al. Genome-wide association studies. Nat Rev Methods Primers 1, 59 (2021). https://doi.org/10.1038/s43586-021-00056-9
'GENETICS' 카테고리의 다른 글
Mendelian Randomization - Essential for study design (1) | 2024.09.20 |
---|---|
LD Block 에 대해 (0) | 2024.09.12 |
PRS calculation (2024 GENESIS-K 유전체 강의 정리) (3) | 2024.08.26 |
GWAS 의 전반적 과정 (2) (0) | 2024.08.22 |
GWAS - 전장 유전체 분석 Introduction (1) (0) | 2024.08.18 |
댓글