GWAS 의 전반적인 이해와 과정에 대해 자세하게 설명해준 논문이다.
GWAS의 application으로
Phenotype의 기저에 있는 biology를 설명하고
heritability를 estimate하고
genetic correlation을 calculate하고
clinical risk prediction을 하고
drug development에도 기여하며 risk factor와 health outcome 간의 인과관계도 추론할 수 있게 해준다는 점들이 있다.
GWAS를 특정 trait에 대해 하면, 매우 작은 risk들에 기여하는 causal variants과 관계있다는 것을 알게 되지만 그렇지 않은 non-causal variants와도 상관 관계가 깊다는 것을 알게 되는데, 이는 causal, non-causal variants가 Linkage Disequilibrium의 결과로 physically 가깝기 때문이다.
GWAS의 전체적 과정은 다음 Figure와 같다.
1. Data Collection
GWAS를 처음 행할 때든 어떤 연구를 처음 할 때에는 Population 즉 모집단을 잘 설정하는 것이 정말 중요한데, GWAS의 경우 우선 Very large sample size가 연구의 재현성을 나타내기 위해서 필요하다. 이 때, 원인과 결과에 모두 영향을 미치는 collider bias를 포함하지 않도록 신중하게 집단을 구성해야 한다. (collider bias는 원인과 결과에 모두 영향을 미치기 때문에 통제하면 실제 존재하는 관계가 있는 것처럼 보이게 할 수 있어 통제하면 안 된다.)
2. Genotyping
Genotyping 즉 염기서열의 정확한 위치 분석은 Common variants에서 microarray를 사용하거나 rare variants에서는 WES나 WGS 같은 NGS 기법을 사용해서 이루어진다. 아래 Figure에서 우하측은 common variant, 좌상단은 rare variant라 할 수 있겠다. NGS의 비용이 만만치 않아서, 보통 Microarray-based genotyping이 이루어진다. (Common variants는 minor allele frequency가 10%보다 높다.)
3. Quality Control
그렇게 해서 얻어진 염기서열 정보들 중 rare 하거나 monomorphic variant(기본적으로 SNP는 polymorphic variant이므로)들을 제외하고, error들을 찾아내는 작업을 PLINK와 같은 Tool을 통해서 진행한다.
4. Imputation
QC가 된 Data는 처음 Phasing이라는 작업을 통해 Genotyped allele이 모계/부계에서 유래했는지 추정하게 되고, 이미 sequencing 된 reference panel을 통해 imputation을 진행하게 된다. (예를 들어 Reference 데이터에는 SNP A와 B가 자주 같이 나타나는 변이이고 실험 데이터에 SNP A가 있다면, SNP B의 존재 또한 예측할 수 있다.) GWAS 뿐만 아니라 모든 유전 연구에서는 Ancestry와 Relatedness가 면밀하게 고려되어야 하는데, 이는 인구 층화 (population stratification)로 인한 false positive나 false negtative의 위험을 줄이기 위함이다. 다양한 유전적 배경이 있는 집단이 연구에 포함될수록 이는 중요한데, 유전적 차이가 질병위험과 연관된 것처럼 보일 수 있기 때문이다. (예를 들어 젓가락을 자주 쓰는/그렇지 않은 그룹을 각가 case/control 군으로 두면 case 군에서 East Asian이 두드러지게 되어 그릇된 결론을 낼 수도 있는데, 이 차이는 east asian의 cultural practice 때문이지 특정 인종에만 있는 HLA allele의 차이가 아니기 때문이다.)
이러한 Ancestry와 관련된 문제는 PCA(Principal component analysis)를 통해 얻은 PCs를 GWAS regression model에 공변량으로 포함시킴으로써 해결할 수 있다.
***PCA, 즉 주성분 분석은 예를 들어 수천개의 SNP 고차원 데이터들을 몇 개의 주성분으로 축소하는 방법이다. 이렇게 하면 Plot위에 점으로 주성분들을 표시할 수 있고, 서로 다른 ancestry를 가진 개체들을 서로 다른 cluster로 나타낼 수 있게 된다.
*********그런데 만약 이렇게 나누어진 cluster들이 진짜 인종 차이 때문인지, 아니면 진짜 독립적인 연관성이 있어서 그런지는 어떻게 구별할 수 있을까? 이 문제를 해결하기 위해 추가적으로 메타분석을 해서 다양한 연구집단에서 일관되게 그 차이가 나타나는지 볼 수도 있고, mixed model과 같은 적합한 modeling을 해볼 수도 있고, Mendelian randomization 등의 방법을 적용해 볼 수 있다.
5. Association testing
주로 연관성을 보기 위해 phenotype의 종류에 따라 linear하거나 logistic regression model이 사용되는데, 아까 위에서 했던 것 같이 ancestry뿐만 아니라 age, sex도 confounding effect를 피하기 위해 stratification 까지 고려하게 되어 공변량을 추가하게 되면, 통계검정력이 줄어들 수 있다. 이럴 때 "mixed model"을 쓰면 통계검정력을 올리는 데 도움이 될 수 있다.
통계검정력이 나왔으니 다들 일반적인 의학논문에서 보던 p value 0.05 를 생각할 텐데.. genetic variant를 찾는 세계에선 우선 association 자체가 수백만개이기 때문에 1종 오류를 감안하면 검정력이 크게 떨어지게 된다. 이렇게 다중검정을 할 때 Bonferroni testing threshold를 적용해 일반적 significance threshold를 number of indepedent tests로 나누어 보면 false discovery를 줄일 수 있다. 실제로 100만개의 independent common genetic variant에 대해 적용하면 유의수준은 P < 5 × 10–8 가 된다. (0.05/1000000)
적절한 threshold를 정하는 건 쉽지 않고, population에 따라 달라질 수 있다!! 만약 effective population size가 커진다면 우연에 의한 연관성이 많이 나타날 수 있기 때문에 false positive를 줄이기 위해 p value threshold를 좀 더 엄격하게 설정해야 될 수도 있다. 만약 minor allele frequency 관계에 있는 유전변이라면 sample size가 커질수록 p value threshold 가 낮아질 수도 있는데, minor allele frequency variant일수록 LD관계가 적기 때문에 test를 더 많이 수행해야 하기 때문이다. (분모가 커지니까)
****Mixed model
나도 수식은 헷갈리지만 linear regression model for GWAS에서 잠시 component들만 따로따로 살펴보면, Y는 phenotype의 vector 값이고, Wα를 잘 보면 밑에 첨자가 없다. 이는 표현형에 영향을 미치는 공변량의 효과를 설명하는 건데 어떻게 보면 이미 정해진 값이라고 생각하면 수월하다. 우리가 알고 싶은 유전자 변이가 형질에 미치는 영향과 별개로 표현형에 영향을 미칠 수 있는 기타 값인 것이다. Xsβs는 s라는 변수에 따라 바뀌는 값인데, 이는 SNP effect size이다. g는 random effect로서, 분석 중인 SNP 외 다른 SNP들이 표현형에 미치는 polygenic effect를 나타낸다. (이 부분이 mixed model의 핵심이라 생각되는데, 이 polygenic effect를 일일히 다 고려하긴 힘드니 평균이 0이고 분산이 일정한 모델이라고 여기는 것이다.) e는 모델이 설명하지 못하는 residual error의 역시 random effect를 의미한다.
6. Meta-analysis
GWAS에선 Sample size가 클 수록 좋기 때문에, 여러 코호트들로부터 온 데이터들을 함께 분석해야 할 때가 많다. Meta analysis는 GWAS의 primary outcome인 summary statistics를 가지고 이루어진다. Summary statistics는 검사한 모든 SNP들과 그 Effect size를 포함해서 SNP ID, SNP location, genomic build, allels, strand, standard error 와 p value, test statistic, minor allele frequency와 sample size가 포함되어 있다.
일반적인 GWAS design은 case-control study 인데, 보통은 원래 인구에서의 case frequency와 맞지 않아도 연구를 위해 case군을 "actively select" 한다. 질병발생빈도가 1%보다 낮은 경우, 질병상태가 알려져 있지 않은 모집단 코호트에서 대조군을 선택하는 것은 연구에 크게 효과가 없을 수 있기 때문에, 대조군을 특성에 맞게 matching 하는게 유리하다는 말이다. 특히 성별과 ancestry에 대해 actively matching을 시행한다.
그런데 흥미롭게도 Family-based GWAS에서는 이미 Ancestry에 대해 matching이 이루어진 상황과 비슷하다. 가계 내 GWAS 연구 방법은 일반적으로 특정 유전자형이 가족 내에서 어떻게 분리되는지를 조사하기 위해 전이 불균형 검사 (Transmission disequilibrium test)를 이용하는데 이는 특정 유전자형이 질병과 관계되어 있는지 확인하는 방법이다. 가계 내 방법은 population stratification 문제에서 immune하다.
Isolated population에선 다른 곳에선 rare한 variant들이 보다 higher frequency로 존재할 수도 있다는 점이 key advantage이다. 보통 근거리에 있는 LD가 isolated population에서는 long-range로 존재하는 경우가 있어 impuation accuracy를 올리는데 기여할 수도 있다. Isolated population에선 그 finding이 재현성이 떨어질 수도 있다는 단점이 있으나, 동일 유전자와 관계된 다른 변이를 찾는 것이 도움이 될 수 있다. 예를 들어 특정 isolated population에서 APOA5라는 변이가 TG level과 관계있다는 것이 알려졌으나 유럽에서는 이 변이가 MI와 관계 있다는 점이 밝혀지며 이 유전자 변이가 중요 역할을 한다는 것을 밝혀내는데 도움이 된다는 것이다. (이해하기 쉽지 않음)
7. Replication
Discovery와 Independent replication cohort 간 effect size를 비교는 중요한데, 이때 winner's curse라고 일컬어지는, 처음 발견한변이의 effect size estimate를 과대평가하는 것을 경계해야 한다.
8. Post-GWAS analyses
여기까지 오는데 한참 걸린 것 같은데.. 이제부터가 정말 시작이라 생각한다.
GWAS를 하면 Summary statistics가 primary output이라 바로 위에서 언급을 했는데, 크게는 p value와 effect size 그리고 test한 genetic variant와 phenotype of interest 간의 방향성에 대한 정보들이 포함되어 있다. 이는 routinely 하게 manhattan plots과 quantile-quantile plot으로 R을 사용해 시각화될 수 있다.
이후 본격적인 Post-GWAS analyses가 이루어지는데, 이렇게 함으로써 causal variant가 무엇인지, 그것들의 functional interpretation는 어떤 것이고 biological pathway에서 어떤 역할을 하는지를 파악할 수 있게 된다.
Post-GWAS analyses에는 크게 4가지가 있다.
1 - Statistical fine-mapping
Causal variant를 찾는 과정에서 대부분은 보통 non-causal variant들이고, 이들은 LD 때문에 Clustered in risk loci, 즉 덩어리째로 있어 causal variant만 콕 찝어내는 것을 어렵게 한다. (아래 Figure의 b 에서 blue box로 표시된 것처럼 clustered 되어 나타난다.) Fine-mapping은 LD와 연관성 분석을 통해 얻어낸 패턴에 기초해 가장 Causal하게 보이는 set of variants를 선별하는 작업이다. 이러한 연관성 신호를 가장 쉽게 설명하는 변이를 credible variants라고 하고, 그 중에서도 가장 significnant한 association을 가지는 lead variant가 보통 causal variant일 것으로 생각되나 반드시 그렇지는 또 않다ㅎㅎ...
왜냐하면 실제 원인 변이가 되는 위치 옆에 비원인 변이들이 여러 개 있고 이 신호들의 combination으로 인해 원인 변이의 신호를 넘어설 수 있기 때문이다. 이러한 상황은 variant genotype을 imputation할 때의 heterogeneity, 즉 품질같은 문제 때문에 생길 수 있는데 이는 인접한 variants 간 LD 관계로 인해서 더 쉽게 나타나게 된다.
우선 진짜 lead varaint를 알기 위해 conditional association analysis, 즉 조건부 연관 분석을 사용한다.
아래 Figure를 보면 위 row에서 signal이 가장 높던 variant들이 lead SNP conditioning 후에는 없어진 것들이 보인다. Lead variant를 공변량으로 놓아 다른 변이들의 영향성을 평가할 때 나타나는 lead variant를 다시 공변량으로 놓아 그 과정을 계속 반복하는 것이다. (a.k.a stepwise conditional analysis) 이런 과정을 통해 타 variant들의 영향을 충분히 고려했을 때의 (진짜?) lead variant를 파악할 수 있게 된다. (이 과정은 처음 선택한 순서에 영향을 받기 때문에 처음 lead variant를 잘 선택하는 것 또한 중요하다.)
조건부 연관 분석외에 다른 방법으로는 Bayesian 모델을 활용한 분석이 있는데, 이 경우 유전자형 추정 정확도와 같은 추가 정보를 알 수 있지만 여러 독립적인 신호가 존재할 때 정확성이 떨어질 수 있다는 단점이 있다.
****** Bayesian model by ChatGPT
Bayesian 통계의 핵심 아이디어는 새로운 증거(데이터)가 주어졌을 때, 기존의 신념(또는 확률)을 어떻게 갱신할 수 있는지를 체계적으로 계산하는 것
연관성 있는 SNP들 중 credible SNP를 찾는 것은 LD관계가 확고할 때 어려운 일이다. 예를 들어 Inflammatory bowel disease의 GWAS에서 Fine-mapping을 해서 찾은 single candidate causal variant는 전체 loci의 12%밖에 되지 않았고 1-5개 candidate causal variant를 찾은 경우도 전체 loci의 30%뿐이었다. 아무튼 이런 작업을 도와주는 방법으로 앞 글에서 잠깐 나왔던 eQTL (expression quantitative trait loci)을 활용해 SNP의 functional annotation을 integrate하는 방법도 있고, trans-ethnic GWAS를 meta-analysis하는 방법도 있다. (잘 와닿지 않았는데 예를 들어 European에서 SNP A와 B가 밀접한 LD 관계이어서 둘 중 어떤 것이 credible variant인지 구별이 어려운 상황에서, Asia에서 같은 형질에 대해 SNP A와 C가 느슨한 LD 관계라면 연구자들은 독립적인 관계를 보이는 SNP A와 C에 대해 연구를 수행하면 실제 Credible varaint가 어떤 것인지 알 수 있다.)
2 - Functional inference from GWAS
GWAS를 하는 데 있어 가장 주요한 일은 단순히 수천개의 genetic variant가 있다 선에서 끝나지 않는다. Causal variant들이 단백질이나 enhancer function에 미치는 것과 같이 즉각적 effect를 알아내거나, 해당 변이가 어떤 유전자에 작용해서 질병과 상호작용을 하는지, 세포와 생리학적 수준에서 일어나는 일련의 pathway들을 알아내는 데 그 의의가 있다. (현재 이러한 정보들은 FTO나 SORT1과 같은 몇몇의 유전자에 대해서만 존재한다.)
3 - Determining the affected gene
Credible variant를 찾는것보다도 더 중요한 것은 affected gene을 찾는 것이다. 그런데 대부분의 fine-mapped SNP는 Coding region에 없어 단백질 구조에 직접적 영향을 끼치지 못한다. (밝혀지지 않은 regulatory function만 있을 뿐..) 그래서 쓰이는 방법이 molQTL(molecular quantitative trait loci) analysis이고, eQTL이 RNA expression과 관계된 loci를 분석하는 것처럼 molecular phenotype인 splicing, chromatin accessibility or methylation status과 관계된 loci를 분석하는 것이다.
eQTL에서 얻은 정보를 GWAS 정보와 통합하면 특정 변이가 조절할 가능성이 있는 유전자와 그 변이가 어떻게 질병이나 형질에 영향을 미치는 지를 알 수 있게 된다. 이때 사용되는 것이 co-localization approach이고 regulartory association과 disease association이 같은 causal variant를 공유하는 loci를 특정할 수 있게 된다.
( GWAS 위험 좌위의 작동 메커니즘을 이해하기 위해서는 특정 조직 유형에서 어떤 유전자가 영향을 받는지를 파악하는 것이 도움이 됩니다. 예를 들어, 동일한 변이가 GWAS 좌위와 유전자 발현 모두에 영향을 미친다면, 해당 유전자와 조직이 질병 메커니즘에 중요한 역할을 할 수 있습니다. Hormozdiari F et al, 2016)
molQTL은 주로 non-coding 영역에서 발생한 변이가 잡한 유전자 조절 과정에서 어떤 역할을 하는지를 다루므로 coding variant 분석이 변이가 단백질에 미치는 직접적인 영향을 다루는 것보다 덜 명확하다.
4 - Determining regulatory pathways and cellular effects
GWAS에서 발견된 유전적 변이가 특정 생물학적 과정이나 경로에 어떻게 영향을 미치는지를 이해하는 것이 중요하다.
다음 글에서는 GWAS의 Application 을 중점적으로 살펴보고, stroke에서는 어떤 식으로 사용이 되고 있는지 몇몇 저널 리뷰를 통해 알아보도록 하겠다.
References
Uffelmann, E., Huang, Q.Q., Munung, N.S. et al. Genome-wide association studies. Nat Rev Methods Primers 1, 59 (2021). https://doi.org/10.1038/s43586-021-00056-9
Hormozdiari F, van de Bunt M, Segrè AV, Li X, Joo JWJ, Bilow M, Sul JH, Sankararaman S, Pasaniuc B, Eskin E. Colocalization of GWAS and eQTL Signals Detects Target Genes. Am J Hum Genet. 2016 Dec 1;99(6):1245-1260. doi: 10.1016/j.ajhg.2016.10.003. Epub 2016 Nov 17. PMID: 27866706; PMCID: PMC5142122.
Spain, Sarah & Barrett, Jeffrey. (2015). Strategies for fine-mapping complex traits. Human molecular genetics. 24. 10.1093/hmg/ddv260
'GENETICS' 카테고리의 다른 글
Mendelian Randomization - Essential for study design (1) | 2024.09.20 |
---|---|
LD Block 에 대해 (0) | 2024.09.12 |
PRS calculation (2024 GENESIS-K 유전체 강의 정리) (3) | 2024.08.26 |
GWAS의 Application (3) (0) | 2024.08.24 |
GWAS - 전장 유전체 분석 Introduction (1) (0) | 2024.08.18 |
댓글