.ped 파일의 기본 구조
.ped 파일은 다음과 같은 6개의 고정된 필드와, 그 뒤에 오는 각 변이에 대한 유전형 데이터로 이루어져 있습니다. 모든 변이에 대해 두 개의 대립유전자가 기록됩니다.
Family ID (FID): 가계 ID를 나타냅니다.
Individual ID (IID): 개체 ID입니다.
Paternal ID (PID): 아버지의 ID (없을 경우 0).
Maternal ID (MID): 어머니의 ID (없을 경우 0).
Sex (Sex): 성별을 나타냅니다 (1 = 남성, 2 = 여성, 0 = 정보 없음).
Phenotype (Phenotype): 표현형 정보 (1 = 통제, 2 = 사례, -9 또는 0 = 정보 없음).
Genotype Data: 이후에는 모든 변이에 대한 유전형 데이터가 대립유전자 두 개씩 공백으로 구분되어 이어집니다.
==> Chatgpt로 생성한 무작위 예시입니다
FID1 IID1 0 0 1 2 A A G G T T C C A T G G
FID1 IID2 0 0 2 1 A G G T T T C G A A G T
FID2 IID3 0 0 1 -9 T T G G T A C C A G G G
FID2 IID4 0 0 2 2 A T G G T T C C T T G A
실제 데이터에선 저 뒷부분 유전형 데이터에 I, D 즉 Insertion, Deletion이 포함된 경우가 많습니다.
그 부분을 인델 변이라고 합니다.
인델 변이는 다음을 참조하시면 좋을 것 같습니다.
https://honeytea1215.tistory.com/82
유전형 데이터의 개수는 변이 수의 두 배이니 (모계, 부계에서 하나씩 변이를 받으므로) 예를 들어 10,000개의 변이가 있다면 20,000개의 base pair가 있어야 한다.
다시말해 용량이 매우매우 커질 수 있다.
'GENETICS' 카테고리의 다른 글
Exon to Genome (2) (0) | 2024.11.06 |
---|---|
Exon to Genome (1) (5) | 2024.11.05 |
SNP와 인델의 차이 (0) | 2024.09.30 |
Mendelian randomization - Critical appraisal checklist (2) | 2024.09.21 |
UK Biobank registration done (0) | 2024.09.21 |
댓글