본문 바로가기
GENETICS

ped file

by 절실한 사람 2024. 9. 30.
728x90
반응형

.ped 파일의 기본 구조


.ped 파일은 다음과 같은 6개의 고정된 필드와, 그 뒤에 오는 각 변이에 대한 유전형 데이터로 이루어져 있습니다. 모든 변이에 대해 두 개의 대립유전자가 기록됩니다.

Family ID (FID): 가계 ID를 나타냅니다.
Individual ID (IID): 개체 ID입니다.
Paternal ID (PID): 아버지의 ID (없을 경우 0).
Maternal ID (MID): 어머니의 ID (없을 경우 0).
Sex (Sex): 성별을 나타냅니다 (1 = 남성, 2 = 여성, 0 = 정보 없음).
Phenotype (Phenotype): 표현형 정보 (1 = 통제, 2 = 사례, -9 또는 0 = 정보 없음).
Genotype Data: 이후에는 모든 변이에 대한 유전형 데이터가 대립유전자 두 개씩 공백으로 구분되어 이어집니다.

 

==> Chatgpt로 생성한 무작위 예시입니다

FID1   IID1   0   0   1   2   A A   G G   T T   C C   A T   G G
FID1   IID2   0   0   2   1   A G   G T   T T   C G   A A   G T
FID2   IID3   0   0   1  -9   T T   G G   T A   C C   A G   G G
FID2   IID4   0   0   2   2   A T   G G   T T   C C   T T   G A

 

실제 데이터에선 저 뒷부분 유전형 데이터에 I, D 즉 Insertion, Deletion이 포함된 경우가 많습니다.

그 부분을 인델 변이라고 합니다.

인델 변이는 다음을 참조하시면 좋을 것 같습니다.

 

https://honeytea1215.tistory.com/82

 

SNP와 인델의 차이

유전 변이에 대해 이야기할 때 SNP와 인델(InDel)이라는 용어를 자주 듣게 되는데, 이 두 가지는 각기 다른 변이 유형을 나타내며, 분석 방법도 조금 다릅니다. 1. SNP (Single Nucleotide Polymorphism) - 

honeytea1215.tistory.com

 

유전형 데이터의 개수는 변이 수의 두 배이니 (모계, 부계에서 하나씩 변이를 받으므로) 예를 들어 10,000개의 변이가 있다면 20,000개의 base pair가 있어야 한다.

 

다시말해 용량이 매우매우 커질 수 있다.

728x90
반응형

댓글