안녕하세요.
처음으로 실황 해커톤에 참여하고 완전히 모르는 도메인 지식을 습득하는 과정을 겪었는데,
결과적으로 성능은 나오지 않았지만 도메인 지식을 습득하는 과정이 유의미했다고 보기에 기록을 남깁니다.
대회 목표는 유전체 데이터 변이 정보를 활용해 암종을 분류하는 알고리즘을 개발하는 것입니다.
저희 팀은
1. 유전체 데이터라는 말을 처음 들었고
2. 암종에 대해서도 모르는 상태였으며
3. 데이터를 봐도 전처리에 대해 감을 잡지 못하는
도메인지식이 전무한 상황이였습니다.
그래서 우선 유전체 데이터에 관해 간략한 검색을 해봤고, WT(Wild Type)데이터는 변이가 없는 유전체이므로 제거해도 된다고 판단해 1차 전처리로 모든 행이 WT인 94개의 컬럼을 제거한 후 전처리 방법과 데이터 분석에 대해 알아보기 시작했습니다.
-1차(PLINK)
바이오업계에 종사하시는 R님(이 글을 빌려 다시한번 감사합니다)께 유전체 데이터를 다룰 수 있는 방법이나 관련 정보를 찾을 수 있는 곳을 여쭤봤고, PRS, PLINK를 주로 사용한다는 정보를 토대로 기능을 찾아봤습니다.
1-1차
PRS → GWAS라는 연구 방법에 의해서 각 유전변이별로 해당 질환과의 관계를 숫자로 표시를 해 놓은 데이터를 전부 더하는 방식으로 도출한다는 기본적인 정보를 습득했습니다.
1-2차
.map과 .ped 파일이 필요하고, PED 파일은 공백(공백 또는 탭)으로 구분된 파일로, 아래 기재된 첫 6열은 필수로 필요하다는 사실을 습득했습니다.
- 가족 신분증
- 개인 ID
- 아버지 ID
- 모성 ID
- 성별 (1=남성, 2=여성, 기타=모름)
- 표현형
map파일은 아래 기재된 첫 3열이 필수적이였습니다.
- 염색체(1-22, X, Y 또는 배치되지 않은 경우 0)
- rs# 또는 snp 식별자
- 염기쌍 위치(bp 단위)
이 정보를 토대로 주어진 현재 데이터를 PLINK에 적합한 형식으로 변형하기엔 무리가 있어 보인다고 판단해, 다른 방법이 있는지 추가적으로 확인하며 암종에 대해 찾아봤습니다.
1-3차
plink2.0에서는 csv를 ped파일로 변환하면 읽을수있다고 하므로, 암종과 유전체에 대해 분석하는 동안 다른 팀원분께서 관련 정보를 알아봐주셨습니다.
1-4차(최종)
csv 를 ped로 변환하는 작업은 가능하나 기존 plink의 데이터 형식을 요구하는 바는 동일했습니다.
파일 형식만 다르고 구조는 동일해야 작동하므로, 최종적으로 PLINK 사용은 하지 않는다는 결론을 내렸습니다.
-2차(HAIL)
PLINK와 유사한 HAIL을 찾았고 HAIL의 경우에는 csv파일을 table로 읽어와 읽을 수 있다는 정보를 습득했습니다.
2-1차
JAVA에러로 실행이 불가능했고, 오류 해결 코드를 1차적으로 만들었습니다. (by.미삭)
import hail as hl
import os
os.environ['JAVA_HOME'] = 'C:\Program Files\Java\jdk-11'
#Hail 초기화
hl.init()
#CSV 파일 읽기
table = hl.import_table('data/train.csv', impute=True)
#데이터 구조 확인
table.describe()
#처음 몇 행 보기
table.show(5)
#특정 열의 요약 통계 보기
table.summary()
#특정 열에 대한 집계 함수 사용 예시
result = table.aggregate(hl.agg.stats(table.numeric_column))
print(result)
2-2차(최종)
그러나 GWAS를 진행하려면 vcf파일이 필수적으로 필요했고, 도메인지식도 전무한 당장은 사용할 방법도 필요도 없었기 때문에 기존 제공된 csv파일의 내에서 정리하자는 최종적인 결론에 이르렀습니다.
그렇다면 데이터 분석을 해봐야겠습니다.
데이터분석
1차 : 유전체의 '변이'
유전체의 변이가 암종 분류에 유의미하다는 사실은 이 대회의 목표로도 알 수 있기 때문에, 1차적으로는 유전체의 변이에 집중했습니다.
1차 분석을 토대로, 암종 별 상위 5개 변이유전체만 추출하기로 하였고,
암종 별 WT가 아닌 상위 5개 변이유전체를 추출한 파일(by.미삭)을 토대로 데이터를 정제했습니다.
1. 주요 변이체 확인 및 최종의견 필요 암종
- KIPAN(신장암) → **VHL, MTOR**, KMT2D
- 변이가 154번 일어난 **VHL**의 경우 ‘신장투명암세포종’에서 높은 변이를 나타냄.
- MTOR은 신장암의 변이와 암세포 성장에 연관이 있으므로, VHL 변이와 복합적으로 작용하는 듯.
- KMT2D는 다른 데이터에서도 존재하듯, 암의 발생 및 진행에 주요 역할을 함.
= 신장암은 VHL 유전체변이의 영향을 많이 받는다
- KIRC(신장 투명세포암종) → **VHL**, **MTOR**, DST, KMT2D
- 신장암과 동일하게 VHL의 영향이 큼.
- DST와 MTOR은 보조적이나, MTOR을 표적치료대상으로 하는 경우도 있으므로 MTOR의 사이드이펙트가 큰듯.
- KMT2D또한 신장암과 동일하게 암자체에 영향.
- PABPC1는 RB1처럼 세포주기 조절에 영향을 미치지만, 아직 연구되지 않았으므로 1차적으론 제외해도 될 듯.
신장 변이체 : VHL, MTOR, DST
암 변이체 : KMT2D
= 신장암은 유전체 변이의 영향을 받는다
@미삭 : KIRC와 KIPAN을 굉장히 헷갈려 할 수 있을 듯.
- LAML(급성 골수성 백혈병) → **NPM1, IDH1, IDH2, RUNX1,** TP53
- NPM1의 변이가 백혈병 환자의 30%의 환자에게 발견됨.
- DIH1&2도 환자의 20%에 발병.
- RUNX1는 10%
- LGG(저등급 신경교종) → **IDH1**, ATRX, TP53
- IDH1이 환자의 7-80%에 발견. 매우중요함.
- ATRX또한 변이가 자주 발생함.
- SKCM(피부흑색종) → **BRAF**, PCLO, MXRA5
- BRAF의 V600E변이가 특히 흑색종의 주요 원인.
- PCLO나 MXRA5도 진행/전이에 영향.
흑색종 변이체 : BRAF, PCLO, MXRA5
@미삭 →유전체 변이 개수가 10이상인 유전체 변이 개수 1221개, 1개 이상은 3934개
유전체 변이 90이하 부터는 순차적으로 내려가므로 해당암이 발생했을 경우 최소 1221개는 돌연변이가 되었을가능성이 높다고 판단됨
- LUAD(선암형 폐암) → **EGFR, ALK, KRAS,** TP53
- TP53 폐암에서 흔함.
- 여성 비흡연자에게 흔하게 발생할 수 있다는 걸 보니, 호르몬유전체의 부가적역할이 클지도모르겠다.
- CESC(자궁경부암) → **PIK3CA**, SYNE1, DST, RYR2,
- PIK3CA는 자궁경부암의 진행고 관련이 있음.
- 다른 유전체도 암의 발달에 영향을 주긴 하나, 미미한 듯…? PIK3CA가 변이되어 암이 생겼을 때 암 진행이나 종양번식에 도움을 주는 유전체정도같음.
@미삭 →유전체 변이 개수가 10이상인 유전체 변이 개수 42개, 1개 이상은 2905개
위 설명에 추가로 SYNE1(2위)에 대한 value_counts() 확인 필요
- THYM(흉선암) → **HRAS, TP53,** NF1, PCLO
- HRAS는 종양 영향. 흉선암에도 영향이 크다.
- PCLO는 신경암인데 흉선암이 신경암인가? 값이 적으니 확인 후 넣어야할듯.
@미삭 →유전체 변이 개수가 10이상인 유전체 변이 개수 0개, 1개 이상은 388개
이 정도면 그 어느 암도 판별하기 어려울 경우 이 암으로 봐도 될정도이다.
희귀암임
- DLBC(B세포 림프종) → **KMT2D**, BTG1, BTG2
- 이름이 너무 길어서 B세포 림프종으로 정리.
- KMT2D는 B세포 림프종에 중요함. KMT2D의 변이는 B림프종이라고 봐도될듯.
- BTG1,2가 림프종의 종양 진행에 영향을 주므로, 세개가 세트..?
- 다른것들은 종양이나 암 침습성에 영향을 주긴 하지만 B림프종과 연관됐다고 보긴 어려울 것 같음.
---
2. 핵심 변이 유전체는 확인되었으나, TP53의 변이 종류 확인이 필요한 암종
- PRAD(전립선암) → **SPOP, TP53**
- SPOP은 전립선암 초기단계에서 대부분 발현
- TP53도 악성도 증가
- 다른 변이체도 영향을 줄 순 있지만, 우선 킵.
@미삭 →유전체 변이 개수가 10이상인 유전체 변이 개수 4개, 1개 이상 1393개
SPOP로 판단하는 것이 좋아보인다.
- LIHC(간세포암)→ **TP53**, **CTNNB1**
- TP53 특히 예후안좋음
- CTNNB1는 부가적(세포증식,촉진)
@미삭 →유전체 변이 개수가 10이상인 유전체 변이 개수 20개, 1개 이상 2394개.
3위인 RYR2 q부터는 2위와 8개 차이이며 이후 19개에서 점차 내려간다.
TP53으로만 판단하기에는 당장 밑에 2개의 암이 TP53을 포함하므로 CTNNB1역시 포함해야 될 것 같다.
- UCEC(자궁내막암) → **PTEN, TP53**, PIK3CA
- PTEN이 자궁내막암의 주요변이
- TP53는 고등급 아형에서 자주 변이함.
- PIK3CA, CTNNB1는 부가적으로 자주 변이함
@미삭 →유전체 변이 개수가 10이상인 유전체 변이 개수 854개, 1개 이상 4003개.
PIK3CA(2위) : 유방암, 자궁내막암, 난소
CTNNB1(3위) : EGFR과 함께 유전자 변이가 일어난다면 폐선암일 가능성이 높다.
- HNSC(두경부암) → **PIK3CA,** TP53
- TP53 종양.
- PIK3CA는 특히 두경부암에서 자주 변이됨.
- COAD(결장직장암) → **APC, SYNE1, FBXW7**, TP53
- APC가 대부분의 결장암에서 발견.
- FBXW7또한 결장암에서 변이가 자주 발견됨.
- BRCA(유방암) → **PIK3CA, GATA3, CDH1**, MAP3K1, TP53
- PIK3CA, GATA3이 호르몬수용체 양성 유방암에서 흔하게 발견됨. 메인.
- CDH1은 유방암의 ‘특정 유형’과 관련이 있으나, 이번 암종분류는 유방암 전체를 관통하므로 유방암에 관련있다고 분류한다.
- MAP3K1는 부가적 요소.
- GBMLGG(뇌종양) → **IDH, EGFR**, TP53, ATRX
- IDH1의 R132H 돌연변이가 가장 흔함. 그러나 IDH1의 변이로 생긴 뇌종양은 치료 예후가 좋다.
- TP53,ATRX은 IDH1과 함께 영향을 주는 경우가 많다.
- PTEN은 다른 암에서도 주로 발견됨. 뇌종양에서의 빈도도 높을뿐.
- EGFR은 GBM(교모세포종)에서 주로 발생하며 치료 예후가 좋지않은 변이.
= 뇌종양은 EGFR, IDH1로 생기는데 두 개 다 변이될 필요는 없고, 둘 중 하나가 변이되면 뇌종양이 생긴다고 봄. 치료 예후의 차이같다
- LUSC(편평상피세포 폐암) → **TP53 /** 흡연
- TP53이 폐암에서도 흔함. 이쯤되면 종양변이에선 다 일어난다고 봐도 되는게 아닌가…
- RYR2, SYNE1, SPTA1, PKHD1는 부가적으로 발생하는데, 큰 역할이 없다고 보여짐. 단지 흡연으로 인한 폐의 종양을 TP53변이체가 암으로 만든다~ 정도로 봐야할듯.
---
3. TP53 등 변이 종류 확인 후 2차 분석이 필요한 암종
- SARC(육종) → **TP53**, RB1, RYR1
전체적으로 다른 암종에 비해 두드러지게 변이되지 않음(다른 유전체는 100개이상, 육종은 상위변이체도 50~10번대)
- TP53이 **종양 억제 유전자**로 변이 시 종양에 큰 영향 및 암세포 자체에서도 TP53의 변이가 매우 크다고 함.
- ATRX는 TP53과 복합작용하여 종양진행에 영향을 준다.
- RB1은 세포의 세포증식 조절 역할을 하여, 변이 시 세포증식에 큰 역할. 육종뿐만 아닌 암 자체에도 영향.
= 육종은 뼈, 연부조직에서 발생하는 종양으로 뇌종양과 똑같이 종양인데, TP53이 종양암자체의 변이에 중요한 키포인트인듯.
- STES(위식도암) → **TP53**, **KMT2D**, SYNE1, SPTA1
- TP53은 공격적인 암변이에 항상 크게 작용하는듯.
- SYNE1도 종양 위주.
- SPTA1는 부가적인 요소지만 값이 작은편은 아니니 사이드이펙트라고 봐야할듯.
- PAAD(췌장암) → **TP53, CDKN2A**, GNAS
- CDKN2A이 췌장암에서 자주 변이, 증식
- GNAS는 특정 췌장암 종류에서 영향있는듯.
- OV(난소암) → **COL6A3, AHNAK, NF1**, **TP53**
- TP53이 대부분! 발생한다고함
- COL6A3은 난소암 미세환경에 영향을 주는 듯.
- 다른 변이체도 영향은 있으나, 미미하거나 아직 확실하지않아보임.
- THCA(갑상선암) → **BRAF**
- BRAF의 V600E변이가 관련 암종에 굉장히 주요한듯! 표적치료의 대상이 될정도로 특정암들에 변이가 눈에 띔.
- HRAS와 TG는 부가적 이펙트
- RYR1, CDH8는 단백질유전체관련인데 갑상선과 큰 상관 없어보임. (수치적으로도, 의학적으로도)
@미삭 → 유전체 변이 개수가 10이상인 유전체 변이 개수 1221개, 1개 이상은 907개
1위인 BRAF(186)을 제외한다면 의미가 없다고 보임.
- ACC(부신피질암) → LRIG1, CMPK2, NFKB2, PLEC
- PLEC은 암진행자체에 기여하는듯.
- LRIG1, CMPK2, NFKB2은 부가적.
- 특별히 암에 영향을 주는 변이가 없는데, 부신피질암자체가 스테로이드호르몬으로 인한 종양이므로 외부적 요인에 유전자변이가 작용하는듯.
- PCPG(부신경절종,부신종) → **HRAS**, NF1, ATRX, CHECK2
- HRAS가 종양에 영향이 있으므로, 부신종인 PCPG에도 영향을 미침.
- NF1과 ATRX도 종양을 촉진시킬 수 있으므로 부가적인 효과가 클듯.
- CHEK2는 암 발생 위험을 높일 뿐, 암종과 큰 관련이 있어보이진 않음.
- BLCA(방광암) → **TP53**, PIK3CA, SPTAN1
- TP53 영향 큼
- PIK3CA이 방광암을 촉진시키는 역할
- 굳이 따지자면 SPTAN1이 암의 성장에 부가적인 효과를 더하는듯.
- TGCT(고환암) → KIT, PLEC, NCOR2, CELSR1, PKD1
- KIT은 생식세포에서 주로 암발현. 고환암 환자들은 주로 KIT변이가 있음.
- PLEC도 특정 암들에서는 영향을 미친다곤 하는데, 고환암에서도 상위5개의 변이횟수가 나타났으니 유의미하다고 봐야할듯.
- PKD1은 주로 신장 질환쪽에 영향이 있는데 고환이랑 신장이 관련이 있나..? 추후 다시체크해볼필요있음.
- NCOR2와 CELSR1은 KIT과 복합적으로 작용하는듯하다.
1. 주요 변이체 확인 및 최종의견 필요 암종
2. 핵심 변이 유전체는 확인되었으나, TP53의 변이 종류 확인이 필요한 암종
3. TP53 등 변이 종류 확인 후 2차 분석이 필요한 암종
세 가지 카테고리로 유의미한 변이유전체를 분류하고, 세부 내용과 팀원분의 코멘트를 토대로 1차적으로 정리했습니다.
2차 : 유전체의 '변이 종류'
1차 분류 이후 중복되는 유전체변이가 많다는 사실을 알고 데이터에 있는 유전체의 변이 종류 또한 같은 유전체의 변이일지라도 종류마다 어떤 암종이 되는지에 영향을 미친다고 판단, 변이 종류를 확인해보기로 했습니다.
변이는
1, 동의 변이 (암종에 무의미)
2. 프레임시프트 변이 (단백질 구조 변화)
3. 미스센스 변이 (단백질 기능 변화)
세 가지로 나눠봤다.
동의변이가 아니라면 대체로 암에 영향을 미치는데, ‘특정 암에 영향을 미치는 변이’는 크게 발견되지 않으나 ‘암종 별 변이 종류’는 상이하므로 각 암종 별 변이 종류를 그대로 차용해도 될듯하다는 의견과, 프레임시프트 변이가 대체로 영향을 크게 미친다. 1차적으로 프레임시프트 변이만 사용하고, 성능에 따라 모든 변이종을 추가하는 방법도 고려해보면 좋을 것 같다는 의견을 남기고 각 유전체변이들의 변이종류를 위 세가지 카테고리에 맞춰 나누었다. (스압주의)
1. KIPAN(신장암) : VHL, MTOR
- VHL
```
-동의
L116L
P71P
S65L
S68
-프레임시프트
*214fs
-148fs
D179fs
DG143fs
DI179fs
E186
E189
E26G
E70
FD91fs
G123fs
G127fs
G144fs
G212fs
G39S
GT104fs
H115fs
I147fs
I151Y
I75fs
K159fs
K171fs
L116fs
L128H
L129P
L158V
L158fs
L169P
L178fs
L184fs
L188R
L89H
L89P
LWLF116fs
LWLFRD116fs
N131fs
N174fs
N67fs
N78S
N78Y
N90I
P45S
P86fs
P97fs
Q145
Q164fs
Q195
Q73
Q96
R161
R167fs
R177
R79P
R82P
RC161fs
RP60fs
RS167fs
S111R
S65
S65W
S72fs
S80I
S80R
S80fs
T100fs
T124fs
T133P
V130D
V74G
V74fs
V84fs
W88
Y112
Y112D
Y112fs
Y175fs
-미스센스
C162R
C162Y
D121Y
E189Q
F136V
FAN148fs
H115N
H115Y
I151T
L135F
L153P
L158P
L184P
L188P
N131Y
P45L
P86L
R107G
R107P
R120G
R167Q
V130F
W88R
-넌센스
D28G
E160
H110fs
K196
L101P
L135fs
N78D
S111N
V74Dehd
```
- MTOR
```
-동의
A1835A
E2526E
T1046T
L1212L
-미스센스
A1459P
A1519T
A2210P
C1483F
C1483Y
F1888I
F1888L
G5R
I2017T
I2500M
K1452N
K860N
L1433S
L1460P
L2230V
L2334V
M2327I
S2215Y
T1977K
V2006L
```
2. KIRC(신장 투명세포암종) : VHL, MTOR
- VHL
```
-동의
S65
Q73
Q96
Q145
Q195
E160
E186
E189
G39S
K196
L128H
L129P
R161
R177
S68
W88
Y112
-프레임시프트
R167fs
-148fs
D179fs
DG143fs
DI179fs
FD91fs
G123fs
G127fs
G144fs
G212fs
H110fs
H115fs
I147fs
I206fs
K159fs
K171fs
L116fs
L135fs
L153P
L158P
L158V
L158fs
L169P
L178fs
L184P
L184fs
L188P
L188R
L188fs
L89H
L89P
LWLF116fs
LWLFRD116fs
N131Y
N131fs
N67fs
N90I
P138fs
P86fs
PE172fs
PVL61fs
Q164fs
R107G
R79P
R82P
RP60fs
RS167fs
S111N
S111R
S72fs
S80fs
T100fs
T124fs
T202fs
V137fs
V62fs
V74fs
V84fs
Y112fs
Y175fs
-미스센스
L116L
T133P
P71P
C162F
C162Y
D121Y
E189Q
F136V
H110Y
H115N
H115Y
I151T
I151Y
L135F
R107P
R120G
R167Q
D28G
N78D
P45L
P45S
S80I
S80R
V130D
V165D
V74D
V74G
W88R
Y112D
L101P
S65L
```
- MTOR
```
-동의
A1835A
E2526E
-미스센스
A1459P
A1519T
A2210P
C1483F
C1483Y
F1888L
G5R
I1973F
K1452N
L1460P
L2334V
M2327I
S2215Y
T1977K
V2006L
Y1463S
```
3. THYM(흉선암) : HRAS, TP53
- HRAS - 모든 변이 유의미
```
-미스센스
G12R
G13R
G13V
G60V
K117N
K117R
L120P
```
- TP53 - 모든 변이 유의미
```
-프레임시프트
D281fs
-미스센스
L194R
R248L
R273C
```
4. PRAD(전립선암) : TP53
- TP53 - 모든 변이 유의미
```
-프레임시프트
Q165fs
R209fs
SWPLSS90fs
-미스센스
C141G
C176R
E271V
E285K
G199V
G279E
H193R
M237I
N239D
T256I
Y163H
```
5. LIHC(간세포암) : TP53
- TP53 - 모든 변이 유의미
```
-프레임시프트
HLI193fs
N263fs
RRP248fs
Y327fs
- 미스센스
A161S
C135
C242S
C275Y
E171
E221
E258K
E286K
F113C
G266R
G266V
H193R
K139N
N239S
P151H
Q136
R158H
R174W
R213Q
R248Q
R249S #**
R273H
R306
S215N
V143M
V157F
V157G
Y205C
Y220C
```
6. UCEC(자궁내막암) : TP53
- TP53
```
-동의
A119A
V10V
R213
R342
W146
-프레임시트
D61fs
P278fs
S241fs
T256fs
-미스센스
C141Y
C238F
C238Y
D281Y
G244S
G262V
H178D
H179R
H193P
I232T
M237K
N239D
N239S
P278T
R158C
R175H
R248Q
R248W
R249S
R273C
R273H
S240G
S241C
S241F
S241P
Y205C
Y220C
H193R
```
7. HNSC(두경부암) : TP53
- TP53
```
-동의
E171
E294
E298
G266
G266E
G266R
H193L
H193P
H193R
K132N
L201
P151H
Q104
Q136
Q136P
Q144
Q192
Q331
Q38
Q52
R213
R342
S166
-프레임시트
-222fs
A79fs
AAPTP78fs
C135fs
D42fs
G117fs
G154fs
G302fs
H179fs
KKPLDGE320fs
KTCP139fs
L26fs
P153fs
P36fs
P58fs
P85fs
PS98fs
SSCM240fs
R209fs
R283fs
R65fs
RL110fs
I255fs
-미스센스
A159V
C176S
C176Y
C238F
C238S
C242F
C242S
C242Y
C275F
F270C
G105C
G245S
G245V
H179P
H179R
K292fs
L194P
R158L
R175H
R196
R196P
R248Q
R248W
R249M
R249S
R267P
R273C
R273H
R280G
R280S
R280T
R282W
R283P
R306
R337L
S127F
S127Y
S215fs
T211fs
V143M
V172F
V173G
V173L
V173M
V203fs
V218G
V272M
W91
Y103
Y220C
Y234C
Y236C
Y236D
M237V
P151T
P278S
E258A
E285K
E286K
E286V
H168L
S106R
-인덱스
160_161MA>IS
```
8. COAD(결장직장암) : TP53
- TP53
```
-동의
C176
E258
E285
G266
T231T
R306
R342
-프레임시프트
F212fs
H179fs
I195fs
L35fs
LRK289fs
P27fs
P322fs
P60fs
PK318fs
PS98fs
Q331fs
V122fs
V173fs
R335fs
-미스센스
A138V
A159V
C124G
C135S
C141R
C141S
C141Y
C176F
C238Y
C275Y
E286G
E286K
F109C
F113C
G244D
G245D
G245S
I195T
I251F
K132N
L194H
M237I
P151H
P152R
P278A
P278R
R175C
R175H
R196
R248Q
R248W
R267W
R273C
R273H
R282W
R337C
S127P
V143A
V173M
V274L
Y205C
Y236
G154C
L130F
-정보불충분(미스세스로 간주)
Q331
R213
```
9. BRCA(유방암) : TP53
- TP53
```
-동의
A276A
A86A
C124
C176
E11K
E198
E204
E51
E56
F341S
Q136E
-프레임시트
E204fs
E339fs
F109fs
F212fs
F328fs
G108fs
H115fs
KG292fs
L252fs
N131fs
N239fs
P191fs
P250fs
P77fs
R110fs
R175fs
R209fs
R342fs
S241fs
S303fs
S90fs
T211fs
T256fs
T304fs
V122fs
V147fs
I162fs
L93fs
P128fs
Q167fs
T102fs
-미스센스
A161T
A276P
C135F
C135R
C135W
C135Y
C141R
C141Y
C176F
C238F
C238Y
C242G
D281E
D281V
D281Y
E221
E258
E258Q
E285K
E286A
E286K
E286Q
E287E
G199V
G245D
G266E
G279E
H168P
H179Q
H179R
H179Y
H193L
H193R
H193Y
I195T
I232S
I255F
I255S
K132E
K132N
K164E
L111P
L130V
L194P
L194R
L252P
M237I
N247I
P151A
P151H
P278L
P278T
Q167
Q192
Q331
R175H
R196
R248W
R273C
R273H
R273L
R280
R280K
R280S
R282G
S127P
S183
S215I
T155P
V157F
V157G
V173L
V173M
V197G
V216M
V272M
Y205C
Y205N
Y220C
Y220H
Y220S
Y234C
F113C
L265P
R213
R306
R342
R342P
```
10. GBMLGG(뇌종양) : TP53
- TP53
```
-동의
C176Y
C238F
C238Y
C242Y
D208G
D281A
D281H
E339
F109V
F113V
F270S
G244R
G245S
G266R
H179R
H193L
H193P
H214R
I232S
I254S
I255S
L194R
L265P
M237I
M237V
M246R
P190L
P190R
P278L
Q136E
R158G
R158H
R175H
R213Q
R248L
R248W
R267P
R267Q
R273L
R282W
R337C
S127Y
S241Y
S94
T211I
T230P
V143G
V173M
V216L
V274G
Y205S
Y220C
Y234C
Y236C
P250L
-프레임시프트
E346fs
F212fs
G279fs
HYN233fs
P153fs
K320fs
KT139fs
LI194fs
R283fs
RDRRTEE280fs
T312fs
-미스센스
R273C
R273H
A138T
A161T
C275Y
E286G
H179Y
I195T
K164E
M246V
Q375K
R248Q
R249T
R280K
V216M
D281P
```
11. LUSC(편평상피세포 폐암) : TP53
- TP53
```
-동의
348_349LE>F
E204
E221
E271
E287
E298
E68
K164E
K305
R213
R65
S183
T125P
T155P
T284P
Y103
Y163C
Y205C
Y220C
Y234C
Y234S
Y236C
-프레임시프트
D208fs
D49fs
DIEQWF49fs
F212fs
G154fs
G245fs
NTFRHSVV210fs
P34fs
Q144fs
R158fs
S315fs
V73fs
L265fs
KKPL320fs
-미스센스
A69A
C135W
C141W
C176F
C176Y
C242F
E271K
F270I
G244C
G244D
G245C
G245S
G245V
G262V
H179D
H179L
H179R
H179Y
H193D
H193L
H193R
H214R
I195S
K132R
L111R
M237I
P151R
P250L
P278A
P278L
P278R
P278S
R196
R213G
R248L
R248P
R248Q
R248W
R249G
R249S
R249W
R267P
R273C
R273H
R273L
R273P
R280I
R282H
R282W
R283P
V157F
V172F
V172G
V216E
W91
R110L
R158G
R158H
R158L
R175G
R306
R337L
D259F
D281Y
G266V
```
12. SARC(육종) : TP53, RB1, RYR1
- TP53
```
-동의
E298
N247N
-프레임시프트
C275fs
E336fs
F212fs
N288fs
K120fs
T256fs
V73fs
G334fs
-미스센스
C135R
C238Y
C242S
D259V
D281E
E286K
G244S
G266R
M237I
M246V
N268Y
P278H
Q167
Q317
R156G
R158H
R175H
R175L
R213
R213P
R248W
S215R
W91
Y163N
Y220C
Y220D
Y220H
Y234C
R337L
C275Y
G302V
H179Q
H214R
K132E
K351E
L194R
```
- RB1
```
-동의
L389
Q384
Q504
R552
-프레임시프트
E440fs
H483fs
KHLERCEHR548fs
KQ574fs
N623fs
P800fs
V378fs
V725fs
-미스센스
R334I
```
- RYR1
```
-동의
I4932I
L261L
S1174S
T891T
-미스센스
A1318T
G3390C
R1670H
R830W
E5017
R819
```
13. STES(위식도암) : KMT2D
- KMT2D
```
-동의
A3307T
K1060T
L4399P
P772P
Q1178H
Q3603Q
-프레임시프트
A1390fs
A3425fs
D3165fs
F5149fs
G101fs
H3037fs
K1686fs
K304fs
L656fs
M5124fs
P2206fs
P2516fs
P647fs
P648fs
Q2473fs
-미스센스
A3549V
A4804V
A5339V
C5109F
C5477G
E1682
E3558
E5291K
G4184D
G4777S
K2679
L4559V
L5391L
M1417I
P1011L
P1170T
P1232L
P2407H
P2545H
P4929H
P493P
Q3360K
Q3742
Q3905L
Q3969
Q3988
Q4329
Q5387
R1290W
R2370H
R3082Q
R3099C
R3099H
R4238C
R4478W
R4964C
R5154W
R5159Q
R5179H
R598H
S2251S
T1911T
V2440I
V368V
V390A
Y5451C
A4059T
P4145T
S2002I
```
14. PAAD(췌장암) : GNAS
- GNAS
```
-동의
I119I
-미스센스
D448A
R201C
R201H
```
15. OV(난소암) : NF1, AHNAK
- NF1 - 모든 변이 유의미
```
-프레임시프트
LIILDTL84fs
MTPWLSN1949fs
VF1777fs
-미스센스
E2214
G1863A
K1444E
L194P
L550P
L611F
Q112
```
- AHNAK - 모든 변이 유의미
```
-미스센스
I2702M
I5712T
K4253R
L5588V
M1067V
M4509L
P2656L
P3575S
S5125C
V431M
```
16. THCA(갑상선암) : BRAF
- BRAF
```
-동의
V459V
-미스센스
K601E
V600E
```
17. ACC(부신피질암) : LRIG1, CMPK2, NFKB2, PLEC
- LRIG1 - 모든 변이 유의미
```
-미스센스
L24V
L26V
```
- CMPK2 - 모든 변이 무의미→제외!
```
-동의
C153C
```
- NFKB2
```
-동의
A470A
P423P
-미스센스
Q591H
```
- PLEC
```
-동의
A1697A
A1998A
A2106A
A2113A
A2495A
A2507A
A4624A
D4004D
D4005D
L1321L
-미스센스
G4445R
R1386Q
R1854W
-분류안됨 (무의미)
R3145
Y4668
```
18. PCPG(부신경절종,부신종) : HRAS, NF1
- HRAS - 모든 변이 유의미
```
-미스센스
G13R
Q61K
Q61L
Q61R
```
- NF1 - 모든 변이 유의미
```
-프레임시프트
A188fs
KIDAV428fs
L492fs
L650fs
S1754fs
TV2409fs
V1531fs
-미스센스
C1878
Q400
S413
```
19. BLCA(방광암) : TP53, PIK3CA, SPTAN1
- TP53
```
-동의
C277
E286
E287
K320K
Q331
Q375
-프레임시프트
C124fs
K382fs
P92fs
S240fs
-미스센스
A159P
A159V
C238F
C242F
C277F
E171
E171K
E204Q
E271K
E285K
E285V
G245S
G245V
H214R
K139N
L194F
L257Q
P151H
P152L
P72R
Q144
Q192
R175H
R248P
R248Q
R248W
R273C
R273S
R280K
R280T
S241F
Y220C
```
- PIK3CA
```
-동의
L267L
-미스센스
E365K
E417K
E453Q
E542K
E545K
E545Q
G451V
H1047L
M1043I
P471A
Q546R
```
- SPTAN1 - 모든 변이 유의미
```
-프레임시프트
E1279fs
F2093fs
N1658fs
-미스센스
D1421N
E1366
E1790Q
E1996E
E2111K
E2152K
E2246K
E388
E422K
E796Q
I2054I
L1087L
L762L
M2395I
R37R
V438V
```
20. TGCT(고환암) : KIT, PLEC, NCOR2
- KIT - 모든 변이 유의미
```
-미스센스
D816H
D816V
D816Y
K642E
L576P
N822K
N822Y
V560G
W557C
W557G
W557R
Y578C
```
- PLEC
```
-동의
A2798A
-프레임시프트
A1608fs
-미스센스
A2519D
E1295G
G3572S
L3934Q
P3911P
R3878R
R571W
W4315C
```
- NCOR2
```
-동의
Q496Q
Q499Q
-미스센스
A1764V
D1392E
I1628T
```
- 변이정보 불필요 유전체 (6개)
LAML(급성 골수성 백혈병)
LGG(저등급 신경교종)
SKCM(피부흑색종)
LUAD(선암형 폐암)
CESC(자궁경부암)
DLBC(B세포 림프종)
내용은 길지만 간단하다.
동의변이는 WT와 동일하고, 프레임시프트변이는 암종에 유의미하다.
이분법적으로 나눈 것이다.
3차 : 최종
1. 암종 별로 특정 유전체만 구분
2. 특정 유전체 중 필요 없는 동의 변이를 제외
3. 더 많은 데이터가 필요하다면 프레임시프트변이를 포함
위 세 기준을 토대로 1차와 2차에서 정리한 데이터를 취합했다.
- KIPAN(신장암) : VHL, MTOR, KMT2D
- VHL (동의변이 4종)
- -동의 L116L P71P S65L S68 -프레임시프트 *214fs -148fs D179fs DG143fs DI179fs E186 E189 E26G E70 FD91fs G123fs G127fs G144fs G212fs G39S GT104fs H115fs I147fs I151Y I75fs K159fs K171fs L116fs L128H L129P L158V L158fs L169P L178fs L184fs L188R L89H L89P LWLF116fs LWLFRD116fs N131fs N174fs N67fs N78S N78Y N90I P45S P86fs P97fs Q145 Q164fs Q195 Q73 Q96 R161 R167fs R177 R79P R82P RC161fs RP60fs RS167fs S111R S65 S65W S72fs S80I S80R S80fs T100fs T124fs T133P V130D V74G V74fs V84fs W88 Y112 Y112D Y112fs Y175fs -미스센스 C162R C162Y D121Y E189Q F136V FAN148fs H115N H115Y I151T L135F L153P L158P L184P L188P N131Y P45L P86L R107G R107P R120G R167Q V130F W88R -넌센스 D28G E160 H110fs K196 L101P L135fs N78D S111N V74D
- MTOR (동의변이 4종)
- -동의 A1835A E2526E T1046T L1212L -미스센스 A1459P A1519T A2210P C1483F C1483Y F1888I F1888L G5R I2017T I2500M K1452N K860N L1433S L1460P L2230V L2334V M2327I S2215Y T1977K V2006L
- KIRC(신장 투명세포암종) : VHL, MTOR, DST, KMT2D
- VHL (동의변이 17종)
- -동의 S65 Q73 Q96 Q145 Q195 E160 E186 E189 G39S K196 L128H L129P R161 R177 S68 W88 Y112 -프레임시프트 R167fs -148fs D179fs DG143fs DI179fs FD91fs G123fs G127fs G144fs G212fs H110fs H115fs I147fs I206fs K159fs K171fs L116fs L135fs L153P L158P L158V L158fs L169P L178fs L184P L184fs L188P L188R L188fs L89H L89P LWLF116fs LWLFRD116fs N131Y N131fs N67fs N90I P138fs P86fs PE172fs PVL61fs Q164fs R107G R79P R82P RP60fs RS167fs S111N S111R S72fs S80fs T100fs T124fs T202fs V137fs V62fs V74fs V84fs Y112fs Y175fs -미스센스 L116L T133P P71P C162F C162Y D121Y E189Q F136V H110Y H115N H115Y I151T I151Y L135F R107P R120G R167Q D28G N78D P45L P45S S80I S80R V130D V165D V74D V74G W88R Y112D L101P S65L
- MTOR (동의변이 2종)
- -동의 A1835A E2526E -미스센스 A1459P A1519T A2210P C1483F C1483Y F1888L G5R I1973F K1452N L1460P L2334V M2327I S2215Y T1977K V2006L Y1463S
- THYM(흉선암) : HRAS, TP53, NF1, PCLO
- PRAD(전립선암) : TP53, SPOP
- LIHC(간세포암) : TP53, CTNNB1
- UCEC(자궁내막암) : PTEN, TP53, PIK3CA
- TP53 (동의변이 5종)
- -동의 A119A V10V R213 R342 W146 -프레임시트 D61fs P278fs S241fs T256fs -미스센스 C141Y C238F C238Y D281Y G244S G262V H178D H179R H193P I232T M237K N239D N239S P278T R158C R175H R248Q R248W R249S R273C R273H S240G S241C S241F S241P Y205C Y220C H193R
- HNSC(두경부암) : PIK3CA, TP53
- TP53 (동의변이 23종)
- -동의 E171 E294 E298 G266 G266E G266R H193L H193P H193R K132N L201 P151H Q104 Q136 Q136P Q144 Q192 Q331 Q38 Q52 R213 R342 S166 -프레임시트 -222fs A79fs AAPTP78fs C135fs D42fs G117fs G154fs G302fs H179fs KKPLDGE320fs KTCP139fs L26fs P153fs P36fs P58fs P85fs PS98fs SSCM240fs R209fs R283fs R65fs RL110fs I255fs -미스센스 A159V C176S C176Y C238F C238S C242F C242S C242Y C275F F270C G105C G245S G245V H179P H179R K292fs L194P R158L R175H R196 R196P R248Q R248W R249M R249S R267P R273C R273H R280G R280S R280T R282W R283P R306 R337L S127F S127Y S215fs T211fs V143M V172F V173G V173L V173M V203fs V218G V272M W91 Y103 Y220C Y234C Y236C Y236D M237V P151T P278S E258A E285K E286K E286V H168L S106R -인덱스 160_161MA>IS
- COAD(결장직장암) : APC, SYNE1, FBXW7, TP53
- TP53 (동의변이 7종)
- -동의 C176 E258 E285 G266 T231T R306 R342 -프레임시프트 F212fs H179fs I195fs L35fs LRK289fs P27fs P322fs P60fs PK318fs PS98fs Q331fs V122fs V173fs R335fs -미스센스 A138V A159V C124G C135S C141R C141S C141Y C176F C238Y C275Y E286G E286K F109C F113C G244D G245D G245S I195T I251F K132N L194H M237I P151H P152R P278A P278R R175C R175H R196 R248Q R248W R267W R273C R273H R282W R337C S127P V143A V173M V274L Y205C Y236 G154C L130F -정보불충분(미스세스로 간주) Q331 R213
- BRCA(유방암) : PIK3CA, GATA3, CDH1, MAP3K1, TP53
- TP53 (동의변이 11종)
- -동의 A276A A86A C124 C176 E11K E198 E204 E51 E56 F341S Q136E -프레임시트 E204fs E339fs F109fs F212fs F328fs G108fs H115fs KG292fs L252fs N131fs N239fs P191fs P250fs P77fs R110fs R175fs R209fs R342fs S241fs S303fs S90fs T211fs T256fs T304fs V122fs V147fs I162fs L93fs P128fs Q167fs T102fs -미스센스 A161T A276P C135F C135R C135W C135Y C141R C141Y C176F C238F C238Y C242G D281E D281V D281Y E221 E258 E258Q E285K E286A E286K E286Q E287E G199V G245D G266E G279E H168P H179Q H179R H179Y H193L H193R H193Y I195T I232S I255F I255S K132E K132N K164E L111P L130V L194P L194R L252P M237I N247I P151A P151H P278L P278T Q167 Q192 Q331 R175H R196 R248W R273C R273H R273L R280 R280K R280S R282G S127P S183 S215I T155P V157F V157G V173L V173M V197G V216M V272M Y205C Y205N Y220C Y220H Y220S Y234C F113C L265P R213 R306 R342 R342P
- GBMLGG(뇌종양) : IDH, EGFR, TP53, ATRX
- TP53 (동의변이 55종)
- -동의 C176Y C238F C238Y C242Y D208G D281A D281H E339 F109V F113V F270S G244R G245S G266R H179R H193L H193P H214R I232S I254S I255S L194R L265P M237I M237V M246R P190L P190R P278L Q136E R158G R158H R175H R213Q R248L R248W R267P R267Q R273L R282W R337C S127Y S241Y S94 T211I T230P V143G V173M V216L V274G Y205S Y220C Y234C Y236C P250L -프레임시프트 E346fs F212fs G279fs HYN233fs P153fs K320fs KT139fs LI194fs R283fs RDRRTEE280fs T312fs -미스센스 R273C R273H A138T A161T C275Y E286G H179Y I195T K164E M246V Q375K R248Q R249T R280K V216M D281P
- LUSC(편평상피세포 폐암) : TP53
- TP53 (동의변이 22종)
- -동의 348_349LE>F E204 E221 E271 E287 E298 E68 K164E K305 R213 R65 S183 T125P T155P T284P Y103 Y163C Y205C Y220C Y234C Y234S Y236C -프레임시프트 D208fs D49fs DIEQWF49fs F212fs G154fs G245fs NTFRHSVV210fs P34fs Q144fs R158fs S315fs V73fs L265fs KKPL320fs -미스센스 A69A C135W C141W C176F C176Y C242F E271K F270I G244C G244D G245C G245S G245V G262V H179D H179L H179R H179Y H193D H193L H193R H214R I195S K132R L111R M237I P151R P250L P278A P278L P278R P278S R196 R213G R248L R248P R248Q R248W R249G R249S R249W R267P R273C R273H R273L R273P R280I R282H R282W R283P V157F V172F V172G V216E W91 R110L R158G R158H R158L R175G R306 R337L D259F D281Y G266V
- SARC(육종) : TP53, RB1, RYR1
- TP53 (동의변이 2종)
- -동의 E298 N247N -프레임시프트 C275fs E336fs F212fs N288fs K120fs T256fs V73fs G334fs -미스센스 C135R C238Y C242S D259V D281E E286K G244S G266R M237I M246V N268Y P278H Q167 Q317 R156G R158H R175H R175L R213 R213P R248W S215R W91 Y163N Y220C Y220D Y220H Y234C R337L C275Y G302V H179Q H214R K132E K351E L194R
- RB1 (동의변이 4종)
- -동의 L389 Q384 Q504 R552 -프레임시프트 E440fs H483fs KHLERCEHR548fs KQ574fs N623fs P800fs V378fs V725fs -미스센스 R334I
- RYR1 (동의변이 4종)
- -동의 I4932I L261L S1174S T891T -미스센스 A1318T G3390C R1670H R830W E5017 R819
- STES(위식도암) : TP53, KMT2D, SYNE1, SPTA1
- KMT2D (동의변이 6종)
- -동의 A3307T K1060T L4399P P772P Q1178H Q3603Q -프레임시프트 A1390fs A3425fs D3165fs F5149fs G101fs H3037fs K1686fs K304fs L656fs M5124fs P2206fs P2516fs P647fs P648fs Q2473fs -미스센스 A3549V A4804V A5339V C5109F C5477G E1682 E3558 E5291K G4184D G4777S K2679 L4559V L5391L M1417I P1011L P1170T P1232L P2407H P2545H P4929H P493P Q3360K Q3742 Q3905L Q3969 Q3988 Q4329 Q5387 R1290W R2370H R3082Q R3099C R3099H R4238C R4478W R4964C R5154W R5159Q R5179H R598H S2251S T1911T V2440I V368V V390A Y5451C A4059T P4145T S2002I
- PAAD(췌장암) : TP53, CDKN2A, GNAS
- GNAS (동의변이 1종)
- -동의 I119I -미스센스 D448A R201C R201H
- OV(난소암) : COL6A3, AHNAK, NF1, TP53
- THCA(갑상선암) : BRAF
- BRAF (동의변이 1종)
- -동의 V459V -미스센스 K601E V600E
- ACC(부신피질암) : LRIG1, NFKB2, PLEC
- NFKB2 (동의변이 2종)
- -동의 A470A P423P -미스센스 Q591H
- PLEC (동의변이 10종)
- -동의 A1697A A1998A A2106A A2113A A2495A A2507A A4624A D4004D D4005D L1321L -미스센스 G4445R R1386Q R1854W -분류안됨 (무의미) R3145 Y4668
- PCPG(부신경절종,부신종) : HRAS, NF1, ATRX, CHECK2
- BLCA(방광암) : TP53, PIK3CA, SPTAN1
- TP53 (동의변이 6종)
- -동의 C277 E286 E287 K320K Q331 Q375 -프레임시프트 C124fs K382fs P92fs S240fs -미스센스 A159P A159V C238F C242F C277F E171 E171K E204Q E271K E285K E285V G245S G245V H214R K139N L194F L257Q P151H P152L P72R Q144 Q192 R175H R248P R248Q R248W R273C R273S R280K R280T S241F Y220C
- PIK3CA (동의변이 1종)
- -동의 L267L -미스센스 E365K E417K E453Q E542K E545K E545Q G451V H1047L M1043I P471A Q546R
- TGCT(고환암) : KIT, PLEC, NCOR2, CELSR1, PKD1
- PLEC (동의변이 1종)
- -동의 A2798A -프레임시프트 A1608fs -미스센스 A2519D E1295G G3572S L3934Q P3911P R3878R R571W W4315C
- NCOR2 (동의변이 2종)
- -동의 Q496Q Q499Q -미스센스 A1764V D1392E I1628T
- LAML(급성 골수성 백혈병) → NPM1, IDH1, IDH2, RUNX1, TP53
- LGG(저등급 신경교종) → IDH1, ATRX, TP53
- SKCM(피부흑색종) → BRAF, PCLO, MXRA5
- LUAD(선암형 폐암) → EGFR, ALK, KRAS, TP53
- CESC(자궁경부암) → PIK3CA, SYNE1, DST, RYR2
- DLBC(B세포 림프종) → KMT2D, BTG1, BTG2
내용은 크게 다르지 않으므로 간단하게 정리했다. 이 기준으로 전처리를 여러 차례 거쳐 train, test파일을 전처리했다.
그리고 곽봉팔님께서 데모코드를 작성해주셨고,
이와 별개로 각자 코드를 작성해보자고 의견을 나눈 후
코드를 작성했다.
'말하는 감자' 카테고리의 다른 글
2024 생명연구자원 AI활용 경진대회 후기 2 (코드작성기) (0) | 2024.10.25 |
---|---|
쇼핑몰 지점별 매출액 예측 AI 해커톤 (1) | 2024.10.15 |
고객 대출등급 분류 AI 해커톤 (3) | 2024.10.15 |
당뇨병 위험 분류 예측 AI해커톤 코드 공유 (1) | 2024.09.09 |
집값 예측 AI 해커톤 코드 (3) | 2024.09.09 |