말하는 감자

2024 생명연구자원 AI활용 경진대회 후기 1 (feat.맨땅에 도메인지식 습득하기)

hoyo 2024. 10. 25. 09:44

안녕하세요.

처음으로 실황 해커톤에 참여하고 완전히 모르는 도메인 지식을 습득하는 과정을 겪었는데,

결과적으로 성능은 나오지 않았지만 도메인 지식을 습득하는 과정이 유의미했다고 보기에 기록을 남깁니다.

 

대회 목표는 유전체 데이터 변이 정보를 활용해 암종을 분류하는 알고리즘을 개발하는 것입니다.

저희 팀은

1. 유전체 데이터라는 말을 처음 들었고

2. 암종에 대해서도 모르는 상태였으며

3. 데이터를 봐도 전처리에 대해 감을 잡지 못하는

도메인지식이 전무한 상황이였습니다.

 

그래서 우선 유전체 데이터에 관해 간략한 검색을 해봤고, WT(Wild Type)데이터는 변이가 없는 유전체이므로 제거해도 된다고 판단해 1차 전처리로 모든 행이 WT인 94개의 컬럼을 제거한 후 전처리 방법과 데이터 분석에 대해 알아보기 시작했습니다.

 

-1차(PLINK)

바이오업계에 종사하시는 R님(이 글을 빌려 다시한번 감사합니다)께 유전체 데이터를 다룰 수 있는 방법이나 관련 정보를 찾을 수 있는 곳을 여쭤봤고, PRS, PLINK를 주로 사용한다는 정보를 토대로 기능을 찾아봤습니다.

1-1차

PRS → GWAS라는 연구 방법에 의해서 각 유전변이별로 해당 질환과의 관계를 숫자로 표시를 해 놓은 데이터를 전부 더하는 방식으로 도출한다는 기본적인 정보를 습득했습니다.

1-2차

.map과 .ped 파일이 필요하고, PED 파일은 공백(공백 또는 탭)으로 구분된 파일로, 아래 기재된 첫 6열은 필수로 필요하다는 사실을 습득했습니다.

  1. 가족 신분증
  2. 개인 ID
  3. 아버지 ID
  4. 모성 ID
  5. 성별 (1=남성, 2=여성, 기타=모름)
  6. 표현형

map파일은 아래 기재된 첫 3열이 필수적이였습니다.

  1. 염색체(1-22, X, Y 또는 배치되지 않은 경우 0)
  2. rs# 또는 snp 식별자
  3. 염기쌍 위치(bp 단위)

이 정보를 토대로 주어진 현재 데이터를 PLINK에 적합한 형식으로 변형하기엔 무리가 있어 보인다고 판단해, 다른 방법이 있는지 추가적으로 확인하며 암종에 대해 찾아봤습니다.

1-3차

plink2.0에서는 csv를 ped파일로 변환하면 읽을수있다고 하므로, 암종과 유전체에 대해 분석하는 동안 다른 팀원분께서 관련 정보를 알아봐주셨습니다.

1-4차(최종)

csv 를 ped로 변환하는 작업은 가능하나 기존 plink의 데이터 형식을 요구하는 바는 동일했습니다.

파일 형식만 다르고 구조는 동일해야 작동하므로, 최종적으로 PLINK 사용은 하지 않는다는 결론을 내렸습니다.

 

-2차(HAIL)

PLINK와 유사한 HAIL을 찾았고 HAIL의 경우에는 csv파일을 table로 읽어와 읽을 수 있다는 정보를 습득했습니다.

2-1차

JAVA에러로 실행이 불가능했고, 오류 해결 코드를 1차적으로 만들었습니다. (by.미삭)

import hail as hl
import os
os.environ['JAVA_HOME'] = 'C:\Program Files\Java\jdk-11'
#Hail 초기화
hl.init()

#CSV 파일 읽기
table = hl.import_table('data/train.csv', impute=True)

#데이터 구조 확인
table.describe()

#처음 몇 행 보기
table.show(5)

#특정 열의 요약 통계 보기
table.summary()

#특정 열에 대한 집계 함수 사용 예시
result = table.aggregate(hl.agg.stats(table.numeric_column))
print(result)

2-2차(최종)

그러나 GWAS를 진행하려면 vcf파일이 필수적으로 필요했고, 도메인지식도 전무한 당장은 사용할 방법도 필요도 없었기 때문에 기존 제공된 csv파일의 내에서 정리하자는 최종적인 결론에 이르렀습니다.

 

그렇다면 데이터 분석을 해봐야겠습니다.

 

데이터분석

1차 : 유전체의 '변이'

유전체의 변이가 암종 분류에 유의미하다는 사실은 이 대회의 목표로도 알 수 있기 때문에, 1차적으로는 유전체의 변이에 집중했습니다.

1차 분석을 토대로, 암종 별 상위 5개 변이유전체만 추출하기로 하였고,

암종 별 WT가 아닌 상위 5개 변이유전체를 추출한 파일(by.미삭)을 토대로 데이터를 정제했습니다.

 

1. 주요 변이체 확인 및 최종의견 필요 암종

- KIPAN(신장암) → **VHL, MTOR**, KMT2D
    - 변이가 154번 일어난 **VHL**의 경우 ‘신장투명암세포종’에서 높은 변이를 나타냄.
    - MTOR은 신장암의 변이와 암세포 성장에 연관이 있으므로, VHL 변이와 복합적으로 작용하는 듯.
    - KMT2D는 다른 데이터에서도 존재하듯, 암의 발생 및 진행에 주요 역할을 함.
    
    = 신장암은 VHL 유전체변이의 영향을 많이 받는다
    
    
- KIRC(신장 투명세포암종) → **VHL**, **MTOR**, DST, KMT2D
    - 신장암과 동일하게 VHL의 영향이 큼.
    - DST와 MTOR은 보조적이나, MTOR을 표적치료대상으로 하는 경우도 있으므로 MTOR의 사이드이펙트가 큰듯.
    - KMT2D또한 신장암과 동일하게 암자체에 영향.
    - PABPC1는 RB1처럼 세포주기 조절에 영향을 미치지만, 아직 연구되지 않았으므로 1차적으론 제외해도 될 듯.  
    신장 변이체 : VHL, MTOR, DST
    암 변이체 : KMT2D
    = 신장암은 유전체 변이의 영향을 받는다
    @미삭 : KIRC와 KIPAN을 굉장히 헷갈려 할 수 있을 듯.
    
- LAML(급성 골수성 백혈병) → **NPM1, IDH1, IDH2, RUNX1,** TP53
    - NPM1의 변이가 백혈병 환자의 30%의 환자에게 발견됨.
    - DIH1&2도 환자의 20%에 발병.
    - RUNX1는 10%
    
- LGG(저등급 신경교종) → **IDH1**, ATRX, TP53
    - IDH1이 환자의 7-80%에 발견. 매우중요함.
    - ATRX또한 변이가 자주 발생함.
    
    
- SKCM(피부흑색종) → **BRAF**, PCLO, MXRA5
    - BRAF의 V600E변이가 특히 흑색종의 주요 원인.
    - PCLO나 MXRA5도 진행/전이에 영향.
    흑색종 변이체 : BRAF, PCLO, MXRA5
    @미삭 →유전체 변이 개수가 10이상인 유전체 변이 개수 1221개, 1개 이상은 3934개
    유전체 변이 90이하 부터는 순차적으로 내려가므로 해당암이 발생했을 경우 최소 1221개는 돌연변이가 되었을가능성이 높다고 판단됨
    
- LUAD(선암형 폐암) → **EGFR, ALK, KRAS,** TP53
    - TP53 폐암에서 흔함.
    - 여성 비흡연자에게 흔하게 발생할 수 있다는 걸 보니, 호르몬유전체의 부가적역할이 클지도모르겠다.
    
- CESC(자궁경부암) → **PIK3CA**, SYNE1, DST, RYR2,
    - PIK3CA는 자궁경부암의 진행고 관련이 있음.
    - 다른 유전체도 암의 발달에 영향을 주긴 하나, 미미한 듯…? PIK3CA가 변이되어 암이 생겼을 때 암 진행이나 종양번식에 도움을 주는 유전체정도같음.
    @미삭 →유전체 변이 개수가 10이상인 유전체 변이 개수 42개, 1개 이상은 2905개
    위 설명에 추가로 SYNE1(2위)에 대한 value_counts() 확인 필요
    
- THYM(흉선암) → **HRAS, TP53,** NF1, PCLO
    - HRAS는 종양 영향. 흉선암에도 영향이 크다.
    - PCLO는 신경암인데 흉선암이 신경암인가? 값이 적으니 확인 후 넣어야할듯.
    @미삭 →유전체 변이 개수가 10이상인 유전체 변이 개수 0개, 1개 이상은 388개
    이 정도면 그 어느 암도 판별하기 어려울 경우 이 암으로 봐도 될정도이다.
    희귀암임
    
- DLBC(B세포 림프종) → **KMT2D**, BTG1, BTG2
    - 이름이 너무 길어서 B세포 림프종으로 정리.
    - KMT2D는 B세포 림프종에 중요함. KMT2D의 변이는 B림프종이라고 봐도될듯.
    - BTG1,2가 림프종의 종양 진행에 영향을 주므로, 세개가 세트..?
    - 다른것들은 종양이나 암 침습성에 영향을 주긴 하지만 B림프종과 연관됐다고 보긴 어려울 것 같음.

---

2. 핵심 변이 유전체는 확인되었으나, TP53의 변이 종류 확인이 필요한 암종

- PRAD(전립선암) → **SPOP, TP53**
    - SPOP은 전립선암 초기단계에서 대부분 발현
    - TP53도 악성도 증가
    - 다른 변이체도 영향을 줄 순 있지만, 우선 킵.
    @미삭 →유전체 변이 개수가 10이상인 유전체 변이 개수 4개, 1개 이상 1393개
    SPOP로 판단하는 것이 좋아보인다.
    
- LIHC(간세포암)→ **TP53**, **CTNNB1**
    - TP53 특히 예후안좋음
    - CTNNB1는 부가적(세포증식,촉진)
    @미삭 →유전체 변이 개수가 10이상인 유전체 변이 개수 20개, 1개 이상 2394개.
    3위인 RYR2 q부터는 2위와 8개 차이이며 이후 19개에서 점차 내려간다.
    TP53으로만 판단하기에는 당장 밑에 2개의 암이 TP53을 포함하므로 CTNNB1역시 포함해야 될 것 같다.
    
- UCEC(자궁내막암) → **PTEN, TP53**, PIK3CA
    - PTEN이 자궁내막암의 주요변이
    - TP53는 고등급 아형에서 자주 변이함.
    - PIK3CA, CTNNB1는 부가적으로 자주 변이함
    @미삭 →유전체 변이 개수가 10이상인 유전체 변이 개수 854개, 1개 이상 4003개.
    PIK3CA(2위) : 유방암, 자궁내막암, 난소
    CTNNB1(3위) : EGFR과 함께 유전자 변이가 일어난다면 폐선암일 가능성이 높다.
    
- HNSC(두경부암) → **PIK3CA,** TP53
    - TP53 종양.
    - PIK3CA는 특히 두경부암에서 자주 변이됨.
   
- COAD(결장직장암) → **APC, SYNE1, FBXW7**, TP53
    - APC가 대부분의 결장암에서 발견.
    - FBXW7또한 결장암에서 변이가 자주 발견됨.

- BRCA(유방암) → **PIK3CA, GATA3, CDH1**, MAP3K1, TP53
    - PIK3CA, GATA3이 호르몬수용체 양성 유방암에서 흔하게 발견됨. 메인.
    - CDH1은 유방암의 ‘특정 유형’과 관련이 있으나, 이번 암종분류는 유방암 전체를 관통하므로 유방암에 관련있다고 분류한다.
    - MAP3K1는 부가적 요소.

- GBMLGG(뇌종양) → **IDH, EGFR**, TP53, ATRX
    - IDH1의 R132H 돌연변이가 가장 흔함. 그러나 IDH1의 변이로 생긴 뇌종양은 치료 예후가 좋다.
    - TP53,ATRX은 IDH1과 함께 영향을 주는 경우가 많다.
    - PTEN은 다른 암에서도 주로 발견됨. 뇌종양에서의 빈도도 높을뿐.
    - EGFR은 GBM(교모세포종)에서 주로 발생하며 치료 예후가 좋지않은 변이.
    = 뇌종양은 EGFR, IDH1로 생기는데 두 개 다 변이될 필요는 없고, 둘 중 하나가 변이되면 뇌종양이 생긴다고 봄. 치료 예후의 차이같다

- LUSC(편평상피세포 폐암) → **TP53 /** 흡연
    - TP53이 폐암에서도 흔함. 이쯤되면 종양변이에선 다 일어난다고 봐도 되는게 아닌가…
    - RYR2, SYNE1, SPTA1, PKHD1는 부가적으로 발생하는데, 큰 역할이 없다고 보여짐. 단지 흡연으로 인한 폐의 종양을 TP53변이체가 암으로 만든다~ 정도로 봐야할듯.

---

3. TP53 등 변이 종류 확인 후 2차 분석이 필요한 암종

- SARC(육종) → **TP53**, RB1, RYR1
    전체적으로 다른 암종에 비해 두드러지게 변이되지 않음(다른 유전체는 100개이상, 육종은 상위변이체도 50~10번대)
    - TP53이 **종양 억제 유전자**로 변이 시 종양에 큰 영향 및 암세포 자체에서도 TP53의 변이가 매우 크다고 함.
    - ATRX는 TP53과 복합작용하여 종양진행에 영향을 준다.
    - RB1은 세포의 세포증식 조절 역할을 하여, 변이 시 세포증식에 큰 역할. 육종뿐만 아닌 암 자체에도 영향.
    = 육종은 뼈, 연부조직에서 발생하는 종양으로 뇌종양과 똑같이 종양인데, TP53이 종양암자체의 변이에 중요한 키포인트인듯.
   
- STES(위식도암) → **TP53**, **KMT2D**, SYNE1, SPTA1
    - TP53은 공격적인 암변이에 항상 크게 작용하는듯.
    - SYNE1도 종양 위주.
    - SPTA1는 부가적인 요소지만 값이 작은편은 아니니 사이드이펙트라고 봐야할듯.

- PAAD(췌장암) → **TP53, CDKN2A**, GNAS
    - CDKN2A이 췌장암에서 자주 변이, 증식
    - GNAS는 특정 췌장암 종류에서 영향있는듯.

- OV(난소암) → **COL6A3, AHNAK, NF1**, **TP53**
    - TP53이 대부분! 발생한다고함
    - COL6A3은 난소암 미세환경에 영향을 주는 듯.
    - 다른 변이체도 영향은 있으나, 미미하거나 아직 확실하지않아보임.
  
- THCA(갑상선암) → **BRAF**
    - BRAF의 V600E변이가 관련 암종에 굉장히 주요한듯! 표적치료의 대상이 될정도로 특정암들에 변이가 눈에 띔.
    - HRAS와 TG는 부가적 이펙트
    - RYR1, CDH8는 단백질유전체관련인데 갑상선과 큰 상관 없어보임. (수치적으로도, 의학적으로도)
    @미삭 → 유전체 변이 개수가 10이상인 유전체 변이 개수 1221개, 1개 이상은 907개
    1위인 BRAF(186)을 제외한다면 의미가 없다고 보임.
    
- ACC(부신피질암) → LRIG1, CMPK2, NFKB2, PLEC
    - PLEC은 암진행자체에 기여하는듯.
    - LRIG1, CMPK2, NFKB2은 부가적.
    - 특별히 암에 영향을 주는 변이가 없는데, 부신피질암자체가 스테로이드호르몬으로 인한 종양이므로 외부적 요인에 유전자변이가 작용하는듯.

- PCPG(부신경절종,부신종) → **HRAS**, NF1, ATRX, CHECK2
    - HRAS가 종양에 영향이 있으므로, 부신종인 PCPG에도 영향을 미침.
    - NF1과 ATRX도 종양을 촉진시킬 수 있으므로 부가적인 효과가 클듯.
    - CHEK2는 암 발생 위험을 높일 뿐, 암종과 큰 관련이 있어보이진 않음.

- BLCA(방광암) → **TP53**, PIK3CA, SPTAN1
    - TP53 영향 큼
    - PIK3CA이 방광암을 촉진시키는 역할
    - 굳이 따지자면 SPTAN1이 암의 성장에 부가적인 효과를 더하는듯.

- TGCT(고환암) → KIT, PLEC, NCOR2, CELSR1, PKD1
    - KIT은 생식세포에서 주로 암발현. 고환암 환자들은 주로 KIT변이가 있음.
    - PLEC도 특정 암들에서는 영향을 미친다곤 하는데, 고환암에서도 상위5개의 변이횟수가 나타났으니 유의미하다고 봐야할듯.
    - PKD1은 주로 신장 질환쪽에 영향이 있는데 고환이랑 신장이 관련이 있나..? 추후 다시체크해볼필요있음.
    - NCOR2와 CELSR1은 KIT과 복합적으로 작용하는듯하다.

1. 주요 변이체 확인 및 최종의견 필요 암종

2. 핵심 변이 유전체는 확인되었으나, TP53의 변이 종류 확인이 필요한 암종

3. TP53 등 변이 종류 확인 후 2차 분석이 필요한 암종

 

세 가지 카테고리로 유의미한 변이유전체를 분류하고, 세부 내용과 팀원분의 코멘트를 토대로 1차적으로 정리했습니다.

 

2차 : 유전체의 '변이 종류'

1차 분류 이후 중복되는 유전체변이가 많다는 사실을 알고 데이터에 있는 유전체의 변이 종류 또한 같은 유전체의 변이일지라도 종류마다 어떤 암종이 되는지에 영향을 미친다고 판단, 변이 종류를 확인해보기로 했습니다.

변이는

1, 동의 변이 (암종에 무의미)

2. 프레임시프트 변이 (단백질 구조 변화)

3. 미스센스 변이 (단백질 기능 변화)

세 가지로 나눠봤다.

 

동의변이가 아니라면 대체로 암에 영향을 미치는데, ‘특정 암에 영향을 미치는 변이’는 크게 발견되지 않으나 ‘암종 별 변이 종류’는 상이하므로 각 암종 별 변이 종류를 그대로 차용해도 될듯하다는 의견과,  프레임시프트 변이가 대체로 영향을 크게 미친다. 1차적으로 프레임시프트 변이만 사용하고, 성능에 따라 모든 변이종을 추가하는 방법도 고려해보면 좋을 것 같다는 의견을 남기고 각 유전체변이들의 변이종류를 위 세가지 카테고리에 맞춰 나누었다. (스압주의)

더보기

1. KIPAN(신장암) : VHL, MTOR
    - VHL
        ```
        -동의
        L116L
        P71P
        S65L
        S68
        
        -프레임시프트
        *214fs
        -148fs
        D179fs
        DG143fs
        DI179fs
        E186
        E189
        E26G
        E70
        FD91fs
        G123fs
        G127fs
        G144fs
        G212fs
        G39S
        GT104fs
        H115fs
        I147fs
        I151Y
        I75fs
        K159fs
        K171fs
        L116fs
        L128H
        L129P
        L158V
        L158fs
        L169P
        L178fs
        L184fs
        L188R
        L89H
        L89P
        LWLF116fs
        LWLFRD116fs
        N131fs
        N174fs
        N67fs
        N78S
        N78Y
        N90I
        P45S
        P86fs
        P97fs
        Q145
        Q164fs
        Q195
        Q73
        Q96
        R161
        R167fs
        R177
        R79P
        R82P
        RC161fs
        RP60fs
        RS167fs
        S111R
        S65
        S65W
        S72fs
        S80I
        S80R
        S80fs
        T100fs
        T124fs
        T133P
        V130D
        V74G
        V74fs
        V84fs
        W88
        Y112
        Y112D
        Y112fs
        Y175fs
        
        -미스센스
        C162R
        C162Y
        D121Y
        E189Q
        F136V
        FAN148fs
        H115N
        H115Y
        I151T
        L135F
        L153P
        L158P
        L184P
        L188P
        N131Y
        P45L
        P86L
        R107G
        R107P
        R120G
        R167Q
        V130F
        W88R
        
        -넌센스
        D28G
        E160
        H110fs
        K196
        L101P
        L135fs
        N78D
        S111N
        V74Dehd
        ```
        
    - MTOR
        ```
        -동의
        A1835A
        E2526E
        T1046T
        L1212L
        
        -미스센스
        A1459P
        A1519T
        A2210P
        C1483F
        C1483Y
        F1888I
        F1888L
        G5R
        I2017T
        I2500M
        K1452N
        K860N
        L1433S
        L1460P
        L2230V
        L2334V
        M2327I
        S2215Y
        T1977K
        V2006L
        ```
        
2. KIRC(신장 투명세포암종) : VHL, MTOR
    - VHL
        ```
        -동의
        S65
        Q73
        Q96
        Q145
        Q195
        E160
        E186
        E189
        G39S
        K196
        L128H
        L129P
        R161
        R177
        S68
        W88
        Y112
        
        -프레임시프트
        R167fs
        -148fs
        D179fs
        DG143fs
        DI179fs
        FD91fs
        G123fs
        G127fs
        G144fs
        G212fs
        H110fs
        H115fs
        I147fs
        I206fs
        K159fs
        K171fs
        L116fs
        L135fs
        L153P
        L158P
        L158V
        L158fs
        L169P
        L178fs
        L184P
        L184fs
        L188P
        L188R
        L188fs
        L89H
        L89P
        LWLF116fs
        LWLFRD116fs
        N131Y
        N131fs
        N67fs
        N90I
        P138fs
        P86fs
        PE172fs
        PVL61fs
        Q164fs
        R107G
        R79P
        R82P
        RP60fs
        RS167fs
        S111N
        S111R
        S72fs
        S80fs
        T100fs
        T124fs
        T202fs
        V137fs
        V62fs
        V74fs
        V84fs
        Y112fs
        Y175fs
        
        -미스센스
        L116L
        T133P
        P71P
        C162F
        C162Y
        D121Y
        E189Q
        F136V
        H110Y
        H115N
        H115Y
        I151T
        I151Y
        L135F
        R107P
        R120G
        R167Q
        D28G
        N78D
        P45L
        P45S
        S80I
        S80R
        V130D
        V165D
        V74D
        V74G
        W88R
        Y112D
        L101P
        S65L
        
        ```
        
    - MTOR
        ```
        -동의
        A1835A
        E2526E
        
        -미스센스
        A1459P
        A1519T
        A2210P
        C1483F
        C1483Y
        F1888L
        G5R
        I1973F
        K1452N
        L1460P
        L2334V
        M2327I
        S2215Y
        T1977K
        V2006L
        Y1463S
        ```
        
3. THYM(흉선암) : HRAS, TP53
    - HRAS - 모든 변이 유의미
        ```
        -미스센스
        G12R
        G13R
        G13V
        G60V
        K117N
        K117R
        L120P
        ```
        
    - TP53 - 모든 변이 유의미
        ```
        -프레임시프트
        D281fs
        
        -미스센스
        L194R
        R248L
        R273C
        ```
        
4. PRAD(전립선암) : TP53
    - TP53 - 모든 변이 유의미
        ```
        -프레임시프트
        Q165fs
        R209fs
        SWPLSS90fs
        
        -미스센스
        C141G
        C176R
        E271V
        E285K
        G199V
        G279E
        H193R
        M237I
        N239D
        T256I
        Y163H
        
        ```
        
5. LIHC(간세포암) : TP53
    - TP53 - 모든 변이 유의미
        ```
        -프레임시프트
        HLI193fs
        N263fs
        RRP248fs
        Y327fs
        
        - 미스센스
        A161S
        C135
        C242S
        C275Y
        E171
        E221
        E258K
        E286K
        F113C
        G266R
        G266V
        H193R
        K139N
        N239S
        P151H
        Q136
        R158H
        R174W
        R213Q
        R248Q
        R249S #**
        R273H
        R306
        S215N
        V143M
        V157F
        V157G
        Y205C
        Y220C
        
        ```
        
6. UCEC(자궁내막암) : TP53
    - TP53
        ```
        -동의
        A119A
        V10V
        R213
        R342
        W146
        
        -프레임시트
        D61fs
        P278fs
        S241fs
        T256fs
        
        -미스센스
        C141Y
        C238F
        C238Y
        D281Y
        G244S
        G262V
        H178D
        H179R
        H193P
        I232T
        M237K
        N239D
        N239S
        P278T
        R158C
        R175H
        R248Q
        R248W
        R249S
        R273C
        R273H
        S240G
        S241C
        S241F
        S241P
        Y205C
        Y220C
        H193R
        ```
        
7. HNSC(두경부암) : TP53
    - TP53
        ```
        -동의
        E171
        E294
        E298
        G266
        G266E
        G266R
        H193L
        H193P
        H193R
        K132N
        L201
        P151H
        Q104
        Q136
        Q136P
        Q144
        Q192
        Q331
        Q38
        Q52
        R213
        R342
        S166
        
        -프레임시트
        -222fs
        A79fs
        AAPTP78fs
        C135fs
        D42fs
        G117fs
        G154fs
        G302fs
        H179fs
        KKPLDGE320fs
        KTCP139fs
        L26fs
        P153fs
        P36fs
        P58fs
        P85fs
        PS98fs
        SSCM240fs
        R209fs
        R283fs
        R65fs
        RL110fs
        I255fs
        
        -미스센스
        A159V
        C176S
        C176Y
        C238F
        C238S
        C242F
        C242S
        C242Y
        C275F
        F270C
        G105C
        G245S
        G245V
        H179P
        H179R
        K292fs
        L194P
        R158L
        R175H
        R196
        R196P
        R248Q
        R248W
        R249M
        R249S
        R267P
        R273C
        R273H
        R280G
        R280S
        R280T
        R282W
        R283P
        R306
        R337L
        S127F
        S127Y
        S215fs
        T211fs
        V143M
        V172F
        V173G
        V173L
        V173M
        V203fs
        V218G
        V272M
        W91
        Y103
        Y220C
        Y234C
        Y236C
        Y236D
        M237V
        P151T
        P278S
        E258A
        E285K
        E286K
        E286V
        H168L
        S106R
        
        -인덱스
        160_161MA>IS
        ```
        
8. COAD(결장직장암) : TP53
    - TP53
        ```
        -동의
        C176
        E258
        E285
        G266
        T231T
        R306
        R342
        
        -프레임시프트
        F212fs
        H179fs
        I195fs
        L35fs
        LRK289fs
        P27fs
        P322fs
        P60fs
        PK318fs
        PS98fs
        Q331fs
        V122fs
        V173fs
        R335fs
        
        -미스센스
        A138V
        A159V
        C124G
        C135S
        C141R
        C141S
        C141Y
        C176F
        C238Y
        C275Y
        E286G
        E286K
        F109C
        F113C
        G244D
        G245D
        G245S
        I195T
        I251F
        K132N
        L194H
        M237I
        P151H
        P152R
        P278A
        P278R
        R175C
        R175H
        R196
        R248Q
        R248W
        R267W
        R273C
        R273H
        R282W
        R337C
        S127P
        V143A
        V173M
        V274L
        Y205C
        Y236
        G154C
        L130F
        -정보불충분(미스세스로 간주)
        Q331
        R213
        ```
        
9. BRCA(유방암) : TP53
    - TP53
        ```
        -동의
        A276A
        A86A
        C124
        C176
        E11K
        E198
        E204
        E51
        E56
        F341S
        Q136E
        
        -프레임시트
        E204fs
        E339fs
        F109fs
        F212fs
        F328fs
        G108fs
        H115fs
        KG292fs
        L252fs
        N131fs
        N239fs
        P191fs
        P250fs
        P77fs
        R110fs
        R175fs
        R209fs
        R342fs
        S241fs
        S303fs
        S90fs
        T211fs
        T256fs
        T304fs
        V122fs
        V147fs
        I162fs
        L93fs
        P128fs
        Q167fs
        T102fs
        
        -미스센스
        A161T
        A276P
        C135F
        C135R
        C135W
        C135Y
        C141R
        C141Y
        C176F
        C238F
        C238Y
        C242G
        D281E
        D281V
        D281Y
        E221
        E258
        E258Q
        E285K
        E286A
        E286K
        E286Q
        E287E
        G199V
        G245D
        G266E
        G279E
        H168P
        H179Q
        H179R
        H179Y
        H193L
        H193R
        H193Y
        I195T
        I232S
        I255F
        I255S
        K132E
        K132N
        K164E
        L111P
        L130V
        L194P
        L194R
        L252P
        M237I
        N247I
        P151A
        P151H
        P278L
        P278T
        Q167
        Q192
        Q331
        R175H
        R196
        R248W
        R273C
        R273H
        R273L
        R280
        R280K
        R280S
        R282G
        S127P
        S183
        S215I
        T155P
        V157F
        V157G
        V173L
        V173M
        V197G
        V216M
        V272M
        Y205C
        Y205N
        Y220C
        Y220H
        Y220S
        Y234C
        F113C
        L265P
        R213
        R306
        R342
        R342P
        ```
        
10. GBMLGG(뇌종양) : TP53
    - TP53
        ```
        -동의
        C176Y
        C238F
        C238Y
        C242Y
        D208G
        D281A
        D281H
        E339
        F109V
        F113V
        F270S
        G244R
        G245S
        G266R
        H179R
        H193L
        H193P
        H214R
        I232S
        I254S
        I255S
        L194R
        L265P
        M237I
        M237V
        M246R
        P190L
        P190R
        P278L
        Q136E
        R158G
        R158H
        R175H
        R213Q
        R248L
        R248W
        R267P
        R267Q
        R273L
        R282W
        R337C
        S127Y
        S241Y
        S94
        T211I
        T230P
        V143G
        V173M
        V216L
        V274G
        Y205S
        Y220C
        Y234C
        Y236C
        P250L
        
        -프레임시프트
        E346fs
        F212fs
        G279fs
        HYN233fs
        P153fs
        K320fs
        KT139fs
        LI194fs
        R283fs
        RDRRTEE280fs
        T312fs
        
        -미스센스
        R273C
        R273H
        A138T
        A161T
        C275Y
        E286G
        H179Y
        I195T
        K164E
        M246V
        Q375K
        R248Q
        R249T
        R280K
        V216M
        D281P
        ```
        
11. LUSC(편평상피세포 폐암) : TP53
    - TP53
        ```
        -동의
        348_349LE>F
        E204
        E221
        E271
        E287
        E298
        E68
        K164E
        K305
        R213
        R65
        S183
        T125P
        T155P
        T284P
        Y103
        Y163C
        Y205C
        Y220C
        Y234C
        Y234S
        Y236C
        
        -프레임시프트
        D208fs
        D49fs
        DIEQWF49fs
        F212fs
        G154fs
        G245fs
        NTFRHSVV210fs
        P34fs
        Q144fs
        R158fs
        S315fs
        V73fs
        L265fs
        KKPL320fs
        
        -미스센스
        A69A
        C135W
        C141W
        C176F
        C176Y
        C242F
        E271K
        F270I
        G244C
        G244D
        G245C
        G245S
        G245V
        G262V
        H179D
        H179L
        H179R
        H179Y
        H193D
        H193L
        H193R
        H214R
        I195S
        K132R
        L111R
        M237I
        P151R
        P250L
        P278A
        P278L
        P278R
        P278S
        R196
        R213G
        R248L
        R248P
        R248Q
        R248W
        R249G
        R249S
        R249W
        R267P
        R273C
        R273H
        R273L
        R273P
        R280I
        R282H
        R282W
        R283P
        V157F
        V172F
        V172G
        V216E
        W91
        R110L
        R158G
        R158H
        R158L
        R175G
        R306
        R337L
        D259F
        D281Y
        G266V
        ```
        
12. SARC(육종) : TP53, RB1, RYR1
    - TP53
        ```
        -동의
        E298
        N247N
        
        -프레임시프트
        C275fs
        E336fs
        F212fs
        N288fs
        K120fs
        T256fs
        V73fs
        G334fs
        
        -미스센스
        C135R
        C238Y
        C242S
        D259V
        D281E
        E286K
        G244S
        G266R
        M237I
        M246V
        N268Y
        P278H
        Q167
        Q317
        R156G
        R158H
        R175H
        R175L
        R213
        R213P
        R248W
        S215R
        W91
        Y163N
        Y220C
        Y220D
        Y220H
        Y234C
        R337L
        C275Y
        G302V
        H179Q
        H214R
        K132E
        K351E
        L194R
        ```
        
    - RB1
        ```
        -동의
        L389
        Q384
        Q504
        R552
        
        -프레임시프트
        E440fs
        H483fs
        KHLERCEHR548fs
        KQ574fs
        N623fs
        P800fs
        V378fs
        V725fs
        
        -미스센스
        R334I
        ```
        
    - RYR1
        ```
        -동의
        I4932I
        L261L
        S1174S
        T891T
        
        -미스센스
        A1318T
        G3390C
        R1670H
        R830W
        E5017
        R819
        
        ```
        
13. STES(위식도암) : KMT2D
    - KMT2D
        ```
        
        -동의
        A3307T
        K1060T
        L4399P
        P772P
        Q1178H
        Q3603Q
        
        -프레임시프트
        A1390fs
        A3425fs
        D3165fs
        F5149fs
        G101fs
        H3037fs
        K1686fs
        K304fs
        L656fs
        M5124fs
        P2206fs
        P2516fs
        P647fs
        P648fs
        Q2473fs
        
        -미스센스
        A3549V
        A4804V
        A5339V
        C5109F
        C5477G
        E1682
        E3558
        E5291K
        G4184D
        G4777S
        K2679
        L4559V
        L5391L
        M1417I
        P1011L
        P1170T
        P1232L
        P2407H
        P2545H
        P4929H
        P493P
        Q3360K
        Q3742
        Q3905L
        Q3969
        Q3988
        Q4329
        Q5387
        R1290W
        R2370H
        R3082Q
        R3099C
        R3099H
        R4238C
        R4478W
        R4964C
        R5154W
        R5159Q
        R5179H
        R598H
        S2251S
        T1911T
        V2440I
        V368V
        V390A
        Y5451C
        A4059T
        P4145T
        S2002I
        ```
        
14. PAAD(췌장암) : GNAS
    - GNAS
        ```
        -동의
        I119I
        
        -미스센스
        D448A
        R201C
        R201H
        ```
        
15. OV(난소암) : NF1, AHNAK
    - NF1 - 모든 변이 유의미
        ```
        -프레임시프트
        LIILDTL84fs
        MTPWLSN1949fs
        VF1777fs
        
        -미스센스
        E2214
        G1863A
        K1444E
        L194P
        L550P
        L611F
        Q112
        
        ```
        
    - AHNAK - 모든 변이 유의미
        ```
        -미스센스
        I2702M
        I5712T
        K4253R
        L5588V
        M1067V
        M4509L
        P2656L
        P3575S
        S5125C
        V431M
        ```
        
16. THCA(갑상선암) : BRAF
    - BRAF
        ```
        -동의
        V459V
        
        -미스센스
        K601E
        V600E
        ```
        
17. ACC(부신피질암) : LRIG1, CMPK2, NFKB2, PLEC
    - LRIG1 - 모든 변이 유의미
        ```
        -미스센스
        L24V
        L26V
        ```
        
    - CMPK2 - 모든 변이 무의미→제외!
        ```
        -동의
        C153C
        ```
        
    - NFKB2
        ```
        -동의
        A470A
        P423P
        
        -미스센스
        Q591H
        ```
        
    - PLEC
        ```
        -동의
        A1697A
        A1998A
        A2106A
        A2113A
        A2495A
        A2507A
        A4624A
        D4004D
        D4005D
        L1321L
        
        -미스센스
        G4445R
        R1386Q
        R1854W
        
        -분류안됨 (무의미)
        R3145
        Y4668
        ```
        
    
18. PCPG(부신경절종,부신종) : HRAS, NF1
    - HRAS - 모든 변이 유의미
        ```
        -미스센스
        G13R
        Q61K
        Q61L
        Q61R
        ```
        
    - NF1 - 모든 변이 유의미
        ```
        -프레임시프트
        A188fs
        KIDAV428fs
        L492fs
        L650fs
        S1754fs
        TV2409fs
        V1531fs
        
        -미스센스
        C1878
        Q400
        S413
        ```
        
    
19. BLCA(방광암) : TP53, PIK3CA, SPTAN1
    - TP53
        ```
        -동의
        C277
        E286
        E287
        K320K
        Q331
        Q375
        
        -프레임시프트
        C124fs
        K382fs
        P92fs
        S240fs
        
        -미스센스
        A159P
        A159V
        C238F
        C242F
        C277F
        E171
        E171K
        E204Q
        E271K
        E285K
        E285V
        G245S
        G245V
        H214R
        K139N
        L194F
        L257Q
        P151H
        P152L
        P72R
        Q144
        Q192
        R175H
        R248P
        R248Q
        R248W
        R273C
        R273S
        R280K
        R280T
        S241F
        Y220C
        ```
        
    - PIK3CA
        ```
        -동의
        L267L
        
        -미스센스
        E365K
        E417K
        E453Q
        E542K
        E545K
        E545Q
        G451V
        H1047L
        M1043I
        P471A
        Q546R
        ```
        
    - SPTAN1 - 모든 변이 유의미
        ```
        -프레임시프트
        E1279fs
        F2093fs
        N1658fs
        
        -미스센스
        D1421N
        E1366
        E1790Q
        E1996E
        E2111K
        E2152K
        E2246K
        E388
        E422K
        E796Q
        I2054I
        L1087L
        L762L
        M2395I
        R37R
        V438V
        ```
        
    
20. TGCT(고환암) : KIT, PLEC, NCOR2
    - KIT - 모든 변이 유의미
        ```
        -미스센스
        D816H
        D816V
        D816Y
        K642E
        L576P
        N822K
        N822Y
        V560G
        W557C
        W557G
        W557R
        Y578C
        ```
        
    - PLEC
        ```
        -동의
        A2798A
        
        -프레임시프트
        A1608fs
        
        -미스센스
        A2519D
        E1295G
        G3572S
        L3934Q
        P3911P
        R3878R
        R571W
        W4315C
        ```
        
    - NCOR2
        ```
        -동의
        Q496Q
        Q499Q
        
        -미스센스
        A1764V
        D1392E
        I1628T
        ```
        

- 변이정보 불필요 유전체 (6개)
    LAML(급성 골수성 백혈병)
    LGG(저등급 신경교종)
    SKCM(피부흑색종)
    LUAD(선암형 폐암)
    CESC(자궁경부암)
    DLBC(B세포 림프종)

내용은 길지만 간단하다.

 

동의변이는 WT와 동일하고, 프레임시프트변이는 암종에 유의미하다.

이분법적으로 나눈 것이다.

 

3차 : 최종 

1. 암종 별로 특정 유전체만 구분

2. 특정 유전체 중 필요 없는 동의 변이를 제외

3. 더 많은 데이터가 필요하다면 프레임시프트변이를 포함

위 세 기준을 토대로 1차와 2차에서 정리한 데이터를 취합했다.

더보기
  1. KIPAN(신장암) : VHL, MTOR, KMT2D
    • VHL (동의변이 4종)
    • -동의 L116L P71P S65L S68 -프레임시프트 *214fs -148fs D179fs DG143fs DI179fs E186 E189 E26G E70 FD91fs G123fs G127fs G144fs G212fs G39S GT104fs H115fs I147fs I151Y I75fs K159fs K171fs L116fs L128H L129P L158V L158fs L169P L178fs L184fs L188R L89H L89P LWLF116fs LWLFRD116fs N131fs N174fs N67fs N78S N78Y N90I P45S P86fs P97fs Q145 Q164fs Q195 Q73 Q96 R161 R167fs R177 R79P R82P RC161fs RP60fs RS167fs S111R S65 S65W S72fs S80I S80R S80fs T100fs T124fs T133P V130D V74G V74fs V84fs W88 Y112 Y112D Y112fs Y175fs -미스센스 C162R C162Y D121Y E189Q F136V FAN148fs H115N H115Y I151T L135F L153P L158P L184P L188P N131Y P45L P86L R107G R107P R120G R167Q V130F W88R -넌센스 D28G E160 H110fs K196 L101P L135fs N78D S111N V74D
    • MTOR (동의변이 4종)
    • -동의 A1835A E2526E T1046T L1212L -미스센스 A1459P A1519T A2210P C1483F C1483Y F1888I F1888L G5R I2017T I2500M K1452N K860N L1433S L1460P L2230V L2334V M2327I S2215Y T1977K V2006L
  2. KIRC(신장 투명세포암종) : VHL, MTOR, DST, KMT2D
    • VHL (동의변이 17종)
    • -동의 S65 Q73 Q96 Q145 Q195 E160 E186 E189 G39S K196 L128H L129P R161 R177 S68 W88 Y112 -프레임시프트 R167fs -148fs D179fs DG143fs DI179fs FD91fs G123fs G127fs G144fs G212fs H110fs H115fs I147fs I206fs K159fs K171fs L116fs L135fs L153P L158P L158V L158fs L169P L178fs L184P L184fs L188P L188R L188fs L89H L89P LWLF116fs LWLFRD116fs N131Y N131fs N67fs N90I P138fs P86fs PE172fs PVL61fs Q164fs R107G R79P R82P RP60fs RS167fs S111N S111R S72fs S80fs T100fs T124fs T202fs V137fs V62fs V74fs V84fs Y112fs Y175fs -미스센스 L116L T133P P71P C162F C162Y D121Y E189Q F136V H110Y H115N H115Y I151T I151Y L135F R107P R120G R167Q D28G N78D P45L P45S S80I S80R V130D V165D V74D V74G W88R Y112D L101P S65L
    • MTOR (동의변이 2종)
    • -동의 A1835A E2526E -미스센스 A1459P A1519T A2210P C1483F C1483Y F1888L G5R I1973F K1452N L1460P L2334V M2327I S2215Y T1977K V2006L Y1463S
  3. THYM(흉선암) : HRAS, TP53, NF1, PCLO
  4. PRAD(전립선암) : TP53, SPOP
  5. LIHC(간세포암) : TP53, CTNNB1
  6. UCEC(자궁내막암) : PTEN, TP53, PIK3CA
    • TP53 (동의변이 5종)
    • -동의 A119A V10V R213 R342 W146 -프레임시트 D61fs P278fs S241fs T256fs -미스센스 C141Y C238F C238Y D281Y G244S G262V H178D H179R H193P I232T M237K N239D N239S P278T R158C R175H R248Q R248W R249S R273C R273H S240G S241C S241F S241P Y205C Y220C H193R
  7. HNSC(두경부암) : PIK3CA, TP53
    • TP53 (동의변이 23종)
    • -동의 E171 E294 E298 G266 G266E G266R H193L H193P H193R K132N L201 P151H Q104 Q136 Q136P Q144 Q192 Q331 Q38 Q52 R213 R342 S166 -프레임시트 -222fs A79fs AAPTP78fs C135fs D42fs G117fs G154fs G302fs H179fs KKPLDGE320fs KTCP139fs L26fs P153fs P36fs P58fs P85fs PS98fs SSCM240fs R209fs R283fs R65fs RL110fs I255fs -미스센스 A159V C176S C176Y C238F C238S C242F C242S C242Y C275F F270C G105C G245S G245V H179P H179R K292fs L194P R158L R175H R196 R196P R248Q R248W R249M R249S R267P R273C R273H R280G R280S R280T R282W R283P R306 R337L S127F S127Y S215fs T211fs V143M V172F V173G V173L V173M V203fs V218G V272M W91 Y103 Y220C Y234C Y236C Y236D M237V P151T P278S E258A E285K E286K E286V H168L S106R -인덱스 160_161MA>IS
  8. COAD(결장직장암) : APC, SYNE1, FBXW7, TP53
    • TP53 (동의변이 7종)
    • -동의 C176 E258 E285 G266 T231T R306 R342 -프레임시프트 F212fs H179fs I195fs L35fs LRK289fs P27fs P322fs P60fs PK318fs PS98fs Q331fs V122fs V173fs R335fs -미스센스 A138V A159V C124G C135S C141R C141S C141Y C176F C238Y C275Y E286G E286K F109C F113C G244D G245D G245S I195T I251F K132N L194H M237I P151H P152R P278A P278R R175C R175H R196 R248Q R248W R267W R273C R273H R282W R337C S127P V143A V173M V274L Y205C Y236 G154C L130F -정보불충분(미스세스로 간주) Q331 R213
  9. BRCA(유방암) : PIK3CA, GATA3, CDH1, MAP3K1, TP53
    • TP53 (동의변이 11종)
    • -동의 A276A A86A C124 C176 E11K E198 E204 E51 E56 F341S Q136E -프레임시트 E204fs E339fs F109fs F212fs F328fs G108fs H115fs KG292fs L252fs N131fs N239fs P191fs P250fs P77fs R110fs R175fs R209fs R342fs S241fs S303fs S90fs T211fs T256fs T304fs V122fs V147fs I162fs L93fs P128fs Q167fs T102fs -미스센스 A161T A276P C135F C135R C135W C135Y C141R C141Y C176F C238F C238Y C242G D281E D281V D281Y E221 E258 E258Q E285K E286A E286K E286Q E287E G199V G245D G266E G279E H168P H179Q H179R H179Y H193L H193R H193Y I195T I232S I255F I255S K132E K132N K164E L111P L130V L194P L194R L252P M237I N247I P151A P151H P278L P278T Q167 Q192 Q331 R175H R196 R248W R273C R273H R273L R280 R280K R280S R282G S127P S183 S215I T155P V157F V157G V173L V173M V197G V216M V272M Y205C Y205N Y220C Y220H Y220S Y234C F113C L265P R213 R306 R342 R342P
  10. GBMLGG(뇌종양) : IDH, EGFR, TP53, ATRX
    • TP53 (동의변이 55종)
    • -동의 C176Y C238F C238Y C242Y D208G D281A D281H E339 F109V F113V F270S G244R G245S G266R H179R H193L H193P H214R I232S I254S I255S L194R L265P M237I M237V M246R P190L P190R P278L Q136E R158G R158H R175H R213Q R248L R248W R267P R267Q R273L R282W R337C S127Y S241Y S94 T211I T230P V143G V173M V216L V274G Y205S Y220C Y234C Y236C P250L -프레임시프트 E346fs F212fs G279fs HYN233fs P153fs K320fs KT139fs LI194fs R283fs RDRRTEE280fs T312fs -미스센스 R273C R273H A138T A161T C275Y E286G H179Y I195T K164E M246V Q375K R248Q R249T R280K V216M D281P
  11. LUSC(편평상피세포 폐암) : TP53
    • TP53 (동의변이 22종)
    • -동의 348_349LE>F E204 E221 E271 E287 E298 E68 K164E K305 R213 R65 S183 T125P T155P T284P Y103 Y163C Y205C Y220C Y234C Y234S Y236C -프레임시프트 D208fs D49fs DIEQWF49fs F212fs G154fs G245fs NTFRHSVV210fs P34fs Q144fs R158fs S315fs V73fs L265fs KKPL320fs -미스센스 A69A C135W C141W C176F C176Y C242F E271K F270I G244C G244D G245C G245S G245V G262V H179D H179L H179R H179Y H193D H193L H193R H214R I195S K132R L111R M237I P151R P250L P278A P278L P278R P278S R196 R213G R248L R248P R248Q R248W R249G R249S R249W R267P R273C R273H R273L R273P R280I R282H R282W R283P V157F V172F V172G V216E W91 R110L R158G R158H R158L R175G R306 R337L D259F D281Y G266V
  12. SARC(육종) : TP53, RB1, RYR1
    • TP53 (동의변이 2종)
    • -동의 E298 N247N -프레임시프트 C275fs E336fs F212fs N288fs K120fs T256fs V73fs G334fs -미스센스 C135R C238Y C242S D259V D281E E286K G244S G266R M237I M246V N268Y P278H Q167 Q317 R156G R158H R175H R175L R213 R213P R248W S215R W91 Y163N Y220C Y220D Y220H Y234C R337L C275Y G302V H179Q H214R K132E K351E L194R
    • RB1 (동의변이 4종)
    • -동의 L389 Q384 Q504 R552 -프레임시프트 E440fs H483fs KHLERCEHR548fs KQ574fs N623fs P800fs V378fs V725fs -미스센스 R334I
    • RYR1 (동의변이 4종)
    • -동의 I4932I L261L S1174S T891T -미스센스 A1318T G3390C R1670H R830W E5017 R819
  13. STES(위식도암) : TP53, KMT2D, SYNE1, SPTA1
    • KMT2D (동의변이 6종)
    • -동의 A3307T K1060T L4399P P772P Q1178H Q3603Q -프레임시프트 A1390fs A3425fs D3165fs F5149fs G101fs H3037fs K1686fs K304fs L656fs M5124fs P2206fs P2516fs P647fs P648fs Q2473fs -미스센스 A3549V A4804V A5339V C5109F C5477G E1682 E3558 E5291K G4184D G4777S K2679 L4559V L5391L M1417I P1011L P1170T P1232L P2407H P2545H P4929H P493P Q3360K Q3742 Q3905L Q3969 Q3988 Q4329 Q5387 R1290W R2370H R3082Q R3099C R3099H R4238C R4478W R4964C R5154W R5159Q R5179H R598H S2251S T1911T V2440I V368V V390A Y5451C A4059T P4145T S2002I
  14. PAAD(췌장암) : TP53, CDKN2A, GNAS
    • GNAS (동의변이 1종)
    • -동의 I119I -미스센스 D448A R201C R201H
  15. OV(난소암) : COL6A3, AHNAK, NF1, TP53
  16. THCA(갑상선암) : BRAF
    • BRAF (동의변이 1종)
    • -동의 V459V -미스센스 K601E V600E
  17. ACC(부신피질암) : LRIG1, NFKB2, PLEC
    • NFKB2 (동의변이 2종)
    • -동의 A470A P423P -미스센스 Q591H
    • PLEC (동의변이 10종)
    • -동의 A1697A A1998A A2106A A2113A A2495A A2507A A4624A D4004D D4005D L1321L -미스센스 G4445R R1386Q R1854W -분류안됨 (무의미) R3145 Y4668
  18. PCPG(부신경절종,부신종) : HRAS, NF1, ATRX, CHECK2
  19. BLCA(방광암) : TP53, PIK3CA, SPTAN1
    • TP53 (동의변이 6종)
    • -동의 C277 E286 E287 K320K Q331 Q375 -프레임시프트 C124fs K382fs P92fs S240fs -미스센스 A159P A159V C238F C242F C277F E171 E171K E204Q E271K E285K E285V G245S G245V H214R K139N L194F L257Q P151H P152L P72R Q144 Q192 R175H R248P R248Q R248W R273C R273S R280K R280T S241F Y220C
    • PIK3CA (동의변이 1종)
    • -동의 L267L -미스센스 E365K E417K E453Q E542K E545K E545Q G451V H1047L M1043I P471A Q546R
  20. TGCT(고환암) : KIT, PLEC, NCOR2, CELSR1, PKD1
    • PLEC (동의변이 1종)
    • -동의 A2798A -프레임시프트 A1608fs -미스센스 A2519D E1295G G3572S L3934Q P3911P R3878R R571W W4315C
    • NCOR2 (동의변이 2종)
    • -동의 Q496Q Q499Q -미스센스 A1764V D1392E I1628T
  21. LAML(급성 골수성 백혈병) → NPM1, IDH1, IDH2, RUNX1, TP53
  22. LGG(저등급 신경교종) → IDH1, ATRX, TP53
  23. SKCM(피부흑색종) → BRAF, PCLO, MXRA5
  24. LUAD(선암형 폐암) → EGFR, ALK, KRAS, TP53
  25. CESC(자궁경부암) → PIK3CA, SYNE1, DST, RYR2
  26. DLBC(B세포 림프종) → KMT2D, BTG1, BTG2

내용은 크게 다르지 않으므로 간단하게 정리했다. 이 기준으로 전처리를 여러 차례 거쳐 train, test파일을 전처리했다.

 

그리고 곽봉팔님께서 데모코드를 작성해주셨고,

이와 별개로 각자 코드를 작성해보자고 의견을 나눈 후

코드를 작성했다.