1-4-1. [의료 AI] 유전자 분석을 통한 암 진단
●데이터 살펴보기
4개의 csv 파일 - 실제 암 환자로부터 채취된 조직을 갈아서 유전자를 분석한 데이터
BRCA - 유방암, COAD - 대장암, LUAD - 폐암, THCA - 갑상선암 환자 데이터
총 2,905 명의 환자로부터 수집된 데이터
환자 한명당 피쳐 수(유전자)는 2만개
데이터는 0부터 1사이 숫자로 노멀라이즈
●어떤 인공지능 사용?
신경망 구조
4층짜리 FNN
층 | 종류 | 크기 | 활성화 함수 |
1층 | FNN | 20000 | - |
2층 | FNN | 2048 | ReLu |
- | Dropout | rate = 0.5 | - |
3층 | FNN | 256 | ReLu |
- | Dropout | rate = 0.5 | - |
4층 | FNN | 4 | SoftMax |
입력층의 사이즈는 입력 데이터의 크기가 굉장히 크다보니 입력층의 사이즈도 커짐.
2층과 3층에는 Dropout 적용
4층은 총 4개의 암 카테고리를 구분하기 위하여 사이즈를 4로 지정
분류 문제이므로 SoftMax 사용
●딥러닝 코딩
옵티마이저(optimizer) - Adam
메트릭(metrics) - accuracy
로스(loss) - sparse_categorical_crossentropy
●인공지능 학습
인공신경망 학습
fit 을 통해 학습
학습 결과 출력
그래프로 출력
●인공지능 학습 결과 확인
인공지능 성능 확인하기
저자의 경우 99.83%의 정확도
나의 경우
학습 기록 확인하기
저자의 경우 Loss, Accuracy 둘다 학습 초반에 큰 폭으로 흔들렸음. -> 아직 가중치 조정이 덜 끝난 학습이 덜 완료된 단계이기 때문.
학습 후반부에는 로스도 0에 까까운 안정적인 수치가 나오고 정확도도 높은 수준으로 유지
학습이 아주 잘 되었음. 중간중간 정확도가 100%인 경우도 있음.
즉, 암의 유형에 따른 유전자 발현 패턴에는 굉장히 큰 차이가 있다는 것을 의미.
※
암과 유전자 발현 패턴
인간은 대략 2만 개 정도의 유전자를 보유
모든 세포는 주로 발현시키는 유전자와 주로 억제시키는 유전자의 패턴이 어느 정도 정해져 있음.
암세포도 마찬가지.
암 환자와 관련된 데이터는 무료로 공개된 자료가 많음. 그 중 미국에서 공개한 GDC Data Portal은 화수분이나 다름 없는 공간.
이 곳에서는 암과 관련된 모든 유전자 데이터를 얻을 수 있고, 여기에 적당한 머신러닝 알고리즘을 적용하면 논문이 쏟아져 나옴.
현재는 딥러닝이라는 훌룡한 도구를 갖고 전 세계의 학자들이 GDC 데이터를 분석하고 있음.
핵심 자료를 공유하고, 공정한 경쟁을 유도하는 미국의 정책에 감탄.
하이퍼 파라미터 수정하기
2층의 크기를 대폭 줄이면서 성능 비교
'@@@ 인공지능 > 수학·통계를 몰라도 이해할 수 있는 쉬운 딥러닝' 카테고리의 다른 글
2. 인간의 시각 처리를 흉내 낸 인공지능 - CNN (0) | 2021.07.07 |
---|---|
1 - 4. FNN 활용하기(2) (0) | 2021.07.07 |
1 - 3. 회귀(Regression) 기법 활용하기(2) (0) | 2021.07.06 |
1 - 3. 회귀(Regression) 기법 활용하기(1) (0) | 2021.07.05 |
1 - 2. 분류(Classification) 기법 활용하기(2) (0) | 2021.07.05 |