@@@ 인공지능/수학·통계를 몰라도 이해할 수 있는 쉬운 딥러닝

1 - 4. FNN 활용하기(1)

HTG 2021. 7. 6. 20:48
728x90

1-4-1. [의료 AI] 유전자 분석을 통한 암 진단

 

●데이터 살펴보기

4개의 csv 파일 - 실제 암 환자로부터 채취된 조직을 갈아서 유전자를 분석한 데이터

BRCA - 유방암, COAD - 대장암, LUAD - 폐암, THCA - 갑상선암 환자 데이터

총 2,905 명의 환자로부터 수집된 데이터

환자 한명당 피쳐 수(유전자)는 2만개

데이터는 0부터 1사이 숫자로 노멀라이즈

 

●어떤 인공지능 사용?

신경망 구조

4층짜리 FNN

종류 크기 활성화 함수
1층 FNN 20000 -
2층 FNN 2048 ReLu
- Dropout rate = 0.5 -
3층 FNN 256 ReLu
- Dropout rate = 0.5 -
4층 FNN 4 SoftMax

입력층의 사이즈는 입력 데이터의 크기가 굉장히 크다보니 입력층의 사이즈도 커짐.

2층과 3층에는 Dropout 적용

4층은 총 4개의 암 카테고리를 구분하기 위하여 사이즈를 4로 지정

분류 문제이므로 SoftMax 사용

 

●딥러닝 코딩

옵티마이저(optimizer) - Adam

메트릭(metrics) - accuracy

로스(loss) - sparse_categorical_crossentropy

 

●인공지능 학습

인공신경망 학습

fit 을 통해 학습

 

학습 결과 출력

그래프로 출력

 

●인공지능 학습 결과 확인

인공지능 성능 확인하기

 

 

저자의 경우 99.83%의 정확도 

나의 경우 

 

학습 기록 확인하기

 

 

 

저자의 경우 Loss, Accuracy 둘다 학습 초반에 큰 폭으로 흔들렸음. -> 아직 가중치 조정이 덜 끝난 학습이 덜 완료된 단계이기 때문.

학습 후반부에는 로스도 0에 까까운 안정적인 수치가 나오고 정확도도 높은 수준으로 유지

학습이 아주 잘 되었음. 중간중간 정확도가 100%인 경우도 있음.

즉, 암의 유형에 따른 유전자 발현 패턴에는 굉장히 큰 차이가 있다는 것을 의미.

 

 

암과 유전자 발현 패턴

인간은 대략 2만 개 정도의 유전자를 보유

모든 세포는 주로 발현시키는 유전자와 주로 억제시키는 유전자의 패턴이 어느 정도 정해져 있음.

암세포도 마찬가지.

암 환자와 관련된 데이터는 무료로 공개된 자료가 많음. 그 중 미국에서 공개한 GDC Data Portal은 화수분이나 다름 없는 공간.

이 곳에서는 암과 관련된 모든 유전자 데이터를 얻을 수 있고, 여기에 적당한 머신러닝 알고리즘을 적용하면 논문이 쏟아져 나옴.

현재는 딥러닝이라는 훌룡한 도구를 갖고 전 세계의 학자들이 GDC 데이터를 분석하고 있음.

핵심 자료를 공유하고, 공정한 경쟁을 유도하는 미국의 정책에 감탄.

 

하이퍼 파라미터 수정하기

2층의 크기를 대폭 줄이면서 성능 비교