* 본 게시글은 개인 학습을 위한 샘플 문제 풀이 게시물입니다. KT AICE 공식 홈페이지에 공개된 샘플문항을 바탕으로 작성되어있으며 문제의 저작권은 KT에 있습니다.
AICE 샘플문항 분류 #1 문제 풀이
문제는 고객의 호러 장르 선호 여부 예측 문제
▶ 문항1. 본 과제 해결에 알맞은 알고리즘 유형을 고르시오.
해당 문제는 선호에 대한 여부를 구분하기 때문에 분류에 대한 문제(참고)
TIP. 후반부 문제(8,9,12) 문제에서 Accuracy 를 구하는 문제가 있는데 Accuracy 의 경우 분류문제에 대한 성능을 구할때 사용
▷ 분류 모형
▶ 문항2. 다음의 범주형 변수 중 결측치(missing)가 가장 많은 변수를 고르시오.
각 컬럼의 결측치 여부 및 개수에 대해 묻는 문제(참고)
결측치 여부는 데이터분석 > 기초정보분석 메뉴에서 확인
데이터 범위를 전체로 해놓고 각 컬럼에 대한 정보를 확인하면서 missing 값을 확인한다.
▷ 연령그룹(age_group)
▶ 문항3. 고객 유형(customer_type)'이 '개인'인 고객의 수를 작성하시오.
각 컬럼의 값에 대한 개수를 묻는 문제(참고)
각 컬럼의 정보는 데이터분석 > 기초정보분석 메뉴에서 확인
해당 컬럼에 대한 정보를 보고 개인에 대한 개수를 파악
▷ 7173
▶ 문항4. '총 콘텐츠 구매 건수(total_buy_ol)'의 기술통계량을 확인하고, 가장 큰 값을 지니는 통계량을 고르시오.
컬럼의 통계량을 묻는 문제(참고)
컬럼의 통계량은 데이터분석 > 기초정보분석 메뉴에서 확인
mean(평균값) / median(중위수, 중앙값) / sd(표준편차) / Q3 제3사분위
2.2 / 1.00 / 3.13 / 3.00
▷ 표준편차
▶ 문항5. '총 콘텐츠 구매 금액(total_amount)'과 가장 큰 양의 상관관계를 갖는 변수를 고르시오.
컬럼간의 상관관계에 대해 묻는 문제(참고)
컬럼간의 상관관계는 데이터분석 > 시각화분석 > 히트맵 메뉴로 확인 가능
붉은 색이 양의 관계 , 푸른 색이 음의 관계
각 칸에 커서를 가져가면 숫자가 뜬다. 그중 가장 큰 값을 가지는 컬럼이 총 콘텐츠 구매 금액과 가장 큰 양의 상관관계를 가진다.
▷ 드라마 구매금액(drama_amount)
▶ 문항6. '멜로 구매금액(romc_amount)'이 '0~100'에 속하는 고객 중 '성별(sex)'이 'F(여성)'인 고객의 수를 작성하시오.
특정 컬럼의 특정 값으로 분류한 후 특정 값에 대한 개수를 묻는 문제(참고)
컬럼간의 특정 값은 데이터분석 > 시각화분석 > 분포차트 메뉴로 확인 가능
박스차트와 분포차트 중에 헷갈릴수있으나 특정 범위에 대한 언급이 나오면 분포 차트 사용
특정 범위 값을 X 칼럼에 두고 구분하여 구하고 싶은 값을 Hue 칼럼에 선택을 한다.
해당 문제의 경우 특정 범위는 멜로 구매금액이 0~100 이므로 X 칼람이 멜로 구매금액
구하고자 하는 값이 F의 개수이기 때문에 성별을 Hue 칼람으로 설정한다
조회하기 > 구하고자하는 값에 커서를 가져간다.
▷ 3345
▶ 문항7. 종속변수를 제외한 모든 변수에 대해 결측치가 있는 경우, 수치형 변수는 중앙값, 범주형 변수는 최빈값으로 결측치를 대체하시오. 데이터 가공 후, 변화된 '연령그룹(age_group)'의 최빈값의 비율(%)을 작성하시오.
데이터 가공을 요하는 문제(참고)
데이터 가공의 경우 데이터 가공 메뉴에서 설정 가능
문제에 주어진 대로 수치형 변수와 범주형 변수를 구분하여 문제에 나와있는 값으로 결측치를 대체한다.
수치형의 경우 mean(평균), median(중앙값, 중위수), most_frequent(최빈값) 등으로 대체 가능
범주형의 경우 most_frequent(최빈값), 특정 설정 값 등으로 대체 가능
해당 문제에서는 수치형은 중앙값 / 범주형은 최빈값으로 대체
각 컬럼을 눌러서 결측치(missing)를 확인한 후, 결측치 처리 메뉴에서 원하는 대체값을 선택 후 보기 > 적용
그리고 새롭게 생성된 변수(age_group_IM)를 클릭하여 최빈값의 비율을 확인
※ 주의 꼭 가공 데이터 저장을 누를 것
▷ 15.96
▶ 문항8. 3개의 머신러닝 모델을 다음과 같은 설정으로 학습하고, 이 중 Accuracy 기준 성능이 평균적으로 가장 좋은 것을 고르시오.
머신러닝 성능 비교 문제(참고)
머신러닝 관련 문제는 AI모델 학습 > 머신러닝 학습 메뉴에서 가능
문제에 나와있는대로 각 머신러닝 설정을 변경
각 ML 모델을 전체다 클릭하여 음영이 생긴 상태로 학습 시작을 클릭하면 수 분 후 학습결과가 나오는 모습을 볼 수 있음
문제에서 원하는 Accuracy 기준으로 성능을 비교 (클수록 좋음)
▷ Random Forest
▶ 문항9. 딥러닝 모델을 다음과 같은 설정으로 학습하고, 학습된 모델의 Accuracy를 작성하시오.
딥러닝 학습 문제(참고)
딥러닝 관련 문제는 AI모델 학습 > 딥러닝 학습 메뉴에서 가능
문제에 제시한대로 각 설정을 변경
학습 시작 후 수 분이 지나면 및에 부분에 종속 변수에 대한 성능이 나온다.
해당 문제에서는 Accuracy를 확인하면 된다.
※ 주의 꼭 모델 저장을 누를 것
TIP. 문제 중 성능 개선 문제가 있다면 이문제 이후에 바로 하면 이전 설정에 대한 고민이나 귀찮음을 덜 수 있음.
▷ 0.8709
▶ 문항10. 문항 9번에서 학습한 딥러닝 모델 분석 결과, '호러장르 선호여부(label_horror)' 예측에 영향을 주는 상위 5개의 변수에 해당하지 않는 변수를 고르시오.
변수 영향도 확인 문제(참고)
변수 영향도 확인 문제는 AI 모델 활용 > 변수 영향도 확인메뉴에서 확인 가능
9번 문제에서 저장해놓은 모델로 선택하여 변수 영향도 확인 메뉴를 누르면 종속 변수와 가능 영향도 높은 5개의 변수가 나온다.
그중 해당하지 않는 변수를 선택한다.
▷ 드라마 구매금액(drama_amount)
▶ 문항11. 문항 9번에서 학습한 딥러닝 모델을 활용하여 다음과 같은 조건일 때의 '호러장르 선호여부(label_horror)'를 예측하시오.
시뮬레이션 문제(참고)
시뮬레이션 문제는 AI 모델 활용 > 시뮬레이션 메뉴에서 확인 가능
모델 학습을 한 후 특정값을 입력하면 그 값에 대한 종속변수를 알려준다.
문제에 제시한 대로 값들을 입력하면 아래쪽에 시뮬레이션 결과에 종속변수가 나온다
TIP. 해당 문제를 통해 변수값이 가공이 되었어야 하는지 알 수 있다. 변수명 뒤에 _IM , _SS 등 이 나온다면 변수 가공이 들어갔다는 걸 알수 있다.
▷ N(선호하지 않음)
▶ 문항12. 문항 9번에서 학습한 딥러닝 모델을 고도화하여 Accuracy를 개선하고, 그 값을 작성 하시오.
딥러닝 성능 개선 문제(참고)
딥러닝 성능 개선 문제의 경우 AI모델 학습 > 딥러닝 학습 메뉴에서 가능
결국 새로 딥러닝 학습을 하는 경우
보통 epoch를 조금 늘리고 batch 사이즈를 줄이는 방식으로 성능을 개선한다.
해당문제의 경우 Epochs 20 -> 40, Batch size 256 -> 128 로 변경
epoch만 늘려주어도 개선되는 모습을 대부분 볼수있음.
※ 주의 너무 큰값을 입력하면 시험 시간내에 처리안되는 경우가 있을 수 있음
▷ 0.9510
* 본 게시글은 개인 학습을 위한 샘플 문제 풀이 게시물입니다. KT AICE 공식 홈페이지에 공개된 샘플문항을 바탕으로 작성되어있으며 문제의 저작권은 KT에 있습니다.
'@@@ 이론 공부 > AICE Basic' 카테고리의 다른 글
| [AICE Basic] AICE 샘플문항 분류 #3 문제 풀이 (0) | 2026.02.22 |
|---|---|
| [AICE Basic] AICE 샘플문항 분류 #2 문제 풀이 (0) | 2026.02.22 |
| [AICE Basic] AIDU ez 사용 (0) | 2026.02.08 |
| [AICE Basic] [이론편] 딥러닝 알고리즘 (0) | 2026.02.08 |
| [AICE Basic] [이론편] 머신러닝 알고리즘 (0) | 2026.02.08 |