* 본 게시글은 개인 학습을 위한 샘플 문제 풀이 게시물입니다. KT AICE 공식 홈페이지에 공개된 샘플문항을 바탕으로 작성되어있으며 문제의 저작권은 KT에 있습니다.
AICE 샘플문항 회귀 #2 문제 풀이
문제는 납부예정금액을 예측 문제
▶ 문항1. 본 과제 해결에 알맞은 알고리즘 유형을 고르시오.
해당 문제는 특정값을 예측하기 때문에 회귀에 대한 문제
TIP. 후반부 문제(11,15)에서 MAE, MSE 를 구하는 문제가 있는데 MAE, MSE 의 경우 회귀문제에 대한 성능을 구할때 사용
▷ 회귀 모형
▶ 문항2. 본 과제의 종속변수의 기술통계량을 확인하고, 최빈값 개수보다 작은 값을 가지는 것을 고르시오.
칼람의 통계량은 데이터분석 > 기초정보분석 메뉴에서 확인
데이터 범위를 전체로 해놓고 각 컬럼에 대한 통계량을 확인한다.
0의 갯수 = 히스토그램 / 최대값 = 분위수 max / 데이터 개수 = 기술통계 size / 표준편차 = 기술통계 sd
▷ 0의 갯수
▶ 문항3. 다음의 변수 중 변수의 유형(data type)이 다른 것을 고르시오.
변수 유형은 데이터분석 > 데이터샘플보기 or 기초정보분석 메뉴에서 확인
데이터 범위를 전체로 해놓고 각 컬럼에 대한 정보를 확인하면서 유형을 확인한다.
TIP. 기초 정보 분석에서 통계량이 있거나 히스토그램이면 수치형 / 바 차트로 되어있으면 범주형
▷ customer_level(고객 관리수준)
▶ 문항4. 다음 중 결측치가 가장 많은 변수의 결측치 비율을 작성하시오(반올림하여 소수점 두 자리까지 작성하시오)
각 컬럼의 결측치 여부 및 개수에 대해 묻는 문제(참고)
결측치 여부는 데이터분석 > 기초정보분석 메뉴에서 확인
데이터 범위를 전체로 해놓고 각 컬럼에 대한 정보를 확인하면서 missing 값을 확인한다.
missing이 가장 많은 값 칼람의 missing 밑에 있는 %값을 확인 한다.
▷ 3.33
▶ 문항5. 수치형 변수들 간의 상관관계를 분석하는 그래프를 그리고, label_fee(납부 예정금액) 변수와 가장 높은 양의 상관관계를 가지는 변수를 작성하시오
컬럼간의 상관관계에 대해 묻는 문제(참고)
컬럼간의 상관관계는 데이터분석 > 시각화분석 > 히트맵 메뉴로 확인 가능
붉은 색이 양의 관계 , 푸른 색이 음의 관계
각 칸에 커서를 가져가면 숫자가 뜬다. 그중 가장 큰 값을 가지는 컬럼이 납부 예정금액과 가장 큰 양의 상관관계를 가진다.
▷ prev_fee
▶ 문항6. customer_class(고객등급)별 label_fee(납부 예정금액)의 분포를 확인하고 가장 큰 IQR 값을 작성하시오.
특정 컬럼의 통계량을 구하는 문제(참고)
단순 통계량이 아니라 특정 조건을 만족하는 통계량은 박스차트를 통하여 확인 가능
데이터분석 > 시각화분석 > 박스차트 메뉴로 확인 가능
구하고자하는 값 - label_fee(납부 예정금액) 을 Y로 설정
구분 하고자하는 값 - customer_class(고객등급) 을 X로 설정
그 중 박스가 가장 긴것이 IQR이 큰 것
▷ 41.55k
▶ 문항7. ‘prev_fee(이전달 납부금액)' 이 28k ~ 29.999k 사이의 값을 가지는 데이터 중 'customer_class(고객 등급)'이 'White'인 데이터와 'Silver'인 데이터의 수 차이를 작성하시오.
특정 컬럼의 특정 값으로 분류한 후 특정 값에 대한 개수를 묻는 문제(참고)
컬럼간의 특정 값은 데이터분석 > 시각화분석 > 분포차트 메뉴로 확인 가능
특정 범위 값을 X 칼럼에 두고 구분하여 구하고 싶은 값을 Hue 칼럼에 선택을 한다.
구하고자하는 값 - prev_fee(이전달 납부금액) 을 X로 설정
구분 하고자하는 값 - 'customer_class(고객 등급)' 을 Hue로 설정
조회하기 > 구하고자하는 값에 커서를 가져간다.
▷ 99
▶ 문항8. 'agreement_month(잔여약정 개월 수)'가 0의 값을 가지는 데이터 중 가장 데이터가 많은 ' customer_class (고객 등급)'을 작성하시오.
특정 컬럼의 특정 값으로 분류한 후 특정 값에 대한 개수를 묻는 문제(참고)
컬럼간의 특정 값은 데이터분석 > 시각화분석 > 분포차트 메뉴로 확인 가능
특정 범위 값을 X 칼럼에 두고 구분하여 구하고 싶은 값을 Hue 칼럼에 선택을 한다.
구하고자하는 값 - agreement_month(잔여약정 개월 수) 을 X로 설정
구분 하고자하는 값 - customer_class (고객 등급) 을 Hue로 설정
조회하기 > 구하고자하는 값에 커서를 가져간다.
▷ VIP
▶ 문항9. customer_level(고객 관리수준)이 ‘B’인 사람 중 installment_yn(할부여부)를 Y인 사람의 label_fee(납부 예정금액)의 중앙값을 작성하시오.
특정 컬럼의 통계량을 구하는 문제(참고)
단순 통계량이 아니라 특정 조건을 만족하는 통계량은 박스차트를 통하여 확인 가능
데이터분석 > 시각화분석 > 박스차트 메뉴로 확인 가능
해당 문제는 구분을 2가지로 하기 때문에 Hue 또한 사용 필요
구하고자하는 값 - 호러 구매금액 label_fee(납부 예정금액) 을 Y로 설정
구분 하고자하는 값 - customer_level(고객 관리수준) 을 X로 설정
또다른 구분 - installment_yn(할부여부)을 Hue로 설정
▷ 50k
▶ 문항10. 종속변수를 제외한 모든 변수에 대해 결측치가 있는 경우, 수치형 변수는 평균값, 범주형 변수는 최빈값으로 결측치를 대체하시오. 데이터 가공 후, 변화된 ‘customer_class(고객등 급)’의 최빈값의 비율(%)을 작성하시오.
데이터 가공을 요하는 문제(참고)
데이터 가공의 경우 데이터 가공 메뉴에서 설정 가능
문제에 주어진 대로 수치형 변수와 범주형 변수를 구분하여 문제에 나와있는 값으로 결측치를 대체한다.
수치형의 경우 mean(평균), median(중앙값, 중위수), most_frequent(최빈값) 등으로 대체 가능
범주형의 경우 most_frequent(최빈값), 특정 설정 값 등으로 대체 가능
해당 문제에서는 수치형은 중앙값 / 범주형은 최빈값으로 대체
각 컬럼을 눌러서 결측치(missing)를 확인한 후, 결측치 처리 메뉴에서 원하는 대체값을 선택 후 보기 > 적용
그리고 새롭게 생성된 변수( customer_class_IM)를 클릭하여 최빈값의 비율을 확인
※ 주의 꼭 가공 데이터 저장을 누를 것
▷ 44.77
▶ 문항11. 3개의 머신러닝 모델을 다음과 같은 설정으로 학습하고, 이 중 MAE 평균이 최종적으로 가장 작은 모델을 고르시오
머신러닝 성능 비교 문제(참고)
머신러닝 관련 문제는 AI모델 학습 > 머신러닝 학습 메뉴에서 가능
문제에 나와있는대로 각 머신러닝 설정을 변경
각 ML 모델을 전체다 클릭하여 음영이 생긴 상태로 학습 시작을 클릭하면 수 분 후 학습결과가 나오는 모습을 볼 수 있음
문제에서 원하는 MAE 기준으로 성능을 비교 (작을수록 좋음)
▷ Random Forest
▶ 문항12. 딥러닝 모델을 다음과 같은 설정으로 학습하고, 가장 성능이 좋은 모델은 몇 번째 학습인지 작성하시오.
딥러닝 학습 문제(참고)
딥러닝 관련 문제는 AI모델 학습 > 딥러닝 학습 메뉴에서 가능
문제에 제시한대로 각 설정을 변경
학습 시작 후 수 분이 지나면 및에 부분에 종속 변수에 대한 성능이 나온다.
해당 문제는 몇 번째 학습(epoch)이 가장 성능이 좋은 지 묻는 문제이다
그래서 해당 문제에서는 Best validation model epoch를 확인하면 된다.
※ 주의 꼭 모델 저장을 누를 것
TIP. 문제 중 성능 개선 문제가 있다면 이문제 이후에 바로 하면 이전 설정에 대한 고민이나 귀찮음을 덜 수 있음.
▷ 2
▶ 문항13. 문항 12 번에서 학습한 딥러닝 모델 분석 결과, 'label_fee(납부 예정금액)' 예측에 영향을 주는 상위 5개의 변수에 해당하지 않는 것을 고르시오.
변수 영향도 확인 문제(참고)
변수 영향도 확인 문제는 AI 모델 활용 > 변수 영향도 확인메뉴에서 확인 가능
저장해놓은 모델로 선택하여 변수 영향도 확인 메뉴를 누르면 종속 변수와 가능 영향도 높은 5개의 변수가 나온다.
그중 해당하지 않는 변수를 선택한다.
▷ customer_level(고객 관리수준)
▶ 문항14. 문항 12 번에서 학습한 딥러닝 모델을 활용하여 다음과 같은 조건일 때의 ' label_fee(납부 예정금액)'을 예측하시오(정답은 반올림하여 정수로 작성하시오.)
시뮬레이션 문제(참고)
시뮬레이션 문제는 AI 모델 활용 > 시뮬레이션 메뉴에서 확인 가능
모델 학습을 한 후 특정값을 입력하면 그 값에 대한 종속변수를 알려준다.
문제에 제시한 대로 값들을 입력하면 아래쪽에 시뮬레이션 결과에 종속변수가 나온다
TIP. 해당 문제를 통해 변수값이 가공이 되었어야 하는지 알 수 있다. 변수명 뒤에 _IM , _SS 등 이 나온다면 변수 가공이 들어갔다는 걸 알수 있다.
▷ 54544
▶ 문항15. 문항 12 번에서 학습한 딥러닝 모델을 고도화 할 예정입니다. 문항 12 번의 딥러닝 파라미터 중 "전체 데이터를 학습하는 횟수"에 해당하는 파라미터만 20으로 설정한 후 학습한 결과의 MSE를 작성하시오.
딥러닝 성능 개선 문제(참고)
딥러닝 성능 개선 문제의 경우 AI모델 학습 > 딥러닝 학습 메뉴에서 가능
해당 문제의 경우 성능 개선이긴하지만 특정 파라미터가 정확히 어떤 역할을 아는지에 대해 물어보는 문제
전체 데이터를 학습하는 횟수 = epoch 이다
그러므로 epoch를 20으로 늘려서 MSE 결과값 확인
▷ 0.4778
* 본 게시글은 개인 학습을 위한 샘플 문제 풀이 게시물입니다. KT AICE 공식 홈페이지에 공개된 샘플문항을 바탕으로 작성되어있으며 문제의 저작권은 KT에 있습니다.
'@@@ 이론 공부 > AICE Basic' 카테고리의 다른 글
| [AICE Basic] 문제 유형 구분 및 풀이 방법 (0) | 2026.02.22 |
|---|---|
| [AICE Basic] AICE 샘플문항 회귀 #3 문제 풀이 (0) | 2026.02.22 |
| [AICE Basic] AICE 샘플문항 회귀 #1 문제 풀이 (0) | 2026.02.22 |
| [AICE Basic] AICE 샘플문항 분류 #3 문제 풀이 (0) | 2026.02.22 |
| [AICE Basic] AICE 샘플문항 분류 #2 문제 풀이 (0) | 2026.02.22 |