* 본 게시글은 개인 학습을 위한 샘플 문제 풀이 게시물입니다. KT AICE 공식 홈페이지에 공개된 샘플문항을 바탕으로 작성되어있으며 문제의 저작권은 KT에 있습니다.
AICE 샘플문항 회귀 #3 문제 풀이
문제는 납부예정금액을 예측 문제
▶ 문항1. 본 과제 해결에 알맞은 알고리즘 유형을 고르시오.
해당 문제는 특정값을 예측하기 때문에 회귀에 대한 문제
TIP. 후반부 문제(12,15)에서 MSE 를 구하는 문제가 있는데 MSE 의 경우 회귀문제에 대한 성능을 구할때 사용
▷ 회귀 모형
▶ 문항2. 다음의 범주형 변수 기술통계량을 확인하고, 특정 범주에 90%이상의 데이터가 몰려 있는 변수를 고르시오.
각 컬럼의 값에 대한 개수를 묻는 문제
각 컬럼의 정보는 데이터분석 > 기초정보분석 메뉴에서 확인
확인시 서비스 구분(service_category)는 99.98% 가 상품A 인 편향이 심한 칼람인 것을 알 수 있다.
▷ 서비스 구분(service_category)
▶ 문항3. 모델 학습에 활용하지 않아도 되는 컬럼 명을 고르시오.
2번 문항에서 나오는거 처럼 너무 편향되어있는 칼람이나 이메일이나 이름처럼 구분이 너무 많은 칼람은 제외하는 것이 좋음
▷ 서비스 구분(service_category)
▶ 문항4. '고객등급(customer_class)'이 'VVIP'인 고객의 수를 작성하시오.
각 컬럼의 값에 대한 개수를 묻는 문제
각 컬럼의 정보는 데이터분석 > 기초정보분석 메뉴에서 확인
해당 컬럼에 대한 정보를 보고 VVIP에 대한 개수를 파악
▷ 719
▶ 문항5. '고객등급(customer_class)'별 '잔여약정개월수(agreement_month)'를 시각화하고, '고객등급(customer_class)'가 'VVIP'인 고객의 IQR을 작성하세요.
특정 컬럼의 통계량을 구하는 문제(참고)
단순 통계량이 아니라 특정 조건을 만족하는 통계량은 박스차트를 통하여 확인 가능
데이터분석 > 시각화분석 > 박스차트 메뉴로 확인 가능
구하고자하는 값 - 잔여약정개월수(agreement_month) 을 Y로 설정
구분 하고자하는 값 - customer_class(고객등급) 을 X로 설정
IQR = Q3 - Q1
▷ 20.25
▶ 문항6. '서비스 구분(service_category)'별 '이전 달 납부금액(prev_fee)'를 시각화하고, '서비스 구분(service_category)'가 '상품A'인 고객의 이상치 중 가장 큰 값을 작성하시오.
특정 컬럼의 통계량을 구하는 문제(참고)
단순 통계량이 아니라 특정 조건을 만족하는 통계량은 박스차트를 통하여 확인 가능
데이터분석 > 시각화분석 > 박스차트 메뉴로 확인 가능
구하고자하는 값 - 이전 달 납부금액(prev_fee) 을 Y로 설정
구분 하고자하는 값 - 서비스 구분(service_category) 을 X로 설정
여기서 가장 위에 있는 점이 이상치 중 가장 큰값
▷ 129.93k
▶ 문항7. 각 '고객등급(customer_class)' 별 '납부 예정금액(label_fee)'을 시각화하고, 제 1 사분위수(Q1)가 가장 낮은 '고객등급(customer_class)'을 고르시오.
특정 컬럼의 통계량을 구하는 문제(참고)
단순 통계량이 아니라 특정 조건을 만족하는 통계량은 박스차트를 통하여 확인 가능
데이터분석 > 시각화분석 > 박스차트 메뉴로 확인 가능
구하고자하는 값 - 납부 예정금액(label_fee) 을 Y로 설정
구분 하고자하는 값 - 고객등급(customer_class) 을 X로 설정
Hue 또한 고객등급(customer_class) 로 설정하면 보기 편해진다.
이중 박스의 아래부분이 가장 밑인 고객등급을 찾는다.
▷ 일반
▶ 문항8. '이전 달 납부금액(prev_fee)' 값이 최빈값인 범위를 고르시오.
특정 컬럼의 특정 범위에 대해 묻는 문제(참고)
컬럼의 법위 값은 데이터분석 > 시각화분석 > 분포차트 메뉴로 확인 가능
특정 범위 값을 X 칼럼에 두고 선택을 한다.
구하고자하는 값 - prev_fee(이전달 납부금액) 을 X로 설정
조회하기 > 구하고자하는 값에 커서를 가져간다.
히스토그램이 나오면 이중 가장 긴 부분이 값이 가장 많은 최빈값이 된다.
그 범위가 정답
▷ 28K-29.999K
▶ 문항9. '납부 예정금액(label_fee)'가 '62k~63.9k'에 속하는 고객 중 '고객 등급 (customer_class)'이 'Gold'인 고객의 수를 작성하시오.
특정 컬럼의 특정 값으로 분류한 후 특정 값에 대한 개수를 묻는 문제(참고)
컬럼간의 특정 값은 데이터분석 > 시각화분석 > 분포차트 메뉴로 확인 가능
특정 범위 값을 X 칼럼에 두고 구분하여 구하고 싶은 값을 Hue 칼럼에 선택을 한다.
구하고자하는 값 - 납부 예정금액(label_fee) 을 X로 설정
구분 하고자하는 값 - 고객 등급 (customer_class) 을 Hue로 설정
조회하기 > 구하고자하는 값에 커서를 가져간다.
Gold 만 선택하여 해당 법위의 값을 확인
▷ 119
▶ 문항10. 종속변수를 제외한 모든 변수에 대해 결측치가 있는 경우, 수치형 변수는 평균값, 범주형 변수는 최빈값으로 결측치를 대체하시오. 데이터 가공 후, 변화된 '잔여약정 개월수(agreement_month)'의 표준편차를 작성하시오
데이터 가공을 요하는 문제(참고)
데이터 가공의 경우 데이터 가공 메뉴에서 설정 가능
문제에 주어진 대로 수치형 변수와 범주형 변수를 구분하여 문제에 나와있는 값으로 결측치를 대체한다.
수치형은 mean / 범주형은 most_frequent 보기 > 적용
그러면 agreement_month_IM 생성
표준편차 sd 작성
※ 주의 꼭 가공 데이터 저장을 누를 것
▷ 13.54
▶ 문항11. 3개의 머신러닝 모델을 다음과 같은 설정으로 학습하고, 이 중 MAE를 기준으로 가장 성능이 높은 모델을 선택하시오.
머신러닝 성능 비교 문제(참고)
머신러닝 관련 문제는 AI모델 학습 > 머신러닝 학습 메뉴에서 가능
문제에 나와있는대로 각 머신러닝 설정을 변경
각 ML 모델을 전체다 클릭하여 음영이 생긴 상태로 학습 시작을 클릭하면 수 분 후 학습결과가 나오는 모습을 볼 수 있음
문제에서 원하는 MAE 기준으로 성능을 비교 (작을수록 좋음)
▷ Random Forest
▶ 문항12. 딥러닝 모델을 다음과 같은 설정으로 학습하고, 학습된 모델의 MSE를 작성하시오.
딥러닝 학습 문제(참고)
딥러닝 관련 문제는 AI모델 학습 > 딥러닝 학습 메뉴에서 가능
문제에 제시한대로 각 설정을 변경
학습 시작 후 수 분이 지나면 및에 부분에 종속 변수에 대한 성능이 나온다.
해당 문제에서는 mean_squared_error(MSE)를 확인하면 된다.
※ 주의 꼭 모델 저장을 누를 것
▷ 0.4785
▶ 문항13. 문항 12번에서 학습한 딥러닝 모델 분석 결과, '납부 예정금액(label_fee)' 예측에 영향을 주는 상위 5개의 변수에 해당하지 않는 것을 고르시오.
변수 영향도 확인 문제(참고)
변수 영향도 확인 문제는 AI 모델 활용 > 변수 영향도 확인메뉴에서 확인 가능
저장해놓은 모델로 선택하여 변수 영향도 확인 메뉴를 누르면 종속 변수와 가능 영향도 높은 5개의 변수가 나온다.
그중 해당하지 않는 변수를 선택한다.
▷ 할부여부(installment_yn_IM)
▶ 문항14. 문항 12번에서 학습한 딥러닝 모델을 활용하여 다음과 같은 조건일 때의 '납부 예정금액(label_fee)'를 예측하시오.
시뮬레이션 문제(참고)
시뮬레이션 문제는 AI 모델 활용 > 시뮬레이션 메뉴에서 확인 가능
모델 학습을 한 후 특정값을 입력하면 그 값에 대한 종속변수를 알려준다.
문제에 제시한 대로 값들을 입력하면 아래쪽에 시뮬레이션 결과에 종속변수가 나온다
TIP. 해당 문제를 통해 변수값이 가공이 되었어야 하는지 알 수 있다. 변수명 뒤에 _IM , _SS 등 이 나온다면 변수 가공이 들어갔다는 걸 알 수 있다.
▷ 51668
▶ 문항15. 문항 12번에서 학습한 딥러닝 모델을 고도화할 예정입니다. 전체 데이터의 학습 횟수를 의미하는 파라미터를 100으로 설정하고, 1회 학습시 가중치 업데이트에 사용되는 파라미터를 128로 설정하세요. 그리고 드롭아웃을 0.5로 설정한 후 MSE를 개선하고, 그 값을 작성하시오.
딥러닝 성능 개선 문제(참고)
딥러닝 성능 개선 문제의 경우 AI모델 학습 > 딥러닝 학습 메뉴에서 가능
해당 문제의 경우 성능 개선이긴하지만 특정 파라미터가 정확히 어떤 역할을 아는지에 대해 물어보는 문제
전체 데이터를 학습하는 횟수 = epoch
1회 학습시 가중치 업데이트에 사용되는 파라미터 = batch size
그러므로 epoch를 100으로 늘리고 batch size도 128로 늘려서 MSE 결과값 확인
12번 문항보다 더 낮은 값이 나오면 된다.
▷ 0.4780
* 본 게시글은 개인 학습을 위한 샘플 문제 풀이 게시물입니다. KT AICE 공식 홈페이지에 공개된 샘플문항을 바탕으로 작성되어있으며 문제의 저작권은 KT에 있습니다.
'@@@ 이론 공부 > AICE Basic' 카테고리의 다른 글
| [AICE Basic] 문제 유형 구분 및 풀이 방법 (0) | 2026.02.22 |
|---|---|
| [AICE Basic] AICE 샘플문항 회귀 #2 문제 풀이 (0) | 2026.02.22 |
| [AICE Basic] AICE 샘플문항 회귀 #1 문제 풀이 (0) | 2026.02.22 |
| [AICE Basic] AICE 샘플문항 분류 #3 문제 풀이 (0) | 2026.02.22 |
| [AICE Basic] AICE 샘플문항 분류 #2 문제 풀이 (0) | 2026.02.22 |