@@@ 이론 공부/AICE Basic

[AICE Basic] AICE 샘플문항 회귀 #1 문제 풀이

HTG 2026. 2. 22. 10:59
728x90

* 본 게시글은 개인 학습을 위한 샘플 문제 풀이 게시물입니다. KT AICE 공식 홈페이지에 공개된 샘플문항을 바탕으로 작성되어있으며 문제의 저작권은 KT에 있습니다.


AICE 샘플문항 회귀 #1 문제 풀이

문제는 납부예정금액을 예측 문제


▶ 문항1. 본 과제 해결에 알맞은 알고리즘 유형을 고르시오.

 

해당 문제는 특정값을 예측하기 때문에 회귀에 대한 문제

TIP. 후반부 문제(8,11) 문제에서 MSE 를 구하는 문제가 있는데 MSE 의 경우 회귀문제에 대한 성능을 구할때 사용

 

▷ 회귀 모형


▶ 문항2. 다음의 수치형 변수 기술통계량을 확인하고, 제3 사분위수(Q3)의 크기가 가장 작은 변수를 고르시오.

 

각 칼람의 통계량에 관련된 문제(참고)

통계량 관련 데이터분석 > 기초정보분석 메뉴에서 확인

각 해당 컬럼의 Q3 값을 확인한다.

 

▷ 부가정보1(extra_info1)


▶ 문항3. '고객등급(customer_class)'이 'VVIP'인 고객의 수를 작성하시오.

 

각 컬럼의 값에 대한 개수를 묻는 문제

각 컬럼의 정보는 데이터분석 > 기초정보분석 메뉴에서 확인

해당 컬럼에 대한 정보를 보고 VVIP에 대한 개수를 파악

 

732


▶ 문항4. 다음의 범주형 변수 기술통계량을 확인하고, 특정 범주에 90%이상의 데이터가 몰려 있는 변수를 고르시오.

 

각 컬럼의 값에 대한 개수를 묻는 문제

각 컬럼의 정보는 데이터분석 > 기초정보분석 메뉴에서 확인

확인시 서비스 구분(service_category)는 99.98% 가 상품A 인 편향이 심한 칼람인 것을 알 수 있다.

 

서비스 구분(service_category)


▶ 문항5. 각 '고객등급(customer_class)' 별 '납부 예정금액(label_fee)'을 시각화하고, 제 1사분위 수(Q1)가 가장 낮은 '고객등급(customer_class)'을 고르시오.

 

특정 컬럼의 통계량을 구하는 문제(참고)

단순 통계량이 아니라 특정 조건을 만족하는 통계량은 박스차트를 통하여 확인 가능

데이터분석 > 시각화분석 > 박스차트 메뉴로 확인 가능

구하고자하는 값 - 납부 예정금액(label_fee) 을 Y로 설정

구분 하고자하는 값 - 고객등급(customer_class) 을 X로 설정

각 등급의 Q1을 비교한다. 눈으로 일단 구분하고 비슷하면 직접 커서를 가지고 가서 확인 한다.  

 

일반


▶ 문항6. 종속변수를 제외한 모든 변수에 대해 결측치가 있는 경우, 수치형 변수는 중앙값, 범주형 변수는 최빈값으로 결측치를 대체하시오. 데이터 가공 후, 변화된 '할부여부 (installment_yn)'의 최빈값의 개수를 작성하시오.

 

데이터 가공을 요하는 문제(참고)

데이터 가공의 경우 데이터 가공 메뉴에서 설정 가능

문제에 주어진 대로 수치형 변수와 범주형 변수를 구분하여 문제에 나와있는 값으로 결측치를 대체한다.

수치형은 median / 범주형은  most_frequent  보기 > 적용

그러면 installment_yn_IM 생성

최빈값인 N 개수 작성

※ 주의 꼭 가공 데이터 저장을 누를 것

 

4611


▶ 문항7. 3개의 머신러닝 모델을 다음과 같은 설정으로 학습하고, 이 중 설명력(R2)이 평균적으로 가장 높은 모델을 선택하시오.

 

머신러닝 성능 비교 문제(참고)

머신러닝 관련 문제는 AI모델 학습 > 머신러닝 학습 메뉴에서 가능

문제에 나와있는대로 각 머신러닝 설정을 변경 (Regression(회귀))

각 ML 모델을 전체다 클릭하여 음영이 생긴 상태로 학습 시작을 클릭하면 수 분 후 학습결과가 나오는 모습을 볼 수 있음

문제에서 원하는 R2 기준으로 성능을 비교 (클수록 좋음)

 

Random Forest


▶ 문항8. 딥러닝 모델을 다음과 같은 설정으로 학습하고, 학습된 모델의 MSE를 작성하시오.

 

딥러닝 학습 문제(참고)

딥러닝 관련 문제는 AI모델 학습 > 딥러닝 학습 메뉴에서 가능

문제에 제시한대로 각 설정을 변경

학습 시작 후 수 분이 지나면 및에 부분에 종속 변수에 대한 성능이 나온다.

해당 문제에서는 mean_squared_error(MSE)를 확인하면 된다.

※ 주의 꼭 모델 저장을 누를 것

 

0.4650


▶ 문항9. 문항 8번에서 학습한 딥러닝 모델 분석 결과, '납부 예정금액(label_fee)' 예측에 영향을 주는 상위 5개의 변수에 해당하지 않는 것을 고르시오.

 

변수 영향도 확인 문제(참고)

변수 영향도 확인 문제는 AI 모델 활용 > 변수 영향도 확인메뉴에서 확인 가능

저장해놓은 모델로 선택하여 변수 영향도 확인 메뉴를 누르면 종속 변수와 가능 영향도 높은 5개의 변수가 나온다.

그중 해당하지 않는 변수를 선택한다.

 

할부여부(installment_yn)


▶ 문항10. 문항 8번에서 학습한 딥러닝 모델을 활용하여 다음과 같은 조건일 때의 '납부예정금액(label_fee)'를 예측하시오.

 

시뮬레이션 문제(참고)

시뮬레이션  문제는 AI 모델 활용 > 시뮬레이션 메뉴에서 확인 가능

모델 학습을 한 후 특정값을 입력하면 그 값에 대한 종속변수를 알려준다.

문제에 제시한 대로 값들을 입력하면 아래쪽에 시뮬레이션 결과에 종속변수가 나온다

TIP. 해당 문제를 통해 변수값이 가공이 되었어야 하는지 알 수 있다. 변수명 뒤에 _IM , _SS 등 이 나온다면 변수 가공이 들어갔다는 걸 알수 있다. 

 

51668


▶ 문항11. 문항 8번에서 학습한 딥러닝 모델을 고도화하여 MSE를 개선하고, 그값을 작성하시오.

 

딥러닝 성능 개선 문제(참고)

딥러닝 성능 개선 문제의 경우 AI모델 학습 > 딥러닝 학습 메뉴에서 가능

결국 새로 딥러닝 학습을 하는 경우

보통 epoch를 조금 늘리고 batch 사이즈를 줄이는 방식으로 성능을 개선한다.

해당문제의 경우 Epochs 20 -> 100 로 변경

epoch만 늘려주어도 개선되는 모습을 대부분 볼수있음. 

MSE의 경우 낮을수록 좋은 값이기 때문에 0.4650 보다 낮은 값이면 된다.

※ 주의 너무 큰값을 입력하면 시험 시간내에 처리안되는 경우가 있을 수 있음

 

0.4637



* 본 게시글은 개인 학습을 위한 샘플 문제 풀이 게시물입니다. KT AICE 공식 홈페이지에 공개된 샘플문항을 바탕으로 작성되어있으며 문제의 저작권은 KT에 있습니다.

728x90