@@@ 이론 공부/AICE Basic

[AICE Basic] AICE 샘플문항 분류 #3 문제 풀이

HTG 2026. 2. 22. 10:59
728x90

* 본 게시글은 개인 학습을 위한 샘플 문제 풀이 게시물입니다. KT AICE 공식 홈페이지에 공개된 샘플문항을 바탕으로 작성되어있으며 문제의 저작권은 KT에 있습니다.


AICE 샘플문항 분류 #1 문제 풀이

문제는 고객의 호러 장르 선호 여부 예측 문제


▶ 문항1. 본 과제 해결에 알맞은 알고리즘 유형을 고르시오.

 

해당 문제는 선호에 대한 여부를 구분하기 때문에 분류에 대한 문제

TIP. 후반부 문제(11, 14) 문제에서 Precision 를 구하는 문제가 있는데 Precision 의 경우 분류문제에 대한 성능을 구할때 사용

 

▷ 분류 모형


▶ 문항2. 본 과제를 해결하기 위한 종속변수를 고르시오

 

문제에 나와 있는거 처럼 호러 장르 선호 여부를 판단하는 문제이기 때문에 종속 변수는 label_horror(호러장르 선호여부)

 

▷ label_horror(호러장르 선호여부)


▶ 문항3. 수치형 변수와 범주형 변수 개수의 차이를 작성하시오.

 

변수의 데이터 형에 대한 문제

변수의 데이터형은 데이터분석 > 기초정보분석 메뉴에서 확인

맨위 전체 에서 유형을 보면 Numeric(수치형) 유형은 7개, Object(범주형) 유형은 4개 인것을 확인 할 수 있음

 

3


▶ 문항4. '총 콘텐츠 구매 건수(total_buy_ol)'의 기술통계량을 확인하고, 가장 큰 값을 지니는 통계량을 고르시오.

 

컬럼의 통계량을 묻는 문제(참고)

컬럼의 통계량은 데이터분석 > 기초정보분석 메뉴에서 확인

mean(평균값) / median(중위수, 중앙값) / sd(표준편차) / Q3 제3사분위

2.2                 / 1.00                              / 3.13              / 3.00

 

표준편차


▶ 문항5. '호러 구매금액(horror_amount)'와 가장 큰 양의 상관관계를 갖는 변수를 구하시오.

 

컬럼간의 상관관계에 대해 묻는 문제(참고)

컬럼간의 상관관계는 데이터분석 > 시각화분석 > 히트맵 메뉴로 확인 가능

붉은 색이 양의 관계 , 푸른 색이 음의 관계

각 칸에 커서를 가져가면 숫자가 뜬다. 그중 가장 큰 값을 가지는 컬럼이 총 호러 구매금액 과 가장 큰 양의 상관관계를 가진다.

 

total_buy_ol(총 콘텐츠 구매건수)


▶ 문항6. ‘고객 유형(customer_type)’가 개인일 때, ‘드라마 구매금액(drama_amount)’가 00보다 큰 수치이면 IQR기준 이상치라고 판단한다. 다음 빈칸에 들어가는 수치를 작성하시오.

 

특정 컬럼의 통계량을 구하는 문제(참고)

단순 통계량이 아니라 특정 조건을 만족하는 통계량은 박스차트를 통하여 확인 가능

데이터분석 > 시각화분석 > 박스차트 메뉴로 확인 가능

구하고자하는 값 - 드라마 구매금액(drama_amount) 을 Y로 설정

구분 하고자하는 값 - 고객 유형(customer_type) 을 X로 설정

이상치 판단은 IQR로 판단 Q3 + IQR / Q1 - IQR 로 판단하기 때문에 지금 말하는 위로 이상치는 upper fence(Q3 + IQR) 로 판단할 수 있다.

 

6000


▶ 문항7. ‘호러장르 선호 여부(label_horror)'가 'Y'일 때, '총 컨텐츠 구매건수(total_buy_ol)'의 이상치가 아닌 값의 상한선을 고르세요

 

특정 컬럼의 통계량을 구하는 문제(참고)

단순 통계량이 아니라 특정 조건을 만족하는 통계량은 박스차트를 통하여 확인 가능

데이터분석 > 시각화분석 > 박스차트 메뉴로 확인 가능

구하고자하는 값 - 총 컨텐츠 구매건수(total_buy_ol) 을 Y로 설정

구분 하고자하는 값 - 호러장르 선호 여부(label_horror) 을 X로 설정

이상치 판단은 IQR로 판단 Q3 + IQR / Q1 - IQR 로 판단하기 때문에 지금 말하는 위로 이상치는 upper fence(Q3 + IQR) 로 판단할 수 있다.

 

6


▶ 문항8. '고객유형(customer_type)'별 '총 콘텐츠 구매건수(total_buy_ol)'을 시각화하고, '총 콘텐 츠 구매건수(total_buy_ol)'가 '1'건인 고객이 가장 많이 속한 '고객유형(customer_type)"의 구간 을 고르시오.

 

특정 컬럼의 특정 값으로 분류한 후 특정 값에 대한 개수를 묻는 문제(참고)

컬럼간의 특정 값은 데이터분석 > 시각화분석 > 분포차트 메뉴로 확인 가능

구하고자하는 값 - 총 컨텐츠 구매건수(total_buy_ol) 을 X로 설정

구분 하고자하는 값 - 고객유형(customer_type) 을 Hue로 설정

 

 개인


▶ 문항9. '멜로 구매금액(romc_amount)'이 '0~100'에 속하는 고객 중 '성별(sex)'이 'F(여성)'인 고객의 수를 작성하시오.

 

특정 컬럼의 특정 값으로 분류한 후 특정 값에 대한 개수를 묻는 문제(참고)

컬럼간의 특정 값은 데이터분석 > 시각화분석 > 분포차트 메뉴로 확인 가능

구하고자하는 값 - 멜로 구매금액(romc_amount) 을 X로 설정

구분 하고자하는 값 - 성별(sex) 을 Hue로 설정

 

3345


▶ 문항10. 종속변수를 제외한 모든 변수에 대해 결측치가 있는 경우, 수치형 변수는 중앙값, 범주형 변수는 최빈값으로 결측치를 대체하시오. 데이터 가공 후, 변화된 '연령그룹(age_group)' 의 최빈값의 비율(%)을 작성하시오

 

데이터 가공을 요하는 문제(참고)

데이터 가공의 경우 데이터 가공 메뉴에서 설정 가능

문제에 주어진 대로 수치형 변수와 범주형 변수를 구분하여 문제에 나와있는 값으로 결측치를 대체한다.

해당 문제에서는 수치형은 중앙값 / 범주형은 최빈값으로 대체

그러면 변화된 age_group_IM이 생성

그중 최빈값의 비율을 보면 A07이고 15.96이다

※ 주의 꼭 가공 데이터 저장을 누를 것

 

15.96


▶ 문항11. 딥러닝 모델을 다음과 같은 설정으로 학습하고, 학습된 모델의 Accuracy를 작성하시오.

 

딥러닝 학습 문제(참고)

딥러닝 관련 문제는 AI모델 학습 > 딥러닝 학습 메뉴에서 가능

문제에 제시한대로 각 설정을 변경

학습 시작 후 수 분이 지나면 및에 부분에 종속 변수에 대한 성능이 나온다.

그중 Accuracy 를 확인한다.

 

0.8709


▶ 문항12. 문항 11번에서 학습한 딥러닝 모델 분석 결과, '호러장르 선호여부(label_horror)' 예측에 영향을 주는 상위 5개의 변수에 해당하지 않는 변수를 고르시오.

 

변수 영향도 확인 문제(참고)

변수 영향도 확인 문제는 AI 모델 활용 > 변수 영향도 확인메뉴에서 확인 가능

저장해놓은 모델로 선택하여 변수 영향도 확인 메뉴를 누르면 종속 변수와 가능 영향도 높은 5개의 변수가 나온다.

그중 해당하지 않는 변수를 선택한다.  

 

drama_amount(드라마 구매금액)


▶ 문항13. 문항 11번에서 학습한 딥러닝 모델을 활용하여 다음과 같은 조건일 때의 '호러장르 선호여부(label_horror)'를 예측하시오.

 

시뮬레이션 문제(참고)

시뮬레이션  문제는 AI 모델 활용 > 시뮬레이션 메뉴에서 확인 가능

모델 학습을 한 후 특정값을 입력하면 그 값에 대한 종속변수를 알려준다.

문제에 제시한 대로 값들을 입력하면 아래쪽에 시뮬레이션 결과에 종속변수가 나온다

 

N(선호하지 않음)


▶ 문항14. 3개의 머신러닝 모델을 다음과 같은 설정으로 학습하고, 이 중 Precision 기준 성능이 평균적으로 가장 좋은 것을 고르시오.

 

머신러닝 성능 비교 문제(참고)

머신러닝 관련 문제는 AI모델 학습 > 머신러닝 학습 메뉴에서 가능

문제에 나와있는대로 각 머신러닝 설정을 변경

각 ML 모델을 전체다 클릭하여 음영이 생긴 상태로 학습 시작을 클릭하면 수 분 후 학습결과가 나오는 모습을 볼 수 있음

문제에서 원하는 Precision 기준으로 성능을 비교 (클수록 좋음)

 

Logistic Regression


▶ 문항15. 3개의 머신러닝 모델을 다음과 같은 설정으로 학습하고, 이 중 F1 Score 기준 성능이 평균적으로 가장 좋은 것을 고르시오.

 

머신러닝 성능 비교 문제(참고)

머신러닝 관련 문제는 AI모델 학습 > 머신러닝 학습 메뉴에서 가능

문제에 나와있는대로 각 머신러닝 설정을 변경

각 ML 모델을 전체다 클릭하여 음영이 생긴 상태로 학습 시작을 클릭하면 수 분 후 학습결과가 나오는 모습을 볼 수 있음

문제에서 원하는 F1 Score  기준으로 성능을 비교 (클수록 좋음)

 

Random Forest


 

 


* 본 게시글은 개인 학습을 위한 샘플 문제 풀이 게시물입니다. KT AICE 공식 홈페이지에 공개된 샘플문항을 바탕으로 작성되어있으며 문제의 저작권은 KT에 있습니다.

728x90