@@@ 이론 공부/AICE Basic

[AICE Basic] AICE 샘플문항 분류 #2 문제 풀이

HTG 2026. 2. 22. 10:58
728x90

* 본 게시글은 개인 학습을 위한 샘플 문제 풀이 게시물입니다. KT AICE 공식 홈페이지에 공개된 샘플문항을 바탕으로 작성되어있으며 문제의 저작권은 KT에 있습니다.


AICE 샘플문항 분류 #2 문제 풀이

문제는 고객의 호러 장르 선호 여부 예측 문제


▶ 문항1. 본 과제 해결에 알맞은 알고리즘 유형을 고르시오.

 

해당 문제는 선호에 대한 여부를 구분하기 때문에 분류에 대한 문제(참고)

TIP. 후반부 문제(14) 문제에서 Recall 를 구하는 문제가 있는데 Recall 의 경우 분류문제에 대한 성능을 구할때 사용

 

▷ 분류 모형


▶ 문항2. 다음 중 변수의 유형(Data type)이 다른것을 고르시오.

 

변수 유형은 데이터분석 > 데이터샘플보기 or 기초정보분석 메뉴에서 확인

데이터 범위를 전체로 해놓고 각 컬럼에 대한 정보를 확인하면서 유형을 확인한다.

TIP. 기초 정보 분석에서 통계량이 있거나 히스토그램이면 수치형 / 바 차트로 되어있으면 범주형

 

▷ 총 콘텐츠 구매건수(total_buy_ol)


▶ 문항3. 변수 중 total_amount를 삭제 시 종속변수를 제외하고 몇 개의 컬럼을 input으로 사용할 수 있는지 작성하시오.

 

변수 개수를 묻는 문제

변수 정보는 데이터분석 > 기초정보분석 메뉴에서 확인

해당 컬럼에 대한 정보를 보고 개인에 대한 개수를 파악

총 컬럼 개수를 알 수 있고 거기에서 total_amount와 종속변수 제외하면 9

 

9


▶ 문항4. '고객 유형(customer_type)'이 '법인사업자'인 고객의 수를 작성하시오.

 

변수의 특정 값의 개수 묻는 문제(참고)

변수 정보는 데이터분석 > 기초정보분석 메뉴에서 확인

해당 칼람을 선택해서 전체 데이터를 선택하여 분석하면 법인사업자의 수가 나온다.

 

183


▶ 문항5. '멜로 구매금액(romc_amount)'과 가장 큰 양의 상관관계를 갖는 변수를 고르시오.

 

컬럼간의 상관관계에 대해 묻는 문제(참고)

컬럼간의 상관관계는 데이터분석 > 시각화분석 > 히트맵 메뉴로 확인 가능

붉은 색이 양의 관계 , 푸른 색이 음의 관계

 

total_buy_ol(총 콘텐츠 구매건수)


▶ 문항6. '액션 구매금액(action_amount)'과 음의 상관관계를 갖는 변수를 고르시오.

 

컬럼간의 상관관계에 대해 묻는 문제(참고)

컬럼간의 상관관계는 데이터분석 > 시각화분석 > 히트맵 메뉴로 확인 가능

붉은 색이 양의 관계 , 푸른 색이 음의 관계

 

romc_amount(멜로 구매금액)


▶ 문항7. 호러장르 선호여부(label_horror)가 Y인 사람의 총 콘텐츠 구매금액(Total_amount)의 중앙값을 구하시오.

 

특정 컬럼의 통계량을 구하는 문제(참고)

단순 통계량이 아니라 특정 조건을 만족하는 통계량은 박스차트를 통하여 확인 가능

데이터분석 > 시각화분석 > 박스차트 메뉴로 확인 가능

구하고자하는 값 - 총 콘텐츠 구매금액(Total_amount) 을 Y로 설정

구분 하고자하는 값 - 호러장르 선호여부(label_horror) 을 X로 설정

HUE 는 선택사항(X값과 동일하게 선택)

그러면 N, Y로 구분된 총 콘텐츠 구매금액(Total_amount)이 나온다.

여기서 Y에 대한 것중 중앙값(median)을 구한다.

 

4200


▶ 문항8. 호러장르 선호여부(label_horror)가 Y인 사람의 호러 구매금액(horror_amount)의 중앙값을 구하시오.

 

특정 컬럼의 통계량을 구하는 문제(참고)

단순 통계량이 아니라 특정 조건을 만족하는 통계량은 박스차트를 통하여 확인 가능

데이터분석 > 시각화분석 > 박스차트 메뉴로 확인 가능

구하고자하는 값 - 호러 구매금액(horror_amount)  을 Y로 설정

구분 하고자하는 값 - 호러장르 선호여부(label_horror) 을 X로 설정

HUE 는 선택사항(X값과 동일하게 선택)

 

2,500


▶ 문항9. 종속변수를 제외한 모든 변수에 대해 결측치가 있는 경우, 수치형 변수는 중앙값, 범주형 변수는 A04로 결측치를 대체하시오. 데이터 가공 후, 변화된 '연령그룹(age_group)' A04의 최빈값의 비율(%)을 작성하시오.

 

데이터 가공을 요하는 문제(참고)

데이터 가공의 경우 데이터 가공 메뉴에서 설정 가능

문제에 주어진 대로 수치형 변수와 범주형 변수를 구분하여 문제에 나와있는 값으로 결측치를 대체한다.

수치형은 median / 범주형은 constant에서 A04을 입력 > 보기 > 적용

그러면 age_group_IM 생성

A04의 최빈값 비율 작성

※ 주의 꼭 가공 데이터 저장을 누를 것

 

8.66


▶ 문항10. '연령그룹(age_group_IM)' 별 '드라마 구매금액(drama_amount)'을 시각화하고, '연령그룹(age_group_IM) A15'의 IQR의 Q3 값을 작성하시오.

 

특정 컬럼의 통계량을 구하는 문제(참고)

단순 통계량이 아니라 특정 조건을 만족하는 통계량은 박스차트를 통하여 확인 가능

데이터분석 > 시각화분석 > 박스차트 메뉴로 확인 가능

구하고자하는 값 - 드라마 구매금액(drama_amount) 을 Y로 설정

구분 하고자하는 값 - 연령그룹(age_group_IM) 을 X로 설정

그러면 A15에 대한 값에 커서를 가져가면 Q3을 구할 수 있음 

 

7750


▶ 문항11. 연령그룹(age_group_IM)' 별 '드라마 구매금액(drama_amount)'을 시각화하고, 연령그룹(age_group_IM) 'A04'의 이상치 중 가장 작은 값을 작성하시오.

 

특정 컬럼의 통계량을 구하는 문제(참고)

단순 통계량이 아니라 특정 조건을 만족하는 통계량은 박스차트를 통하여 확인 가능

데이터분석 > 시각화분석 > 박스차트 메뉴로 확인 가능

구하고자하는 값 - 드라마 구매금액(drama_amount) 을 Y로 설정

구분 하고자하는 값 - 연령그룹(age_group_IM) 을 X로 설정

그러면 A4에 대해서 upper fence가 나오는데 거기에 가장 가까운 점에 커서를 가져가면 뜬다

 

6400

 


▶ 문항12. '고객 유형(customer_type)' 별 '드라마 구매금액(drama_amount)'을 시각화하고, ‘고객유형(customer_type) ‘ 공공기관의 이상치 중 가장 작은 값을 작성하시오.

 

특정 컬럼의 통계량을 구하는 문제(참고)

단순 통계량이 아니라 특정 조건을 만족하는 통계량은 박스차트를 통하여 확인 가능

데이터분석 > 시각화분석 > 박스차트 메뉴로 확인 가능

구하고자하는 값 - 드라마 구매금액(drama_amount) 을 Y로 설정

구분 하고자하는 값 - 고객 유형(customer_type) 을 X로 설정

그러면 공공기관에 대한 값들이 나오고 거기에서 upper fence에 가장 가까운 점에 커서를 가져가면 값이 뜬다.

 

12.9k


▶ 문항13. '호러 구매금액(horror_amount)'이 데이터범위가 '2000' 일때 ‘고객유형 (customer_type)’이 공공기관인 고객의 IQR를 작성하시오

 

특정 컬럼의 통계량을 구하는 문제(참고)

단순 통계량이 아니라 특정 조건을 만족하는 통계량은 박스차트를 통하여 확인 가능

데이터분석 > 시각화분석 > 박스차트 메뉴로 확인 가능

구하고자하는 값 - 호러 구매금액(horror_amount)  을 Y로 설정

구분 하고자하는 값 - 고객 유형(customer_type) 을 X로 설정

데이터 범위를 2000으로 설정하고 보면 공공기관에 대한 호러 구매금액이 나오고 커서를 가져가면 IQR(Q3 - Q1) 을 구할 수 있다

 

3000


▶ 문항14. 머신러닝 모델을 다음과 같은 설정으로 학습하고, Random Forest의 재현율(Recall)을 작성하시오.

 

머신러닝 성능 비교 문제(참고)

머신러닝 관련 문제는 AI모델 학습 > 머신러닝 학습 메뉴에서 가능

문제에 나와있는대로 각 머신러닝 설정을 변경

각 ML 모델을 전체다 클릭하여 음영이 생긴 상태로 학습 시작을 클릭하면 수 분 후 학습결과가 나오는 모습을 볼 수 있음

문제에서 원하는 Recall 기준으로 성능을 비교 (클수록 좋음)

 

0.7615


▶ 문항15. 딥러닝 모델을 다음과 같은 설정으로 학습하고, class 'N'의 학습된 모델의 F1 Score를 작성하시오.

 

딥러닝 학습 문제(참고)

딥러닝 관련 문제는 AI모델 학습 > 딥러닝 학습 메뉴에서 가능

문제에 제시한대로 각 설정을 변경

학습 시작 후 수 분이 지나면 및에 부분에 종속 변수에 대한 성능이 나온다.

여기에서 다른 문제와 다른 점은 class N에 대한 학습된 모델이므로 밑에 보면 N으로 되어있는 값들이 나온다.  

해당 문제에서는 F1 score를 확인하면 된다.

※ 주의 꼭 모델 저장을 누를 것

 

0.9310



* 본 게시글은 개인 학습을 위한 샘플 문제 풀이 게시물입니다. KT AICE 공식 홈페이지에 공개된 샘플문항을 바탕으로 작성되어있으며 문제의 저작권은 KT에 있습니다.

728x90