안녕하세요, 클루입니다! 오늘 실시된 제 2회 빅데이터분석기사 자격증의 필기 시험에 대한 소소한 후기를 남겨봅니다. 한국데이터산업진흥원에서 주최되는 시험으로 이번이 제 2회 시험이라고 하지만, 사실상 작년 12월의 1회차 시험이 코로나 때문에 취소되는 바람에.. 아직 기출문제는 전혀 없는 상태입니다.

저는 수제비 2021 빅데이터분석기사 필기 책으로 공부했는데.. 결론만 말하자면.. 아무런 도움이 되지 않았습니다.. 수제비 책이 깔끔해서 다수에 비슷한 종류의 자격증을 딸 때 수제비 한 권만 (특히 거기 나온 기출 위주로..ㅋㅋ) 주로 훑고 갔었는데! 첫 시험이라 어쩔 수 없나봅니다. 도움이 되었던 참고서가 있었다면.. 저도 궁금하네요.

통계학과니까라는 괜찮겠지라는 안일한 마음으로 하루 전에 벼락치기하고 시험봤는데(4단원은 안보고 갔다는 사실을 시험 보고와서 깨닫고..)

2단원에는 통계학과 1학년 때 듣는 통계학 내용과 간간히 수리통계학 기초(MLE, CLT) 정도의 내용이 많이 나오더라구요. 가물치마냥 기억이 가물가물 신뢰구간.. boxplot.. 기억 더듬으며 풀고.. 생각보다 계산 문제가 있어서 약간 놀랐다고 해야되나..?

3,4단원은 그래도 회귀, 분류, 군집분석, 다변량(PCA, MDS), 시계열, 딥러닝.. 다양하게 개념 위주로 나왔던 것 같아요. 제 개인적인 생각일 수도 있지만 통계학 기초부터 심화 그리고 요즘 트렌드인 인공지능 부분까지 조금 넣어서 범위는 좀 광범위하다고 느꼈는데, 통계학 지식이 전무후무한게 아니라면 도전해볼 법한 난이도인 것 같습니다! 제 기준 최근 본 정보처리기사 필기와 비교하자면 비슷하거나 조오금 더 어려운 정도의 난이도인 것 같아요. (저도 떨어질 수도^^ ㅋㅋㅋㅋ)

그리고.. 복수 정답이라고 생각되는 문제가 두 개 정도 있었는데.. 그냥 공부를 안해서 그런건지 아니면 진짜 복수 정답이 있는건지 모르겠네요..

결과는 5월 7일에 나온다고 하니.. 그때까지 기다려봅시다..ㅎㅎ 줄행랑치듯 도망나왔지만 그래도 나왔던 개념들을 기억을 되짚어 적어봤어요..! (다시 봐야할지도 모르니까 ㅋㅋ)

문제는 총 80문제(각 단원마다 20문제씩)였고, 넉넉히 풀어서 마킹까지 1시간 20분 정도 걸렸습니다. 시험볼 때 꼭 컴퓨터용 사인펜 챙겨가세요~ (기억이 왜곡되어 틀린것이 있을 수도 있으니 나왔던 개념 위주로 참고하세요! 괄호 안에 있는건 답이 아니라 그냥 예시입니다.. 그리고 정확히 어떤 단원인지 모르겠어서 그냥 관련 단원에 집어넣은 것도 많아요..)



1단원

  • 데이터 수집 방법(ex ETL)
  • 데이터베이스와 수집 방법 연결(ex 데이터베이스-크롤링 X)
  • 개인정보 비식별 조치 방법(ex 가명처리)
  • 상향식 접근/분석기획 유형(ex 최적화)
  • 비식별화 방법(K-익명화, I-다양성, T-근접성)
  • 개인정보 열람(?) 동의 받아야하는 예시(ex 국민건강보험에서 질병 이력 확인, 회사에서 전과이력 조회, 요금제 사용량 조회)

2단원

  • 기술통계에 해당하지 않는 것(ex 평균, 시각화)
  • 설명변수가 연속형, 종속변수가 범주형일 때(ex 로지스틱)
  • 변수 선택 기법(ex 후진제거법)
  • 변수 선택 기법(ex 라쏘)
  • 다차원 척도법 관련 내용(ex 차원축소)
  • 불균형 데이터 처리 방법(ex 오버, 언더 샘플링)
  • 예시에 대한 적합한 모델링(ex 분류, 회귀, 군집)
  • 이상치의 원인(ex 표본)
  • boxplot 구성요소 아닌 것(ex 평균, 분산, 이중 정답 의심..)
  • 성격 다른 분포(ex 이항분포, 포아송)
  • 평균에 대한 신뢰구간 구하기
  • 유의수준 구하기

3단원

  • 파라미터에 해당하는 것(ex 가중치)
  • 예시주고 적합한 모델링(ex 지도학습, 비지도학습)
  • 회귀모형 가정(ex 선형성, 독립성, 등분산성)
  • 카이제곱 통계량 설명
  • CNN(이미지 (5,5), 필터 (3,3) padding=0 결과)
  • 설명하는 알고리즘과 관련 모델(ex 부스팅-GBM)
  • 베이지안 간단 계산문제 (A공장 불량률, B공장 불량률 어쩌고..)
  • MLE 간단 문제 (likelihood 직접 계산하는것 X, 지수분포의 모수와 평균을 알아야 풀 수 있는 문제)

4단원

  • 시계열 구성요소(ex 추세, 계절, 순환)
  • 혼동행렬(FP,TF)
  • ROC 개념(ex AUC가 클수록 좋음, X축은 1-특이도, Y축은 민감도)
  • 교차검증(ex K-1 부분집합 학습데이터, 나머지 1개 평가 데이터)
  • 검증 관련(ex 데이터가 많으면 학습 데이터만 있어도 예측 좋음)
  • 민감도, 특이도 개념
  • 인공신경망 관련 개념(ex 드롭아웃)
  • 방법 설명하고 적절한 시각화(ex 스타 차트, 평행 좌표)
  • 인포그래픽 개념 관련

생각나는대로 나왔던 개념과 선지 예시를 적었는데..당연히 틀린 내용 있을 수 있다는 것을 감안해주세요. 혹시라도 문제가 된다면 삭제할게요! 첫 시험이라 너무 공유하고 싶은데 약간 조심스러운 것도 없지 않네요 XD




5월 7일 합격자 발표가 났네요! 20문제씩인데, 25점 만점으로 점수를 내어 소수점이 나오나 봅니다. 4단원은 보지도 못하고 갔는데 높은 점수인걸 보면.. 평소에 하던 전공 공부가 헛되지 않았군요..^^ 정말 다행.. 이제 실기 접수하러 가야겠네요. 5월 24일부터 제 2회 빅데이터분석기사 실기 접수기간입니다 XD

image-1