안녕하세요, 오랜만에 자격증 시험 후기를 들고왔습니다. 지난 8월 말에 제 26회 ADP 자격증의 필기 시험에 응시했고, 과락일 줄 알았는데 합격했습니다. 먼저 ADP는 자격 요건과 합격 기준이 다른 자격증들에 비해 조금 까다로운 편이니까 꼭 한 번 확인하고 필기를 접수하세요.

필기 시험일 이전에 아래의 자격 요건에서 경력/학력기준 또는 자격보유기준 중 한가지의 요건이 충족될 경우 응시자격이 부여됩니다. 주로 ADsP 자격증을 취득하고 ADP에 응시하는 경우가 많은 것 같습니다.

image-1



다음으로 필기 시험 합격 기준은 다음과 같습니다. 1. 총점 100점 기준 70점 이상, 그리고 2. 과목별 40% 미만 취득 으로 10문항씩 있는 1, 2, 3, 5단원의 경우 4문제 이상 맞춰야 합니다. 과락을 안 받는게 이 필기 시험의 포인트로 생각되네요.



문제를 생각나는 대로 복기해보았는데, 그냥 기억나는 내용들을 적은 것이니 참고용으로 보시길 바랍니다. 기억나는 대로 최대한 많이 적었는데, 문제가 될 시 삭제하도록 하겠습니다.



1단원

  • 1)
    • 데이터는 암묵지, 형식지의 상호작용에 있어 중요한 역할을 한다.
    • 데이터는 그 자체로 의미가 없으며 객관적인 사실이다.
    • 데이터는 창의적인 산물이다.
  • 2)
    • OLAP
  • 3) 틀린 예시? (각 예시 존재)
    • 사생활 침해: 개인정보 사용자의 책임
    • 책임 원칙 훼손1
    • 책임 원칙 훼손2
    • 데이터 오용
  • 4) 틀린 설명?
    • 하드 스킬 2개
    • 소프트 스킬 2개
  • 5) 틀린 예시와 설명?
    • 로직 오류
    • 준비가 되지 않아서 분석에 차질이 생기는 경우 로직 오류인가
    • 프로세스 오류
  • 6) 위기 요인 틀린 설명?
    • 사생활 침해
    • 책임 원칙 훼손: 특정 성향의 사람을 채용에서 불이익
    • 데이터 오용
  • 7 )데이터 사이언티스트 요구 역량 가장 적절?
    • 하드스킬
    • 소프트스킬: 다분야간 협력을 위한 소통 능력



2단원

  • 1) ETL 틀린 설명?
    • 데이터 통합(integration)
    • 데이터 이동(migration)
    • 마스터 데이터 관리(Master data management)
    • 데이터 정제?
  • 2) ETL
    • 추출
    • 변형
    • 적재
  • 3) ETL 작업 단계
    • interface -> stagging -> profiling -> cleansing -> integration -> denormalizing
  • 4) 하둡, 맵리듀스
  • 5) GFS 맞는 설명?
    • 틀린 보기: 낮은 응답 지연시간이 높은 처리율 보다 더 중요하다.
    • 맞는 보기: 파일에 대한 쓰기 연산은 주로 순차적으로 이뤄지며, 파일에 대한 갱신은 드물에 이뤄진다.
  • 6) 틀린 설명?
    • DW는 최신 데이터만 축적한다.
  • 7) 운영체제 위에 가상의 운영체제를 구성하기 위한 운영 환경 계층을 추가하여 운영체제만을 가상화한 방식은?
    • 메모리 기반 가상화
    • 호스트 운영체제 기반 가상화 (*틀림)
    • 컨테이너 기반 가상화 (*답)
    • 하이퍼바이저 기반 가상화
  • 8) EAI 활용 효과 적절한 것 모두 고르시오 (모두 맞음)
    • 정보 시스템 개발 및 유지 보수비용 절감
    • 기업 정보 시스템의 지속적 발전 기반 확보
    • 협력사/파트너/고객과의 상호협력 프로세스 연계
    • 웹 서비스 등 인터넷 비즈니스를 위한 기본 토대
  • 9) 공유 디스크 장점 적절한 것?
    • 클러스터를 구성하는 노드 중 하나의 노드만 살아있어도 서비스 가능 (*답)
    • 클러스터가 커지면 디스크 영역 병목현상 발생 (틀림)
    • 노드간의 동기화 작업 수행을 위한 별도의 커뮤니티 필요 없음 (틀림)
  • 10) 분산시스템 설명 중 적절한 것 모두 고르시오 (모두 맞음)
    • 빅테이블은 multi-dimension sorted hash map을 파티션하여 분산 저장하는 저장소
    • SimpleDB의 데이터 모델은 Domain, Item, Attribute, Value로 구성되며 스키마가 없는 구조
    • SSDS의 데이터 모델은 컨테이너, 엔티티로 구성



3단원

  • 1) 하향식 접근 분석
    • insight & discovery
    • solution & discovery
    • optimization & solution
  • 2) 데이터 소스 파악이 어렵고 데이터 정확한 규정도 어려울 때 일단 분석 시도해보고 결과를 확인하며 반복적으로 개선해나가는 방법
    • 하향식
    • 폭포수
    • 프로토타입 모델
  • 3) 하향식 접근법
  • 4) 거시적 관점에서 메가트렌드
    • 기술
    • 고객
    • 경쟁자
    • 파트너와 네트워크
  • 5) 하향식 접근법에서 고객 관점에서 관심 사항이 아닌 것
    • 경험
    • 감정
    • 기능
    • 재무적
  • 6) 분석 기획 시 우선순위
    • 전략적 필요성 & 시급성
  • 7) 세부 이행 계획 수립
    • 고전적인 폭포수보다 반복적인 정련 과정을 통해 완성도 높이기
  • 8) 맞는 것?
    • 에이전시
    • 디지털화
    • 효율성
  • 9) 분석을 위한 조직 구조
    • 집중 구조: 전사 분석 업무를 별도의 분석 전담 조직에서 담당
    • 기능 구조
    • 분산 구조



4단원

  • 1) 이산형 분포 아닌 것은?
    • 기하
    • 지수
    • 포아송
    • 이항
  • 2) 시계열 정상성 설명
    • 시간에 따라 분산이 변한다
    • 시간에 따라 모수가 일정하다
  • 3) 회귀 통계적 유의한지 확인하는 통계량
    • F
    • t
    • 결정계수
  • 4) 회귀에서 정규성 확인하는 방법 틀린 것은?
    • 왜도첨도
    • 결정계수
    • qqplot
    • ks test
  • 5) 평균 계산: f(x)=1, 0<x<1 => 0.5
  • 6) 척도 문제: 스피어만?
    • 서열척도
  • 7) 척도 문제: 온도, 지수, 절대적 0 없음
    • 구간척도
  • 8) 실제 true 중에 예측이 맞은 거?
    • 오분류율
    • 정확도
    • 특이도
    • 재현율(민감도)
  • 9) 연관분석 신뢰도 구하기
    • 40%
  • 10) 연관분석 향상도 구하기
    • 33% (*틀림)
  • 11~15) 회귀 해석 문제: 로지스틱 회귀 해석/교호작용 있는지
  • 16) 답 틀린 것?
    • 정규성
    • 선형성: 일정하게 상승한다
    • 등분산성: 모든 변수에 대해 오차들이 일정하다 (*)
  • 17) 범주형 변수 분석 시 틀린 방법?
    • Log linear를 사용
    • 주로 이항 분포와 포아송 분포를 활용
  • 18) 다음 설명에 적절한 척도 (온도/지수, 절대적 0 없는 척도)
    • 구간 척도
  • 19) 표본 추출 방식 (샘플 나열 K씩 N구간으로 나누고 임의로 K개씩 띄어서 n개 표본 선택)
    • 계통추출법
  • 20) 클러스터링
    • 초기 중심점에 영향을 받지 않는다
  • 21) 다음 설명에 맞는 방법 (오분류한 데이터에 가중치 업데이트)
    • 부스팅



5단원

  • 1) 시각화 순서 나열
    • 구조화 > 시각화 > 시각표현
  • 2) 적절한 설명?
    • 히트맵은 색으로만 구분한다
    • 체르노프 페이스는 각 부위를 변수로 대체하여 속성을 쉽게 파악한다
    • 스타차트는 하나의 변수마다 축 위의 중앙으로부터 거리를 수치로 나타낸다.
  • 3) 다음 설명에 맞는 시각화 (몇 개의 축을 그리고, 하나의 변수마다 축 위의 중앙으로부터 수치 나타냄)
    • 방사형
  • 4) 연결 잘못된 것
    • 시간 - 점그래프
    • 분포 - ?
    • 관계 - ?
    • ? - 평행좌표계
  • 5) 다음 설명에 맞는 시각화 (영역 기반의 시각화, 각 사각형의 크기가 수치)
    • 트리맵
  • 6) 벤 프라이 7단계 방법론 순서
    • 획득 / 분해 / 선별 / 마이닝 / 표현 / 정제 / 상호작용



[서술형] (20점, 각 5점)

    1. train, test 과적합 문제
    1. 인공신경망 과적합 해결방법
    1. 두 모델의 정확도, f1score 계산
    1. 비교 후 어떤 모델이 더 좋은지
      • => (b)의 f1 스코어가 더 높기 때문에 (b) 모델을 선택



생각나는대로 나왔던 개념과 선지 예시를 적어뒀고, 답은 따로 체크하지 않았습니다! 이런 내용들을 공부하시면 정말 무난히 합격하실 수 있습니다.

추가로 서술형에서 과적합 해결 방법으로 1. Dropout층 추가, L1, L2 규제 등 2. Early Stopping 수행이라고 적었습니다. 그 외에 Cross Validation, 하이퍼파라미터 튜닝 내용들도 무난하게 정답인 것 같습니다. 그리고 정확도와 f1-score 계산에서 공식 모두 자세히 적었습니다!

image-1

이제 기쁜 마음으로 실기를 신청하러 가야겠네요.