녕녀기의 실험일지

[ 후기 ] 빅데이터 분석 기사 후기 본문

-- Data --/- 데이터 분석 -

[ 후기 ] 빅데이터 분석 기사 후기

녕녀기 2023. 12. 15. 17:34

안녕하세요. 여러분 녀기입니다.

 

후...드디어 길고 길었던 빅분기가 끝났습니다!!!!!!

 

(모두 소리지르지 말고 박수쳐~~!!!!)

 

당당하게 합격을 했기 때문에 남겨 놓는 후기!!

 

(이제 자격증은 naver...)

 

불합했으면 써 놓지 않았을 그 후기(?)

 

지금부터 시작합니다.

 

렛츠 고도리~~~

 

(제 포스팅은 항상 깁니다(?) 도망가실 분들은 지금이 기회입니다.)


필기

생각보다 간당간당했던 필기(?)

 

평균 60점이 넘고, 한 과목당 40점이 넘어야 하는 상황에서 생각보다 아슬아슬했습니다(?)

 

뭐가 아슬아슬했냐고 생각하실 수도 있겠지만,

 

사람은 상상력만으로도 자신을 죽일 수 있습니다(?)


공부한 기간은 시험 날짜 전으로부터 두 달 정도 잡은 것 같습니다.

 

보통 다른 분들은 3주나 한 달 정도로 잡으시던데, 저는 배경 지식이 부족한 비전공자이기에 좀 오래 공부했습니다.

 

특히 암기에 약해서....ㅎㅎ


공부한 책은 이기적 빅분기 책을 사용했습니다.

https://product.kyobobook.co.kr/detail/S000061694098

 

2023 이기적 빅데이터분석기사 필기 기본서 | 나홍석 - 교보문고

2023 이기적 빅데이터분석기사 필기 기본서 | 출제 경향을 철저히 분석하여 완성한 빅데이터분석기사 필기 교재!본 도서는 최신 출제기준을 적용한 도서로, 빅데이터분석기사 필기 시험의 출제

product.kyobobook.co.kr

 

이 책으로 주로 공부해서 그런지 몰라도, 다른 문제집보다는 출제 경향을 잘 꾀고 있다는 생각이 드네요.

 

 

 

책에 있는 내용을 정리하면서,

 

확실히 알고 있는 내용은 딱히 정리를 안 하고 모르는 내용 위주로 정리를 한 뒤

 

인터넷에 널리널리 퍼져 있는 예상 기출과 비교하면서, 나올 것 같은 개념을 위주로 외웠습니다.


아무래도 2, 3, 4과목은 평소에 데이터 분석 연습을 하면서 어느 정도 틀을 잡아 놨다고 생각을 해서,

 

1과목 위주로 암기를 했습니다.

 

그런데 점수는 1과목이 제일 높고, 2~4과목이 낮네요.

 

 

 

1과목의 경우, 어느 정도 예상한 범위 내에서 나오지만,

 

2~4과목은 예상 기출과 물어보는 개념도 다르고, 문제 형식도 미묘하게 다른 느낌을 받았습니다.

 

실제로도 카페에 다른 분들 글을 읽어보면, 이번 시험이 기존보다 어렵더라는 평이 많았습니다.

 

 

 

빅분기가 생긴지 얼마 안 된 시험이기도 하고, 어떤 개념이 자격에 있어 중요한지 확립이 안 돼 있어

 

난이도가 들쑥날쑥한 것 같습니다.

 

(아직도 기억나는 t-검정과 카이제곱 분포 중 고르게 했던 문제.....

 

공부 부족이었습니다ㅠㅠ)

 

통계를 통한 검정이나, 머신러닝 모델 별 특징 등을 정확히 알고 가는 것이 확실히 중요한 것 같습니다.

 

(사실 필기를 본지 꽤 돼서 기억이 잘 안 나네요)

 

 

 

뭐 어쨌든 대부분의 자격증 시험이, 시험에서 검증하고자 하는 개념은 거의 고정돼 있다고 생각하기 때문에

 

예상 기출에 나오는 개념 + 본인 스스로가 취약한 개념

 

위주로 공부하시면 될 것 같습니다.


실기

어째 3유형만 틀렸나

제가 실기에 사용한 책도 '이기적'이었습니다.

 

(필기에서 의외로 잘 사용했다고 생각했기에, 실기도 그대로 같은 출판사 것을 사용했죠.)

 

심지어 시험장에서 대기할 때도 저랑 같은 책을 보시는 분을 보기도 했습니다.

 

제가 몰랐던 모델이나, method 같은 것이 나와있어서 좋은 공부가 되기도 했네요.

 

근데 사실상 실기는 책이 없어도 되지 않을까....

 

하고 개인적으로 생각하는데

 

이유는 아래에서 설명드릴게요.


빅분기 실기는 의외로

 

필기보다 쉽다는 평이 많습니다(?)

 

(물론 난이도는 개인에 따라 편차가 큽니다.)

 

 

 

실기가 필기보다 쉽다고 여기시는 분들은

 

아마 저처럼

 

평소에도 데이터 분석 연습을 하고 있던 분들이 자격증 시험을 봤기 때문이라고 생각합니다!

 

내가 평소에 데이터 전처리와 EDA, 모델 학습을 어느 정도 계속 연습하고 있었다,

 

하시는 분들은 시험에서 요구하는 문제가 낯설게만 느껴지시는 않을 것입니다.

 

 

 

이제 하다보면 어느 정도 자신만의 루틴도 생기고,

 

습관적으로 사용하는 모델이 있기 때문에

 

막 엄청나게 어렵다? 라고 느껴지지는 않았습니다.

 

그래서 그런지 책이 없었어도 되지 않았을까?

 

하는 생각이 드는 것이겠죠.


근데 저처럼 먼저 몸으로 부딪혀서 데이터 분야에 입문한 것이 아니고,

 

'나는 자격증 공부를 하면서 데이터 분야에 발을 담가 보겠어!' 하시는 분들에게는

 

책이 필요할 수도 있겠습니다.

 

생각보다 정리가 잘 돼 있어서,

 

시험을 보기 전 연습용으로 나쁘지 않다는 생각이 들었습니다.

 

하지만,

 

실기책 하나만으로는 실기를 무난히 넘기기에는 적합하지 않다는 생각도 들었습니다.

 

검색도 많이 하고, 다른 다양한 책을 보고 하면서

 

본인만의 루틴을 만드는 것이 중요하지 않을까 하는 생각이 드네요.


1유형의 경우는 

 

데이터 전처리를 할 수 있는가?를 판단합니다.

 

  • 데이터를 특정 개수만큼(혹은 범위만큼) 추출할 수 있는가?
  • 결측치를 처리할 수 있는가?
  • 통계치를 제대로 추출할 수 있는가?
  • 상관 계수를 파악할 수 있는가?

등이 시험 문제로 나왔던 것 같습니다.

 

python의 경우, numpy와 pandas 연습을 꾸준히 한다면

 

무난하게 통과하지 않나?

 

라는 생각을 합니다.

 

(R은 모르겠네요...제가 R을 안 써서)


위에서 언급했던,

 

습관적으로 사용하는 모델의 경우,

 

저는 ensemble 모델의 'xgboost'를 많이 사용했습니다.

 

교육을 받았을 때부터 자주 사용하던 모델이라 그런지 손에 익고

 

하이퍼 파라미터도 어느 정도 외우고 있어서 사용을 하려고 했는데,

 

'구름' 시험 환경에서 xgboost가 사용이 안 되더라구요.

 

(다른 라이브러리랑 버전 충돌을 일으키는 것인지는 잘 모르겠지만)

 

(여러분도 시험 환경을 미리 경험해 보시는 것을 추천합니다.)

 

 

 

그래서 대안으로 생각한 것이 ' LightGBM '입니다.

 

xgboost와 동일한 ensemble boosting 모델에, 빠른 속도를 자랑합니다.

 

sklearn과 호환이 되기 때문에 생각보다 손에 금방 익더라구요.


시험장에서는 모델 학습 문제로 회귀 문제가 나왔습니다.

 

보통 채점을 쉽게 하려고 분류 문제를 많이 낸다고 들었는데

 

이번 시험에서는 회귀 문제가 나왔습니다.

 

(우리를 말려 죽이려고ㅠㅠㅠㅠ)

 

저는 3가지 모델을 비교해서 사용했구요.

 

'ElasticNet'과 'RandomForest', 'LightGBM' 모델 3개를 사용한 후,

 

지표가 가장 좋은 모델로 제출했습니다.

 

'LightGBM'이 가장 높게 나와서, 저 모델로 예측한 값을 제출했습니다.


후기를 보면,

 

독립 변수를 스케일링 한 뒤에

 

train_test_split 하시는 분들이 있던데,

 

저는 개인적으로 감점 요소가 되지 않나 생각합니다.

 

 

 

모델 학습에는 검증용 데이터가 조금이라도 관여를 하면 안 되기 때문에

 

(Data Leakage에 해당하는 부분이라고 생각하는데, 정확한지는 모르겠습니다.)

 

학습용과 검증용을 미리 분리한 뒤에,

 

학습용으로 fit하고(혹은 fit_transform)

 

그 뒤에 검증용 데이터를 transform 하도록 합시다.

 

(잘못된 내용이 있다면 댓글 남겨주세요!)


3유형은

 

저는 통계 문제가 나오는 줄 알고,

 

scipy 라이브러리의 통계 함수 사용을 열심히 연습했습니다만,

 

 

 

3유형은 다중 회귀 분석과 로지스틱 회귀분석을 물어봤습니다.....

 

보통 python으로 분석하시는 분들은

 

statsmodels를 사용하지 않을까 생각이 들구요.

 

저 또한 평소 statsmodels의 OLS를 이용해 다중 회귀 분석을 했었습니다.

 

근데 로지스틱 회귀 분석은 경험이 없었어서....

 

어떻게든 해결을 해 보려고 했는데 안 되더라구요ㅠㅠ

 

(셤 시간 내내 붙잡고 있었는데 안 됐습니다ㅠㅠ 검색도 못 하고)

 

 

 

 

그래서 다음에 시험을 보실 여러분은 statsmodels 사용해 보고 가시길 바랍니다.

 

아니면 저처럼 시험 시간 내내 똥줄은 타고,

 

땀이 비오듯 흐르는 것을 경험하실 수 있습니다(?)


아 그리고!!

 

시험장마다 혹은 자리마다 시험 환경이 제대로 작동하지 않을 수 있습니다.

 

감독관들이 자리를 바꾸는데 전혀 불편함을 느끼지 않으므로,

 

'코드 실행이 원활하게 되지 않는다.'

 

라고 느끼시는 분들은

 

감독관에게 말씀드려서 자리를 바로 바꿀 수 있도록 합시다.

 

여러분의 스펙은 소중하니까요.

(왜냐면 제가 그런 사람이었거든요....)


어쨌든 길고 길었던 자격증 여정이 끝났습니다~~

 

(SQLD 때보다 길었어...)

 

뭐 자격증 하나 있다고 서류를 통과한다!!

 

는 아니겠지만,

 

 

 

어쨌든 인사팀에서

 

'그래도 이 인간은 비전공자이지만, 자격증을 땀으로써 어느 정도 노력은 했군.'

 

이라고 생각해 줬으면 좋겠습니다.

 

 

 

처음 데이터 분석을 시작하시는 분들은 아무래도 python으로 시작하시는 것이 가장 무난하지 않을까?

 

생각이 들구요.

 

(제가 R을 써 본 적이 없어서 그런 것은 아닙니다.)

 

 

 

필기의 경우, 여러 블로그 포스팅과 다양한 책을 보면서 지식을 쌓으셔야 할 것 같습니다.

 

실기도 똑같구요!!

 

(전공자분들은 알아서 하시기 바랍니다......)

 

(그대들은 너무 강력해......)

 

 

 

뭔가 생각보다 도움이 되는 내용이 없는 것 같다고 생각하실텐데

 

그 생각이 맞습니다(?)

 

공부에 방법은 없으니까요ㅋㅋㅋㅋ

 

당분간은 자격증 쳐다도 안 볼 겁니다.

 

 

 

이번 년도에만 두 개를 따서 토할 것 같아요.

 

다음 주부터는 GA를 공부할 생각이니,

 

GA 포스팅으로 돌아오겠습니다.

 

 

 

글을 읽다가 잘못된 내용이 있다면 댓글 남겨주세요.

 

빠르게 시정하겠습니다.

 

 

 

 

이 글을 읽으시는 모든 분들이 원할하게 자격증을 취득하시길 바라며,

 

이만 도망가겠습니다~~~

 

뿅!

Comments