집순이 놀이터

[Megacon 2022] 데이터를 하는 사람은 어떤 커리어를 밟아야 하나 ? - 하용호 ( 데이터 분석가 내용 중심 ) 본문

Study/데이터분석가

[Megacon 2022] 데이터를 하는 사람은 어떤 커리어를 밟아야 하나 ? - 하용호 ( 데이터 분석가 내용 중심 )

방구석집순이 2022. 6. 14. 17:28

0. 역사로 보는 데이터 시장에 대한 이해 

[1기 : 데이터를 존재하게 하기에 집중하던 시기]

- 2010년 ~ 2013 

- 빅데이터라는 말이 처음 등장

- 데이터를 제대로 모으고 저장하는 것만으로도 큰 일

  -> Hadoop을 셋팅하는 것만으로도 큰 과제

- 분석하나를 MapReduce 프로그래밍을 몇 일씩 작성해야 했던 시절

- 백엔드 엔지니어 출신 ( 검색 엔진 ) 다수 

- 데이터 사이언티스트 직업의 확립 

 

[2기: 데이터 프로세싱 성숙기]

- 2013 ~ 2014년

- 이전의 단점 : MapReduce 프로그래밍을 할줄 아는 사람만 분석이 가능 

- 이를 극복하기 위해 SQL 을 MR로 자동 변환해서 병렬 실행해주는 툴 등장 

  -> SQL on Hadoop 프로젝트들 

  -> Hive, Impala, Presto 등 

- 점차 데이터의 인기가 폭발

- 데이터 엔지니어의 직업이 확립 

- 초기 수준의 workflow 엔진들과 비주얼라이즈 툴 등장

 -> Luigi, Tableau

 

[3기 :분석과 적용기 ]

- 2015 ~ 2016

- 데이터 엔지니어의 활동으로 데이터는 테이블로 정리된 상태 

- SQL 만 알아도 접근 가능 

 -> 데이터 분석가들이 등장

- 데이터 씬이 폭발적 증가

 -> IT가 아닌 회사들이 데이터 팀을 두기 시작

- 회사들은 대시보드을 생산하고 , 데이터를 소비하기 시작

- A/B 테스트 활발

 

[4기: ML 득세기 - 알파도 지배기]

-2016 ~ 2018 

- ML 엔지니어의 등장

- 모든 분야에 ML을 적용하기 시작 

 

[5기 : 대 그로스 시대]

- 2018 ~ 2020 

- 어렵던 기술들이 '제품화'되어 편리

- 제품을 활용하는 그로스 해커, 퍼포먼스 마케터 확립 

- PM, PO, 기획자, 마케터 등 모든직군이 데이터를 보기시작

- 데이터로 이득을 만드는데 집중

 

[현재 : 6기 Tool Chain 시대 ]

-2021 ~ 현재 

- Cloud 벤더의 솔루션과, 거기에 꽂아 사용하는 Saas 제품의 생태계가 엄청나게 풍성하고 단단해 졌다

 -> 몯ㄴ 데이터 스택에 좋은 제품이 존재

 -> ML 도 GCP의 AutoML, AWS Sage Maker 가 진짜 쓸만한 수준으로 좋아졌다

- 여러 클라우드 툴들을 잘 chanining시켜, 빠르게 결과를 만들어 낼 수 있게 되었다

- 능력이 아니라 구매로 갭을 뛰어넘을 수 있게 되었다 

 

 

1. 채용 관련 

[많은 부류]

- 타 전공, 교육과정 수료

- 사용할 수 있는 언어 SQL

 

[귀한 부류 ]

- Python + pandas + jupyter notebook 기준으로 업무할 수 있는사람

- DBMS , 클라우드에 있을때, 

백엔드 통신하는 코드를 작성해서 직접 가져올수 있는 사람이 적다

- 자신의 앞뒤에 연결되는 영역까지 아는 게 필요하다. 

 

 

2. 업무 관련 

[주니어]

- 분석가라도 데이터를 존재하게 하는 최소의 기술은 가져야한다. 

 ex ) Amplitude Mixpanel, Google Analytics4

- 저 PA tool 에 데이터를 부어넣는 작업도 도와주는 사람없이 해야한다

 간단한 스크립팅, Google tag manager 를 통해 유저행동 트래킹을 집어 넣는 방법도 알아야한다 

- 수집체계를 잡는 역할 

 ex) 이벤트 네이밍 규칙

 

기초과정 후 ad-hoc 요청과 대시보드 요청이 밀려온다 

-> 우리에게 what 을 요구하면, how 부터 생각하지만, why 를 탐방하는 소프트 스킬이 필ㅇ하다

업을 이해하고, 진짜 중요한 일만 한다. 

 

- SQL 은 신인가 싶을 정도로 연습해라

-> string , json extract , Pattition by , Window ( lead, lag, row_number, rank), case , with , if 

 

 

[시니어]

시니어로 넘어갈 때는 프로그래밍 알지 못하고는 안된다 

-Python, pandas 기본 

- 데이터가 대부분 Bigquery, athena, redshift, s3에 담겨잇을 것이다

- 클라우드에서 내가 원하는 원천을 직접 땅겨올수 있어야 한다 

 

분석을 위한 ML 에 대해서는 익숙해 져있어야한다 

- Scikit-learn에 포함된 클래식 ML 을 분석 용도로 사용하게 됨

- random forest, feature, importance등은 사용해야한다

- ML 로 학습 후, 모델을 해체해서, 데이터 패턴을 찾아내는 역공학 방법이 꽤 유행 

 

단순 통계를 벗어난 영역을 다룬다 

- 시계열

- Causal Inference 도 뜨고있다. 

 

본인이 일하는 것 뿐만 아니라, 회사의 데이터 체계를 잡는데, 일조해야한다. 

- 다른 부서의 비지니스 목표 OMTM가 무엇이 되어야할지 외부자가 제안, 컨설팅 해 줄 수 있을 정도으 비지니스 이해 

- 그것이 왜 그런지 설명해 줄 정도의 설명력을 가져야한다.

 

사내 구성원들의 데이터 접근성을 높이기 위한 온갖 노력을 행한다. 

- 데이터 카탈로그 구축

- 데이터 탁소노미 구축

- 데이터 접근 인프라 구축 ( + 데이터 엔지니어와 함께 ) 

 

 

이쯤되면, Product Analyst 로 제품에 집중하며, 문제를 해결해 나가는 인하우스 컨설턴트 

아예 전직으로 프로덕트 오너(PO)로 조직을 지휘하는 역할을 하기도 한다. 

'Study > 데이터분석가' 카테고리의 다른 글

구간추정에 대한 개념  (0) 2022.07.22