본문 바로가기
  • AI (Artificial Intelligence)
Industry 4.0/Big Data

데이터 사이언티스트가 되어보자 근데 그게 뭐예요?

by 로샤스 2020. 9. 14.

Ref. brunch.co.kr/@hero4earth/3

방향을 잡기 위해 좋은 글 같다. 나도 방향을 잡는데 도움이 된 듯 하다.

Prologue

 데이터 사이언티스트가 되기로 진로를 정하고 벌써 1년의 시간이 지났습니다. 원래 저는 공공기관에서 프로젝트 관리자였다가 스타트업의 사업개발 담당으로 일을 하고 있었습니다. 그런데 어떻게 데이터 사이언티스트가 되기로 했었을까요?

 당시의 저를 한 마디로 이야기하면 '제너털리스트(Generalist)'라고 할 수 있었습니다. 모든 것을 할 줄 알아야 했지만 저의 스페셜리티(Speciality)가 뭐냐고 자문할 때 스스로 뭐 하나 자신 있게 대답할 수 있었던 것이 없었습니다. 그래서 항상 '전문성'에 대해 목마름이 있었던 시절이었습니다.

 그리고 마침 개인적인 이유로 전문 기술이 필요한 상황을 맞게 되었고 전 전문 기술을 보유할 수 있는 진로를 찾게 되었습니다. 원래 IT 분야에 관심이 많아서 혼자서 프로그래밍 공부를 해본 적도 있었기 때문에 처음에는 자연스럽게 진로를 '개발자'로 정했었습니다. 하지만, 그동안의 저의 커리어나 앞으로 제가 관심 있어하는 방향을 살펴보니 당시 2016년 한창 유행하는 빅 데이터, 4차 혁명, 데이터 분석이 저에게 더 잘 맞게 다는 막연한 생각을 가졌던 것 같습니다. 당시 데이터 사이언티스트라는 말보다는 데이터 분석가라는 말을 먼저 들었었는데요. 그렇게 하나하나 알아보며 준비를 시작했고 벌써 1년의 시간이 지났습니다. 서두가 길었는데요. 아직도 애매한 '데이터 사이언티스트'에 대해 정리를 해보려고 합니다.


데이터 사이언티스트란?

 데이터 사이언티스트(데이터 과학자)란 데이터 사이언스(데이터 과학)를 하는 사람입니다. 너무 당연한 소리네요. 그럼 데이터 사이언스가 뭔지부터 정의할 필요가 있을 것 같습니다. 먼저 가장 유명한 벤 다이어그램 두 가지로 이야기를 시작하려고 합니다.

 왼쪽에 있는 벤 다이어그램은 Drew Conway라고 데이터 사이언티스로 유명한 분이 이미 2010년도에 만든 것입니다. (관련 글 Lucy Park님이 잘 번역한 내용이 있어서 함께 공유합니다.)

그리고 오른쪽은 Shelly Palmer라는 분이 2015년 업데이트하여 만든 것입니다. 오른쪽 벤 다이어그램이 현재의 상황을 보다 잘 설명하고 있습니다. 

 크게 보면 컴퓨터 공학과 수학/통계, 그리고 분야 전문성이 합쳐진 곳에 데이터 사이언티스트가 위치해 있습니다. 제가 맨 처음 저 벤 다이어그램을 보고 들었던 생각은 '수학도 잘해야 하고 컴퓨터도 잘해야 하고 분야 전문성도 있어야 하다니... 나에게는 너무 먼 길이구나'였습니다. 

 

 그렇다면 이번에는 '데이터 사이언티스트'에 대해 살펴보겠습니다. 인포그래픽으로 잘 설명되어 있는 이미지가 있어서 소개합니다. 

 데이터 사이언스에 사람의 내재화되어 있는 소프트 스킬인 '커뮤니케이션'까지 추가가 되었네요. 위의 인포그래픽은 앞에서 설명한 벤 다이어 그램에 요소들을 보다 자세히 설명해주고 있습니다. 각각 요소의 설명은 하지 않겠습니다. 저 이미지만 보면 하나의 완벽한 인간 같군요... 비전공자에게 저런 것이 가능이나 할까요?

 

 하지만 여전히 어렵게만 느껴지는데요. 보다 간단하고 압축된 데이터 사이언티스트에 대한 정의가 있어서 공유합니다.

Person who is better at statistics than any software engineer and better at software engineering than any statistician.
by Josh Wills

 간단히 설명하면 개발자보다는 통계를 잘하고 통계학자보다는 코딩을 잘 해야 한다는 의미입니다. 처음에 이 말을 듣고 저는 조금은 위안이 되었습니다. 통계학자보다 코딩을 잘하고 개발자보다는 통계만 잘하면 되겠구나 하고 말이죠. 하지만, 다르게 생각하면 통계학이나 컴퓨터공학을 전공하지 않은 비전공자에게는 통계학과 보다 통계를 못하고 컴퓨터공학과 보다 코딩을 못하는 상태를 말합니다. 그래서 데이터 쪽이 컴퓨터공학이나 통계학과 전공자가 진출하기에 더 유리하다고 할 수 있습니다. 통계학과는 코딩만 공부하면 되고 컴퓨터공학과는 통계만 공부하면 되기 때문입니다.

 

 이제 무한 경쟁 시대에서 비전공자는 데이터 사이언티스트가 되려면 통계학과만큼 통계도 열심히 하고 컴퓨터공학과만큼 프로그래밍 공부도 열심히 해야 합니다. 마지막으로 분야 전문성은 어떨까요? 이것은 경험이 없으면 쉽게 얻을 수 없는 부분이죠. 시간과 노력이 필요한 부분입니다.

 

 그래서 데이터 사이언티스트가 되기에 제가 그나마 준비된 부분은 과거 일했던 경험(전문성이라고 할 수 없는)과 소프트 스킬인 커뮤니케이션 정도라고 할 수 있습니다. 

 

저는 과연 데이터 사이언티스트가 될 수 있을까요?

 

모호한 그 이름... 데이터 사이언스

처음에 단순하게 수학과 코딩, 그리고 통계부터 공부해야겠다고 시작했습니다. 그래서 대학 때 공부한 기초통계를 다시 보고 파이썬 코딩 공부를 시작했죠. 그리고 데이터 사이언스 관련 도서를 열심히 읽었습니다.

데이터 사이언스 관련된 책 탐독!!

하지만, 알면 알수록 어렵고 모호한 분야게 데이터 사이언스 분야였습니다. 그리고 관련된 딥러닝, 머신러닝, AI 등의 기술이 나오면서 어디서부터 어디까지가 데이터 사이언티스트인지 헷갈리기 시작했습니다. 그리고 책마다 조금씩 데이터 사이언티스트 내에 세부 분야가 달랐습니다. 아래 이미지는 얼마나 데이터 사이언스 분야가 모호한지 설명해주는 www.oralytics.com의 벤 다이어그램을 여러분들께 공유합니다.

너무나도 복잡하고 여러 분야가 융합되어 있는 데이터 사이언스

그래서 데이터 사이언티스트 안에 조금은 더 구체적인 직업적인 포지션에 대해 여러분에게 소개하려고 합니다. 비전공자인 제가 바라본 오늘날의 데이터 사이언티스트의 포지션입니다. 제 개인적인 의견이므로 정답은 아닙니다. 데이터 사이언티스트가 되려는 분들에게 조금이나마 도움이 되면 좋을 것 같아 만들었습니다.

Business Analyst(비즈니스 분석가) : 분야 전문성이 높은 직군입니다. 보통 경력직이 많고 이미 정제되어 있는 데이터를 통해 인사이트를 발견하고 의사결정을 할 수 있는 결과물을 만들게 됩니다. 프로그래밍보다는 엑셀과 같은 툴을 주로 사용하며 부서도 IT 쪽이 아니라 전략이나 사업 관련된 부서에서 주로 근무를 합니다. 그래서 매출과 직결되는 의사결정에 많이 관여하게 됩니다.

 

Data Analyst(데이터 분석가) : 데이터를 정제하고 분석할 수 있어야 합니다. 코딩 기술과 비즈니스 경험, 분야 전문성도 필요로 하게 됩니다. 그리고 머신러닝 등의 기술을 가지고 예측 모델도 만들 수 있어야 합니다. 한 마디로 전방위로 다 할 줄 아는 직군입니다. 어떻게 보면 Data Scientist라는 분야를 대표하는 직군이라고 할 수 있습니다. 그래서 세부적으로 나눴지만 모호한 개념일 수 있습니다. 

 

Data Engineer(데이터 엔지니어) : 서버에서 데이터를 추출하고 대용량의 데이터에 대해서는 분산처리 기술을 사용합니다. DB를 안정적으로 운영할 수 있어야 합니다. 따라서 컴퓨터 공학 쪽의 역량이 많이 필요로 하는 분야입니다.  SQL, Unix,  Linux, ETL 등에 익숙한 직업군으로 어렵고 힘든 만큼 연봉이 높다고 합니다.

 

AI/ML Engineer(AI / 머신러닝 엔지니어) : 최근에 Deep Learning과 같은 기술이 각광받으면서 AI 분야 포지션이 많이 생겨나고 있습니다. 본래 이쪽은 수학이나 컴퓨터 공학을 깊게 연구하신 분들이 많이 계신 분야인데요. 최근에는 다양한 플랫폼이 많아지면서 활용하는 범위에서 진입장벽이 많이 낮아졌습니다. 그래서 데이터 사이언스 직군에서도 이러한 AI, ML 관련 기술의 경험을 중요하게 생각하고 있습니다. 아직은 그 정체가 워낙 모호한 점이 많아서 색상을 다르게 표시하였습니다. 

 

데이터 사이언티스트는 결국 방향이다

정리를 하자면, '데이터 사이언티스트'는 방향이라고 말하고 싶습니다. 결국 이름이 중요한 게 아니라 데이터 사이언티스로서 가지고 있는 스킬과 자신이 관심을 가지고 있는 분야, 그리고 더 강화시키고 싶은 역량에 따라서 자신이 어떠한 이름으로 불릴지 정해지는 것 같습니다.

이제 막 첫걸음을 뗀 저는  '비즈니스 분석가'에 가깝습니다. 하지만, '데이터 분석가'와 'AI/ML Engineer'에 가까워지도록 노력하고 있습니다. (비즈니스 분석가가 실력이 없어서 제가 분류된 것이 아닙니다. 그나마 지금 저의 상태를 놓고 봤을 때 '비즈니스 분석가'에 가깝다는 의미입니다ㅎㅎ)

아직 공부를 하고 있는 학생이기 때문에 직업적으로 불릴 수 있는 이름은 없습니다. 하지만, 앞으로 제가 어떠한 이름으로 불릴지 어떻게 제가 되고자 하는 '인간 중심의 데이터 사이언티스트(Human-Centered Data Scientist)'에 가까워질 수 있을지 조금은 기대해 봅니다.

 

여러분은 어떠한 이름으로 불리고 싶으신가요?


Epilouge

과거를 회상해보니 사실 저는 데이터를 분석해본 적이 있었습니다. 무려 2011년에 말이죠. 저의 전공은 환경공학이었는데요. 당시 대기 모델링 랩에서 기상 데이터를 가지고 모델링하여 오염물질이 확산되는 시뮬레이션을 연구하는 프로젝트에 학부 연구생으로 있었습니다. 그때는 제가 하는 일이 무엇인지 전혀 감이 없었는데 지금 와서 돌아보니 그때도 데이터를 가지고 예측하는 일을 하고 있었습니다. 스티브 잡스가 했던 말인 "Connecting the dots"이 떠오르네요.

“You can’t connect the dots looking forward; you can only connect them looking backwards. So you have to trust that the dots will somehow connect in your future. You have to trust in something — your gut, destiny, life, karma, whatever. This approach has never let me down, and it has made all the difference in my life.”
- Steve Jobs -

댓글