HANA : Have A Nice AI

모두를 위한, 하나를 위한 AI

쉽게 읽는 AI/AI의 마음 : 데이터 사이언티스트

반론과 비판 : "데이터 사이언티스트 하지 마세요" - ①탄

KM-Hana 2023. 8. 13. 00:57

데이터 사이언티스트이란 직무에 관심 있던 취준생이라면

연관 검색어로 "데이터 사이언티스트 하지 마세요"를 봤을 수 있을 것입니다.

더보기

※ "데이터 사이언티스트 하지 마세요" :
   관련 영상 : https://youtu.be/8 mjeJpHtLVQ

 

저는 이 영상을 보면서, 데이터 사이언티스트의 현실과 어려움에 대하여 공감 가는 부분이 있었지만,

데이터 사이언티스트를 하지말라는 이야기에는 동의하지 않습니다.

관련하여, 반박과 비판을 하고자 합니다

 

"데이터 사이언티스트 하지 마세요"를 요약하자면 다음과 같습니다.

   1. 대부분의 회사에서는 데이터가 없다. 즉 머신러닝만으로 성과를 낼 환경이 부족하다.

      - 로그를 직접 남기거나 백앤드 개발자를 설득해야 하므로 업무의 진행 속도가 느리다.

   2. 신입이나 학부 졸업만으로는 성과 내기 어렵다.

       - 석·박사보다 성과를 내기 어렵기에, 신입을 잘 뽑지 않는다.

       - AI 프로젝트에서 모델링은 5% 정도다.. (그에 비해, 요즘 학부생들이 머신러닝에만 관심이 높다)

   3. 백앤드로 시작해야 한다.

       - 백앤드가 수요가 더 높고 연봉도 높다.

       - 백앤드에서 데이터 엔지니어링으로 가기 쉬우며, 백앤드에서 머신러닝으로 가기 쉽다.

 

 

각 내용에 대해서 하나씩 반박해 보겠습니다


주제 1. "데이터가 없다. 머신러닝만으로는 성과를 내기 어렵다"

  맞습니다. 대부분의 회사에서 제대로 된 데이터가 없습니다.

  맞습니다. 머신러닝만으로는 성과를 내기 어렵습니다.

  현실적으로. 머신러닝만으로는 성과를 내기 어렵고, 대부분 제대로 된 데이터를 수집하는데 많은 시간을 사용합니다.

    ○  프로젝트 기간의 대부분을 데이터가 없어 수집하거나, 레이블이 없어서 직접 레이블링하면서 지나가는 경우가 빈번합니다

  하지만 그게 데이터 사이언티스트를 포기할 이유가 될 수 없습니다.

 

반박 1.1 "데이터 사이언티스트는 머신러닝만으로 성과를 내지 않는다."

데이터 수집 또한 데이터 사이언티스트의 업무이며 성과입니다.

일반적으로 머신러닝과 딥러닝, AI를 생각하면 모델링을 생각하기 쉽습니다.

그런데 모델링에 대한 오해가 있습니다.

실제 모델링의 범위는 매우 큽니다! ( 모델링은 단순히 "AI-머신러닝 모델을 학습하고 평가"하는 것이 아닙니다.)

  ○ 자세한 모델링의 범위

       1. 문제 정의 : 어떤 문제를 해결해야 하는지 정의

       2. 데이터 수집 : 문제를 해결하기 적절한 데이터를 수집

       3. 데이터 전처리 결측치 처리, 정규화 등의 모델이 학습할 수 있게 데이터를 처리

       4. EDA와 피쳐 엔지니어링 데이터를 탐색하고, feature를 가공

       5. 모델 학습 : 정의된 문제를 해결하기 위한 모델을 학습

       6. 검증 및 평가 : 학습된 모델을 검증 및 평가

       7. 모델 선택 : 성능과 더불어 컴퓨터 및 시간, 인력 리소스를 고려하여 최종 모델을 선정 

       8. 모델 배포 모델을 실제 환경에 배포

       9. 모니터링 및 유지 관리배포된 모델을 지속적으로 모니터링하고, 필요에 따라 재학습

   즉, 모델링만이 데이터 사이언티스트의 성과가 아닙니다. 

 

 

데이터 수집도 데이터 사이언티스트의 성과입니다.
다만, 백앤드와의 데이터 수집 관점이 다를 뿐입니다!

 

  데이터를 수집에 관하여,

  데이터 사이언티스트에게 더 중요한 점은 주어진 문제를 어떤 데이터로 해결할 것인가입니다.

  WHY, WHAT에 대해서 고민합니다.

  백엔드(데이터 엔지니어)는 데이터를 효율적으로 어떻게 쌓을지 HOW에 대해 고민합니다.

 

   컴퓨터 공학과가 아니라면, 서버를 구축하고 로그를 모으는 방법은 모르는 게 당연합니다.

   그리고, 처음부터 완벽하게 데이터 파이프라인을 구축하지 않아도 됩니다.

    ○ 데이터를 모으는 방법은 화려하지 않아도 됩니다.

        - 데이터 형태를 모르겠다면, 엑셀 파일부터 시작하셔도 됩니다. 아니, 메모장(txt)으로 시작하셔도 됩니다.

        - 꼭, 서버와 파이프라인을 구축하지 않아도 됩니다. 왜냐하면, 구축되지 않은 회사가 많기 때문입니다.

           : AWS나 AZURE 같은 플랫폼을 쓸 수도 있고, 심지어 메일(이나 USB)로도 주고받을 수도 있습니다

             데이터를 모으는 방법은 할 수 있는 방법부터 시작하시면 됩니다

    ○ 데이터 수집과 관련되어 데이터 사이언티스트에게 더 중요 관점은, 어떤 데이터로 주어진 문제를 해결할 것인가입니다.

        - 데이터 사이언티스트에게는 오히려, 주어진 문제를 푸는데 적합하지 않은 데이터를 모으고 있는 것이 더 치명적입니다.

        - 더 좋은 수집 파이프라인을 구축하는 것은 더 잘 아는 사람에게 물어보세요 (예를 들어, 백앤드)

 

 데이터가 완벽하게 모이지 않았어도, 일부라도 수집되었다면 다음 단계로 넘어가야 합니다. (데이터 수집의 완벽이란.. 없을지도 모릅니다)

    ○ 다음 단계인 데이터 탐색과 클렌징은 데이터 사이언티스트의 기본 기술입니다.

       - 데이터를 탐색하고 수집하는 동안 데이터의 형태와 특징을 파악해야 합니다.

          : 그렇기에, 이것 또한 데이터 사이언티스트의 실력이며 성과입니다.

       - 간혹, 데이터의 특징이나 분포도 모르는 상태에서, 바로 모델을 구축하는 경우가 있습니다만, 이것은 기본을 놓친 것입니다.

       - 이런 기본을 놓친 사람을 데이터 사이언티스트라고 부를 수 없습니다

 

 

 AI 프로젝트에서 AI(머신러닝) 모델링은 일부분입니다.

 그렇기 때문에, AI(머신러닝) 모델링 역시 데이터 사이언티스트 성과의 일부분입니다.

    ○ 일부분이기에 데이터 사이언티스트의 관점으로 데이터를 수집하는 것 자체도 우리의 성과입니다.

       - 예를 들어, 목표성능 달성을 위해서, 불필요한 데이터를 수집하지 않도록 프로젝트를 설계한다면, 전체 비용을 많이 감소시킵니다.

    ○ 데이터 수집 과정에서도 인사이트를 뽑는 것이 우리의 업무이며, 당신의 가치를 올리는 하나의 기술 셋이 될 것입니다.

이러한 이유로, 데이터가 없다는 것이 데이터 사이언티스트를 하지 말아야 하는 이유가 될 수 없습니다.

데이터 사이언티스트가 뛰어넘을 한계이며, 그 한계를 극복하는 것이 우리를 빛낼 하나하나의 요소들입니다.

 

반박 1.2 "데이터가 부족해도 성과를 낼 수 있다"

    ○ 데이터 사이언티스트는 주어진 문제를 해결하기 위해서, 데이터를 사용하여 인사이트를 발굴하고 모델링을 하는 것입니다.

    ○ 효율적인 데이터 파이프라인 구축은 부가적인 문제입니다.

        - 완벽한 백앤드가 갖추어지지 않아도 우리는 문제를 해결할 수 있습니다. (대부분의 회사는 백앤드 역시도 부족합니다.)

        - 완벽한 데이터가 없어도 해결할 방법들이 연구되고 있고, 실사용되고 있습니다.

 

또한, 데이터의 부족에 대한 어려움은 수많은 AI 기술과 머신러닝을 발전시켰습니다

    ○ Active learning : AI 모델이 Raw 데이터 중 학습에 더 필요한 데이터를 선별하여 레이블링 Cost 축소

         : https://kmhana.tistory.com/4

    ○ Auto-labeling : AI 모델이 Raw 데이터를 Labeling

         : https://kmhana.tistory.com/13

    ○ semi-superviesed : Labeled 및 Un-Labeled 데이터를 같이 학습

         : https://kmhana.tistory.com/33

    ○ Knowledge Distillation : 거대 학습 모델을 활용하여, 작은 모델을 더 빠르고 높은 정확도를 가지도록 학습

        : https://kmhana.tistory.com/25, https://kmhana.tistory.com/27

 

데이터가 부족하다면, 그것을 극복하는 AI 기술과 머신러닝을 기술을 배우고 적용하세요.

    ○ 적절한 AI모델은 효율적인 데이터 파이프라인만큼 큰 효과를 볼 수 있습니다.

    ○ 모든 것을 AI 모델로 풀 수 없듯. 모든 것을 백앤드로 풀 수 없습니다.

 

물론, 일부 인원이 머신러닝만을 하고 싶어 하거나, AI로 모든 문제를 풀려고 하는 경우가 있습니다.

    ○ 모든 것을 백앤드로 풀 수 없듯. 모든 것을  AI 모델로 풀 수 없습니다.

        - 두 가지는 협력관계입니다.

        - AI 모델은 만능이 아닙니다. AI 모델로 모든 문제를 풀려고 하는 과오 또한 같이 경계해야 합니다.

        - 초기 문제 정의를 잘못하는 경우가 이에 해당합니다.

           : 예를 들어, 옷을 사는 사이트에서 "사람의 치수"가 필요한 경우,

              AI모델링에 매몰되어 있는 경우에는, AI가 사람의 치수를 예측하려고 합니다.. (큰 비용이 듦에도)

              이때는 사용자의 과거 구매 이력을 조회하거나, 치수를 필수항목으로 입력받는 시스템이 더 효율적입니다.

           : 미사일로 토끼를 잡는 일이 벌어지게 됩니다. (상당히 많이)

    ○ 충분한 데이터 탐색이 선행되어야 하는 이유이기도 합니다.

    ○ 문제 정의와 데이터 탐색을 진행하지 않고, 모델부터 만드는 것은 데이터 사이언티스트가 아닙니다.


 

주제 2. "신입이나 학부생은 성과를 내기 어렵다"

  맞습니다. 신입은 성과를 내기 어렵습니다.

  맞습니다. 학부 졸업만으로 성과를 내기 어렵습니다.

  하지만 틀렸습니다. 어렵지만, 신입이나 학부생도 성과를 낼 수 있습니다.

 

관련된 이야기는 2탄에서 이어집니다.

https://kmhana.tistory.com/45

 

반론과 비판 : "데이터 사이언티스트 하지 마세요" - ②탄

"데이터 사이언티스트 하지 마세요" 반론과 비판 1탄에 이어서, 2탄을 이어서 이야기해보고자 합니다. "데이터 사이언티스트 하지 마세요"를 요약하자면 다음과 같습니다. 1. 대부분의 회사에서

kmhana.tistory.com