HANA : Have A Nice AI

모두를 위한, 하나를 위한 AI

쉽게 읽는 AI/AI의 마음 : 데이터 사이언티스트

반론과 비판 : "데이터 사이언티스트 하지 마세요" - ②탄

KM-Hana 2023. 8. 21. 00:38

"데이터 사이언티스트 하지 마세요" 반론과 비판 1탄에 이어서,
2탄을 이어서 이야기해보고자 합니다.

 

"데이터 사이언티스트 하지 마세요"를 요약하자면 다음과 같습니다.

   1. 대부분의 회사에서는 데이터가 없다. 즉 머신러닝만으로 성과를 낼 환경이 부족하다.

      - 로그를 직접 남기거나 백앤드 개발자를 설득해야 하므로 업무의 진행 속도가 느리다.

   2. 신입이나 학부 졸업만으로는 성과 내기 어렵다.

       - 석·박사보다 성과를 내기 어렵기에, 신입을 잘 뽑지 않는다.

       - AI 프로젝트에서 모델링은 5% 정도다.. (그에 비해, 요즘 학부생들이 머신러닝에만 관심이 높다)

   3. 백앤드로 시작해야 한다.

       - 백앤드가 수요가 더 높고 연봉도 높다.

       - 백앤드에서 데이터 엔지니어링으로 가기 쉬우며, 백앤드에서 머신러닝으로 가기 쉽다.

라며, 데이터 사이언티스트의 현실에 대해서 이야기하는 내용이였습니다.

 

※ 반론과 비판 : "데이터 사이언티스트 하지 마세요" - ①탄

https://kmhana.tistory.com/44

 

반론과 비판 : "데이터 사이언티스트 하지 마세요" - ①탄

데이터 사이언티스트이란 직무에 관심 있던 취준생이라면 연관 검색어로 "데이터 사이언티스트 하지 마세요"를 봤을 수 있을 것입니다. 더보기 ※ "데이터 사이언티스트 하지 마세요" : 관련 영

kmhana.tistory.com

   1탄에서는 : 주제 1. "데이터가 없다. 머신러닝만으로는 성과를 내기 어렵다"에 대해서 반박했습니다.

    ○ 반박 1.1 "데이터 사이언티스트는 머신러닝만으로 성과를 내지 않는다."

    ○ 반박 1.2 "데이터가 부족해도 성과를 낼 수 있다"

    을 들며, 데이터 부족이 데이터 사이언티스트를 포기할 이유가 될 수 없음을 이야기했습니다.

 

  2탄에서는

    ○ 주제 2. "신입이나 학부생은 성과를 내기 어렵다"

    ○ 주제 3. "백앤드로 시작해야 한다."

  에 대한 반박과 반론을 이야기합니다.

 


주제 2. "신입이나 학부생은 데이터 사이언티스트로 성과를 내기 어렵다"

  맞습니다. 신입은 성과를 내기 어렵습니다.

  맞습니다. 학부 졸업만으로 성과를 내기 어렵습니다.

  하지만 틀렸습니다. 어렵지만, 신입이나 학부생도 성과를 낼 수 있습니다.

 

반박 2.1 "하지 말아야 하는 실수 -  데이터 사이언티스트의 기본을 지키자"

  항상 기본을 잃지 않고자 노력해야 하며, 석·박사나 경력자도 기본을 잊으면 성과를 낼 수 없습니다.

  (이렇게 말하는 저 또한 가끔 데이터 사이언티스트의 기본을 잊을 때가 있습니다.)

  반대로, 신입이나 학부가 최종 학과라도 기본에 충실하다면 성과를 낼 수 있습니다.

  성과를 내기 위해서는 1) 실수를 줄이고 2) 해야 할 것을 놓치지 않으려는 노력이 필요합니다.

 

  1. 주어진 문제를 AI 모델로 먼저 해결하려는 실수

    ○ 저 또한 AI 모델이 없이 데이터의 조회나 간단한 로직으로 해결할 수 있는 문제를 AI 모델링에 매몰되는 실수를 범합니다.

          - 단순한 로직으로 문제를 해결할 수 있는지 우선 판단해야 합니다.

              : 예를 들어, 옷을 사는 사이트에서 "사람의 치수"가 필요한 경우,

                AI 모델링에 매몰되면, AI가 사람의 치수를 예측하려고 합니다.. (큰 비용이 듦에도)

                이때는 사용자의 과거 구매 이력을 조회하거나, 치수를 필수항목으로 입력받는 시스템이 더 효율적입니다.

          - 얻는 이득 대비 비용이 낮아야 합니다. 이때 모니터링, 재학습 주기 등과 같은  유지보수도 비용에 포함되어야 합니다.

              : 매일. 매시. 매분 재학습해야 하는 모델은 유지보수 비용이 기하급수적으로 증가합니다.

          - 다른 문제에도 적용될 확장성과 새로운 데이터에 대한 적응력에 대한 고민이 필요합니다.

              : 광고주 1,000개를 위한 모델 1,000개를 만드는 것과 Large 사이즈의 모델 하나를 개발 및 유지관리하는 것은 매우 다릅니다. 

    ○ 데이터 분석과 EDA를 통해, 데이터의 특징을 이해하는 것이 AI 모델을 만드는 것보다 우선됨을 명심합니다.

    ○ AI 모델 개발은 문제 해결의 최종 단계임을 기억합니다.

 

  2. 잘 알지 못하는 최신 딥러닝 모델을 바로 적용하는 실수

    ○ 저 또한 최신 AI 모델이 있다면, 이전 모델보다 더 좋아 보여(이전 모델이 심지어 낡아 보이는 착각) 바로 적용하려는 실수를 합니다.

          - 최신 AI나 딥러닝 모델을 실험해 보는 것은 데이터 사이언티스트의 숙명입니다.

          - 하지만, 최신 AI 딥러닝 모델에 대한 정확한 원리와 기여점을 파악해야 하며, 특장점을 명확하게 이해해야 합니다.

          - 최신 딥러닝 모델을 어설프게 이해한 후 AI 프로젝트에 적용하면, 시간과 리소스를 날려 AI 프로젝트 자체를 망칠 수 있습니다.

    ○ 연구 과정에서 나온 AI 딥러닝 모델은 정해진 특수한 상황만을 해결하기 위해 복잡하게 만들어진 경우가 많습니다.

          - 매우 뛰어난 성능으로 보이는 모델이 우리의 데이터나 가정과 상황에 맞지 않는 경우가 많습니다.

          - 특수한 케이스를 해결하는 데만 특화되어 확장성이 없는 경우도 많습니다.

          - 엄청난 양의 리소스와 계산량이 필요한 경우도 있고, 모델이 너무 복잡하여 실무에서 유지보수가 어려운 경우도 있습니다.

    ○ 최신 기법을 적용하기 전, Baseline 모델을 구축하는 것이 항상 우선됩니다.

          - Baseline 모델 이란 : 모델실험의 성능 기준이 되는 모델로서, 단순한 모델로 구축. 실험 모델은 Baseline과 비교하여 성능 측정

    ○ 적용하고자 하는 모델에 대해서 누구보다 잘 알고 있어야 합니다.

 

  3. 과거의 성공한 경험에 매몰되는 실수.

    ○ 과거의 성공에 매몰되어, 발전이 멈추거나 편견이 생기는 실수를 합니다.

          - AI 분야는 매우 빠른 속도로 발전하고 있고 트렌드 또한 매우 빠릅니다.

             : CNN의 시초인 AlexNet이 처음 개발된 게 10년 전이였으며, GPT 구조의 근원인 Transformer는 5년이 겨우 넘었습니다.

               일 년에 수십편의 논문들이 나오고 있으며, SOTA(State-Of-The-Art)를 깨는 데 걸리는 시간도 점점 줄어듭니다.

               SOTA(State-Of-The-Art)란 : 특정 분야나 주제에서 가장 우수한 성능을 내는 모델이나 기술 https://paperswithcode.com/

Image Classification SOTA 모델 추세

          - 예를 들어, 과거 텍스트 분야에서는 나이브 베이지안과 같은 정통 머신러닝을 사용했고 (과거 기준) 좋은 성능을 거두었습니다.

             : 하지만 일부 경력자(업체)에게는 과거의 성공이 GPT나 BERT와 같은 딥러닝 적용(전환)을 막는 편견과 족쇄가 됐습니다.

               (나이브 베이지안도 좋은 모델이었지만, 새로운 단어가 생기고 사라지는 복잡한 Text 분야에서는 한계가 존재합니다.)

    ○ 특히, 경력자나 석·박사에게서 가끔 찾아오는 시련입니다.

          - 한 분야의 우수한 연구와 논문을 실무에 적용하는 과정에서, 많은 좌절과 쓴맛을 보기도 합니다.

          - 과거 AI 프로젝트를 성공으로 이끌었던 AI 모델과 기술이 새로운 데이터나 환경에서 제대로 작동하지 않는 경우도 많습니다.

    ○ 데이터 사이언티스트는 끊임없이 배우고 변화하며, 배웠고. 배우고. 배워야 합니다.

    ○ 데이터 사이언티스트는 새로운 데이터와 기술에 적응해야 합니다.

          - 저 역시도 계속 마음속에 새기고 있지만, 어렵고 잊을 때도 많습니다.

          - 편견에 갇혀 닫힌 마음으로 새로운 AI 기술들을 부정적으로 바라볼 때도 부지기수입니다.

          - 이 글을 쓰면서 다시 한번 더 마음에 새깁니다.

 

  2번의 "잘 알지 못하는 최신 딥러닝 모델을 적용하는 실수"와 3번의 "과거 경험에 매몰되는 실수"는 서로 상충되어 보입니다.

    ○ 최신 기술과 트렌드를 따라가야 하며, 동시에 최신 기술을 바로 적용하는 것에 신중을 기해야 합니다.

    ○ 데이터 사이언티스트는 외줄 타기 하면서 균형을 잡아야 합니다.

          - "최신 기술"과 "전통 머신러닝(통계)"과의 균형

          - "비용(시간과 인력)"과 "성능(모델의 복잡도)"과의 균형

    ○ 데이터 사이언티스트는 되돌아볼 줄 알아야 합니다. 

          - 전통 모델과 최신 기술 모두를 의심하고, 훌륭한 성과와 처참한 실패도 다시 복기해야 합니다.

          - 그리고 나 자신도 포함됩니다. 너무 좌절하지 않았는지. 너무 확신하진 않았는지. 편견에 빠지진 않았는지.

 

 

  반박은 쉽고 해답을 제안하긴 어렵습니다.

  지금까지 "데이터 사이언티스트를 하지 마세요"를 반박했습니다.

  그리고 지금은 신입도 학부 졸업만으로도 데이터 사이언티스트로서 성과를 내는 방법을 이야기하고자 합니다.

  경력자나 석·박사 출신도 내기 어려운 성과를 신입이나 학부 졸업으로 낼 수 있을까요?

  정답은 데이터 안에 있습니다.

    ○ 신입이나 학부생은 경력자나 박사보다 모델링이나 기술이 부족할 수밖에 없습니다. 

    ○ 하지만, 데이터 안에서 인사이트를 찾아낼 수는 있습니다.

          - 왜냐하면, 데이터를 다각도에서 보려는 의지가 핵심 요소이기 때문입니다.

 


반박 2.2 "데이터 사이언티스트 성과의 해답은 데이터에 있다. - 데이터를 사랑해야 한다."

  대한민국 대표 광고 디렉터로 유명한 박웅현 씨는 책과 강연을 통해, 울림을 주고 있습니다.

    ○ 대표 책으로는 인문학을 통해 창의력과 감성을 이야기한 "책은 도끼다"와 삶의 고찰을 담은 "여덟 단어"라는 책이 있습니다.

 

나는 "여덟 단어" 중 "견(見)"에서 데이터 사이언티스트의 기본을 보았습니다.

    ○ 데이터 사이언티스트라는 이름으로 성과를 낼 수 있는 기본을 보았습니다.

        - 신입이여도 학부 졸업생이라도 데이터 사이언티스트가 될 수 있는 바탕이 될 것입니다.

 

  "여덟 단어" 중 "견(見)"을 인용하고자 합니다.

     ※ 박웅현 씨의 강연 링크

더보기

※ 박웅현 씨의 강연 링크

  https://youtu.be/CsoX2wsBtus?si=f6Ob8HipV_PzMMmP

 

  사과를 몇 번이나 봤을까? 백 번? 천 번? 백만 번?
  우리는 사과를 한 번도 제대로 본 적이 없다.
  진짜로 사과를 본다는 것(見)은
  알고 싶어서. 관심을 가지고 이해하고 싶어서. 보는 것이 진짜로 보는 것이다.
  오래오래 바라보면서, 사과의 그림자도 관찰하고.
  만져도 보고 뒤집어도 보고 한입 베어 물어도 보고.   
  사과에 스민 햇볕도 상상해 보는 것.
  그렇게 보는 것이 진짜로 사과를 보는 것(見)이다.

     < 영화 시, 여덟 단어 책 >

 

"사과"를 "데이터"로 바꿔보겠습니다.

    ○ 우리는 데이터를 제대로 본 적이 없습니다.

    ○ 데이터를 제대로 안다는 것은. 

          - 오래오래 바라보면서, 만져도 보고 뒤집어도
          - 데이터에 스민 햇볕도 상상해 보는 것.
          - 그렇게 보는 것이 진짜로 데이터를 보는 것(見)입니다.

    ○ 데이터 사이언티스트로서 데이터를 진짜로 본다는 것은. 

          - 오래오래 다각도로 데이터를 바라보면서

          - 전처리와 EDA를 통해 만져도 보고.

          - 데이터를 분해와 시각화를 하며 새로 표현해 보고

          - 데이터를 모델에 넣었을 때의 모습을 상상하고 실험해 보는 것
          - 그렇게 보는 것이 진짜로 데이터를 보는 것(見)입니다.

    ○ 신입이 성과를 낼 수 있는 유일한 방법입니다.

          - 우리 눈앞에 있는 데이터를 사랑해야 합니다.

            : 데이터를 이해하는 것. 그리고 그 과정에서 인사이트를 얻는 데에 필요한 것은

              화려한 기술이 아니기에, 신입과 학부생도 가능합니다.

          - 물론, 데이터를 더 다양한 각도로 보고 해결하기 위해서는 다양한 기술과 방법론이 필요합니다.

            : 다만, 방법론과 기술이 시작점이 아닙니다.

              방법론과 모델링은 도구이지. 목적지가 아닙니다.

              데이터 사이언티스트의 시작점과 목적지는 데이터에 대한 이해입니다.

 


주제 3. "백앤드의 수요가 더 높고 연봉도 높다. 또한, 백앤드에서 데이터 사이언티스트가 되기 쉽다"

  그럴 수 있습니다. 백앤드가 더 수요가 높을 수 있고, 연봉도 더 높을 수 있습니다.

  하지만, 매우 틀렸습니다. 

    - 백엔드도 하나의 큰 전문 분야이며, 데이터와는 전혀 다른 업무일 수 있습니다.

    - 그나마 유사한 데이터 엔지니어(Data Engineer)도 데이터 사이언티스트와는 목적과 방향성이 다릅니다.

    - 백엔드도 하나의 큰 전문 분야이기 때문에, 백엔드에서 데이터 사이언티스트가 되는 것이 쉬운일이 아닙니다.

  데이터 사이언티스트가 하고 싶다면, 데이터 사이언티스트를 해야 합니다.

 

관련된 이야기는 3탄에서 이어집니다.