Winnie The Pooh Bear

📕 독서 기록

[독서 기록 📚] 데이터는 예측하지 않는다: 데이터 분석할 때 반드시 기억할 점

alwayshappydaysforever 2025. 3. 20. 18:49
반응형

 

1부 데이터 분석을 제대로 하려면

1. 분석의 목적 정의

본격적으로 데이터 분석을 설명하고자(독자 입장에서는 배우고자) 할 때 가장 먼저 해야 하는 일은 데이터 사이언스를 공부하고자 하는 이유가 어떤 상황 때문인지를(어떤 필요가 있는지) 파악하는 것부터다. 왜냐면 공부하고자 하는 분들의 데이터 사이언스의 목적에 따라 필요로 하는 요소들(분야나 익혀야 할 기술)이 달라지기 때문이다.

  1. 데이터로 문제를 해결해야만 하는 사람
    • 이때 중요한 것이 데이터의 질Quality인데, 얼마나 양질의 데이터를 갖고 있느냐에 따라 분석 결과의 신뢰성이 결정된다.
    • Garbage In, Garbage Out
    • 통계청, 실험 물리학자
  2. 데이터의 문제를 해결하는 사람
    • 어떤 식으로 데이터를 구조화하느냐? 어떻게 원하는 유효한 값들을 신속하게 계산할 것인가?
    • 소프트웨어개발자
  3. 데이터로 설득하려는 사람
    • 비즈니스맨, 마케팅 담당자
    • 시각화 능력: Infographics
  4. 데이터로 문제를 해결하려는 사람
    • 데이터를 다루는 기술, 통계학적 지식 ❌
    • 문제의 본질을 파악하는 능력 ⭕️
데이터 분석이든 뭐든 시작하기에 앞서, 문제의 본질부터 파악하는 것이 첫 번째 단추라는 것을 잊지 말아야 한다.
그리고 반드시 위의 질문 “꼭 데이터로만 해결이 가능한가”를 되짚어 보아야 한다.

 

2. 가장 좋은 분석이란

요즘 언급되는 데이터 사이언스의 대부분은 데이터로 어떤 문제를 해결하고자 하는 것에 해당된다.

 

ex. 소셜 마케팅에서의 데이터 분석 

> 연관 검색어와 클릭수를 집계하는 이유 : 고객 확보를 위한 성공적인 마케팅 전략 수립 

 

물론, 문제들 중에는 데이터 분석이 반드시 있어야만 해결이 가능한 문제도 있다. 하지만 이 경우라 하더라도, 데이터를 다루는 작업(데이터 분석)에 들어가기 전, 반드시 되물어 봐야 할 것은 “과연 많은 양의 데이터가 있어야 하는가?”이다. 꼭 빅데이터만이 항상 좋은 결과를 내놓는 것은 아니라는 얘기다. 문제 해결을 위해서는 데이터 분석이 반드시 필요한 것이라 할지라도 많은 양의 데이터를 다루느냐 그렇지 않느냐는 또다시 별개의 문제임을 잊어서는 안 된다.

 

3. 데이터 분석, 꼭 알아야 할 15가지 (몇 가지만 추렸다) 

  1. Garbage In, Garbage Out
  2. 분석 자체보다 분석 과정 전체를 보는 것이 훨씬 더 중요하다 
  3. 웬만한 건 고등학교 수준의 통계학만으로도 가능하다: 우리가 데이터 분석을 어려워하는 이유는 지식이 부족해서가 아니라 어떻게 적용할지 몰라서이다.
  4. 모든 데이터 사이언스는 '측정 > 수집 > 분석'의 단계를 따른다
    1. 데이터 사이언스 실무에서 가장 중요한 것은 측정이다
    2. 데이터 사이언스를 위해 필요한 기초 과목은 물리이다
  5. 대체 지표로 측정한 것은 가짜다
  6. 되도록이면 적은 데이터를 모으는 게 바람직하다
  7. 가장 좋은 해결은 데이터 분석 없이 문제를 해결하는 것이다
  8. 데이터 사이언스는 만병통치약이 아니다
  9. 데이터 분석이 강력한 한방일 필요는 없다 

 

4. 진짜 좋은 데이터란?

데이터 사이언스, 비지니스 애널리틱스, 빅데이터 등 많은 데이터 분석 기법과 도구들이 난무하지만 데이터 분석보다 더 중요한 것은 데이터 자체이고, 데이터 자체보다 더 중요한 것은 바로 데이터가 내 것인지 남의 것인지를 아는 것이다.

6. 데이터의 상관관계, 인과관계

다시 한 번 말하지만, 데이터만으로는 변수들 사이의 인과관계를 분석할 수 없다.


2부 데이터 사이언스의 오해와 진실

8. 언제까지 빅데이터?

다시 한번 말하지만, 빅데이터는 현재의 컴퓨터 성능으로 다루기에 까다로운 큰 데이터일 뿐이다. 그리고 그 기준 또한 세월에 따라 변한다. 지금의 빅데이터가 불과 몇 년 뒤에는 그냥 개인 PC에서 처리 가능한 수준의 그렇고 그런 데이터가 될 수도 있다. 그러니 지금 다루는 데이터가 날 힘들게 하더라도 너무 좌절할 필요는 없다. 몇 년만 참으면 누구나 다루는 껌 같은 데이터가 될 테니 말이다(결론이 좀 이상한가?).

9. 데이터 지상주의

결국 중요한 점은 내가 얻은 데이터가 아무리 높은 신뢰성을 가진다고 해서, 모든 데이터가 진실을 의미하지는 않는다는 것이다. 수집된 모든 데이터가 의미가 있는 것이 아닐뿐더러 수집된 데이터가 진실을 밝히는데 충분하다고 장담할 수도 없다.
그래서 데이터에 근거한 어떤 주장(논쟁)을 할 때는 어느 누구라도(어떤 경우에서도) 데이터의 신빙성에 대한 문제에서 자유로울 수 없다. 이는 나 뿐만 아니라 제 3자(경쟁사든)의 누구에게라도 동일하게 적용된다. 데이터 지상주의나 데이터만이 모든 것을 다 말해줄 거라는 환상에 빠져서는 안 되는 이유이다(특히 내가 수집한 데이터에 있어서는 더더욱).

 

11. 데이터로 미래 예측이 가능?

✔️ 데이터는 과거의 족적이다

당연한 이야기지만, 수집된 데이터는 “과거”의 데이터이다. 
하지만 안타깝게도 통계학자들의 이러한 믿음은 틀린 사실이다. 근본적으로 미래는 재현이 되지 않으며, 어제가 오늘과 다르고 오늘은 내일과 다르다. 

✔️ 예측이 아닌 패턴 

스포츠 경기의 결과 예측이나 대통령 선거의 결과 예측, 내년 경제 전망 등은 도박에 가까운 단순한 예측에 가깝다. 구글이나 아마존 사례처럼 이용자들이 구매할 물품을 미리 제안하거나, 사용자가 어떤 단어를 검색했을 때 그다음 검색할 단어를 미리 제안하거나, 콜센터에서 고객이 할 것 같은 추가 질문을 미리 예상하는 것은 예측이라기보다는 ‘패턴’Pattern에 가깝다.

예측을 목적으로 하는 데이터 분석의 경우 정작 목표로 잡아야 할 것은 미래의 예측이 아니라 과거 데이터에서 ‘패턴’을 찾는 것이다. 이처럼 예측이 패턴 찾기가 되면 시간에 따라 예측을 하는 것이 아니라, 특정 조건이 맞으면 예상되는 결과를 도출해 내는 단계가 된다. 이러한 패턴 기반의 데이터 분석은 엄밀하게 보면 예측은 아니지만, 그와 비슷한 효과를 낼 수 있다.

12. 데이터 없이 문제 해결하기

데이터 분석이 요구되는 문제(혹은 데이터 분석이 요구된다고 판단되는 문제)를 해결하는 최선의 방법은 데이터 없이 문제를 해결하는 것이다. 어쩔 수 없이 데이터 분석이 필요하고 이러한 분석을 위한 데이터 수집의 과정을 피할 수 없다면, 되도록 적은 양의 데이터를 갖고서 분석하는 것이 차선의 해결 방법이다.

 

반응형