본문 바로가기
BOOK/책읽고쓰다

[책읽기] 데이터 과학자의 가설 사고

by KANG Stroy 2024. 2. 25.
728x90
728x90
데이터 과학자의 가설 사고 가와치 아키오 외 3인 비제이퍼블

책의 공동들은 일본 전기 주식회사 AI 애널리틱스 사업부 데이터 과학자 이다. 과학의 영역이 점점 넓혀지고 있는것 같다. 현재 엔비디아의 사장 젠승 황의 인터뷰를 볼수 있다. 예전에는 마이크로 소프트의 빌 게이츠의 인터뷰가 이슈화 되었다. 많은 데이터가 생성되고 있다. 하루에도 수백권의 책들이 나온다. 블로그의 글까지 따진다면? 엄청난 데이터의 홍수라고 봐야 할 것이다. 

 

AI는 수 많은 데이터들을 어떻게 모을까?라는 고민이 있을거 같다. 컴퓨터는 0과 1의 언어라고 한다면? AI는 0과 1의 범위를 넘어서는 것이 아닐까? 0으로 갈지? 1로 가야 할지? 모호한 경계에서 데이터를 보고 방향을 정해 보자는 것이다. 

 

책은 수많은 데이터를 어떻게 분류 해야 할지에 대한 부분에 대해서 퀴즈 40문제를 준비 했다. 

데이터 리터러시를 익히기 위한 퀴즈를 40문제 준비했습니다. 각 장의 퀴즈를 풀다 보면 데이터 과학자가 어떤 사고 회로로 데이터를 대하는지 간접 체험할 수 있습니다. 데이터 과학자의 사고방식을 모방하면서 데이터를 읽고 해석할 때의 요점(착안점)을 이해하고, 데이터를 바탕으로 논리적인 의사 결정을 하기 위한 힘을 기릅니다. 

책은 하루만에 다 볼 수 있도록 쉽게 넘어가기도 합니다. 준비한 문제를 하나 하나 풀어 나가고, 주변에 넘쳐나는 데이터를 비교하면서 본다면 쉽게 넘어가지 못할 수 있습니다. 

이런 데이터는 우리가 알지 못하는 곳에 쓰일거 같습니다. 무료로 쓰는 웹사이트는 이런 데이터들을 모아서 우리에게 필요한? 아니 자신들에게 유리한 광고를 맞춤하여 광고를 합니다. 그리고 우리는 과소비를 할 수도 있겠내요. 

많은 데이터를 어떻게 할 것인가? 이책이 품고 있는 핵심 주제가 아닐까요? 그중 최고는 직장인에 대한 부분일 겁니다. 또는 돈을 벌고자 하는 부분이겠내요. 영화 매트릭스에서 빨간약과 파란약이 있습니다. 진실을 알고자 한다면 빨간약을 그냥 현재를 살고자 한다면 파란약을 먹으면 됩니다. 주인공 네오는 가상세계에서 그 이면의 숫자들이 보입니다. 0과 1의 숫자가 보이는 가운데 그 진실을 넘어가면서 영화는 끝이 납니다. 

쏟아지는 데이터를 읽고, 설명하고, 다루고, 분류 합니다. 실생활에서 그것을 제일 잘하고 잘 이용하는 분야는? 설문조사가 아닐까요? 어떤 질문을 할것인가? 어떤 주제를 기준으로 해서 사람들의 생각을 물어 봐야 할까? 그리고 또 하나는 우리가 잘 이용하는 주식 시장이겠내요. 수 많은 주식 그래프를 보면서 미래를 예측해 봅니다. 하지만 이전의 데이터가 미래를 보여주지는 않는다고들 하죠? 

신입 사원때에는 부품의 데이터 쉬트 하나를 얻기위해서는 업체에 전화를 해야 받을 수 있었습니다. 하지만 지금은 인터넷을 검색하면 데이터 쉬트를 쉽게 구할 수 있습니다. 동일 부품의 경쟁 업체의 제품도 검색 되기도 합니다. 그 만큼 정보가 많다는 이야기 일겁니다. 

과학적인 부분과 인문적인 부분이 접합이 되고 있는것이 AI 라는 생각이 들게 되는 책 입니다. 젠슨 황이 프로그램 공부보다 인문학을 공부 하라는 이야기를 하고 있는 부분이기도 합니다. 많은 데이터에 대해서 분류하고 정리하기 위해서는 알맞은 질문이 필요하기 때문 일겁니다. 

2차 대전 살아 돌아온 비행기들을 조사 했습니다. 날개와 꼬리를 맞고 돌아 왔습니다. 그래서 그 부분을 보완하려고 합니다. 하지만 다시 한번 생각한다면? 돌아 오지 않은 비행기들을 조사해야 겠죠? 왜 떨어 졌는지?에 대한 생각을 먼져 할 겁니다. 이를 "생존자 편향 오류" 이라고 합니다. 이 책에서는 마트 앱을 이용한 설문을 합니다. 그리고 고기를 선호하는 것을 알았습니다. 고기 할인 행사를 했지만 성공하지 못했다고 합니다. 앱을 사용하지 않는 노인들에 대한 부분이 빠진거죠. 자료를 해석하는것도 중요하지만, 올바르게 데이터를 수집하는것도 필요합니다. 

통계는 수식이 난무 하지만, 이 책은 책표지와 다르게 연필 하나만 있으면 됩니다. 정답을 체크할 연필이 필요합니다. 퀴즈를 푼다는 생각으로 데이터에 접근해 보세요. 

728x90

댓글