본문 바로가기
데이터 과학 관련 스터디/모두의 딥러닝

[모두의 딥러닝] 1장, 2장

by inhovation97 2020. 4. 14.

'AI'라는 단어가 여러 매체에 오르내리면서 'Data science' 최근 아주 핫한 분야로 떠오르고 있죠.

구인 시장을 보면 정말 핫한지는(?) 모르겠지만, 최근 데이터 학원도 많이 생기고 있고, 해외 어떤 매체에는 가장 섹시한 직업으로 data scientist가 뽑힌것을 보니 화두에 있음은 분명해 보입니다.

 

각설하고 책 관련 포스팅 시작합니다.

초반부 내용이므로 1,2장은 한 번에 포스팅하겠습니다.

 

1장 나의 첫 딥러닝

https://www.google.com/url?sa=i&url=https%3A%2F%2Fbusy.org%2F%40mbl%2Fmbl-gpu&psig=AOvVaw3wRRefdb9nPOsVjDCwx13i&ust=1586861791647000&source=images&cd=vfe&ved=0CAIQjRxqFwoTCIC0ioWf5egCFQAAAAAdAAAAABAD

초장에는 딥러닝 설명에 관한 내용이 많이 나와요.

인공지능(AI)이라는 카테고리 내에 머신러닝(ML)이 있고, 또 그 범주안에 딥러닝(DL)이 있죠.

딥러닝이 알고리즘 중에서도 예측력이 가장 뛰어나다고 책에서 설명하고 있네요.

보통 머신러닝 모델을 만드는 순서는 이렇습니다.

 

1. 데이터가 주어집니다. 데이터는 train/test 데이터 2가지로 나뉘는데 train 데이터에는 목표 변수(클래스)가 있고, test 데이터에는 목표 변수가 없습니다.

2. 데이터를 살피고, 가공합니다. (대부분은 데이터가 더러워서 '전처리 과정'을 거칩니다. 컴퓨터가 인식할 수 있도록 돕는 것이지요.)

3. 데이터를 시각화하면서 분석합니다. 이 과정을 EDA(Exploratory Data Analysis)라고 합니다.

4. 분석 후 쓸모없는 x(독립변수)를 걸러내고, y(목표 변수) 예측하는 데에 도움이 될 만한 독립변수를 더 만듭니다. 이 과정을 FE(feature engineering)이라고 합니다.

5. 가공한 데이터를 가지고 train를 통해 목표 변수를 예측하는 모델을 만듭니다. 이 모델을 test 데이터에 적용시킵니다.

6. 예측력을 높이기 위해 위 과정을 반복합니다. 아래 그림의 빨간 선을 더 잘 긋기 위한 반복이죠.

7. 이제 아래 그림처럼 새로운 데이터가 나왔을 때, 만들었던 모델에 데이터를 넣으면 목표 변수를 예측할 수 있는 겁니다.

이 뒤에는 대략적으로 라이브러리를 통해 간단히 딥러닝을 구동시키고 그 라이브러리 안에 있는 여러 파라미터들에 대한 설명이 나오는데요, 딥러닝 라이브러리는 Tensor flow와 keras가 가장 널리 쓰이네요.

 

2장부터는 딥러닝의 원리를 이해하는 데에 필요한 기초수학에 관한 얘기입니다.

이 부분은 사실 통계학 학도로서 말하자면, 통계학 쉽지 않죠. 통계는 심지어 교차지원이라 저 같은 문돌이는 굉장히 힘든감이 있어요.

책에 나온 딥러닝을 위한 기초 수학은 알아야 하는 부분만 간단히 설명했네요.

1. 일차 함수, 기울기와 y절편

2. 이차 함수와 최솟값

3. 미분, 순간 변화율과 기울기

4. 편미분

5. 지수와 지수 함수

6. 시그모이드 함수

7. 로그와 로그 함수

 

아마 전공분야가 아니거나 문돌이이신 분들은 4와 6을 처음 들으실 거예요.

편미분은 한 식에서 변수가 여러 개일 때, 한 개의 미지수에 대해서만 미분하는 거예요.

가령, ax+b(b는 상수)라는 식이 있을 때, a에 대해서 편미분 하는 것이지요.

그럼 b는 똑같이 상수 처리하고 결과는 a가 나오죠. 전부 이렇게 다 간단하면 문제가 없겠지만, 저 같은 문돌이 분들은 일반적이지 않은 상황이 나오면 당황할 수가 있어요. 이를테면, 함수가 합성 함수인 경우예요. 합성함수의 미분법에 대해서는 문과에서는 배우지 않아서, 이런 기초적인 수학 부분은 통계학을 공부하시려면 어느 정도 수학 공부를 하셔야 합니다.

 

시그모이드 함수는 저도 이번에 처음 들었는데, 지수 함수에서 밑의 값이 자연 상수 e인 함수를 일컫는 말이 더라구요. 저 같은 문돌이는 또 자연 상수 e가 뭔지 모릅니다. ㅋㅋㅋ 통계학 공부하시려면, 기초 수학을 꼭 공부해야 함을 알려드려요.

저희 학교 같은 경우 밑의 책으로 공부했어요.

타학교 통계학

부도 이 책으로 공부했다고 하는데, 번역 버전이 있고, 한글 버전이 있으니까 유의하세요.

https://book.naver.com/bookdb/book_detail.nhn?bid=7443621

 

미분적분학 1 2 세트

분량을 줄이고 효율을 높인 미분적분 교재!『미분적분학 1 2 세트』는 미분적분학을 체계적으로 익힐 수 있는 교재이다. 대부분의 미적분학 교과서 분략이 많다고 생각했던 저자들은, 주제들을 효율적인 방법으로 조직하기 이해 일부 절은 간략하게 설명해 분량을 줄였다. 각 장에서 시작 부분의 여백과 사진 등을 제거함으로써, 공간을 절약하고 추가적인 보기 자료는 온라인에서 제공받을 수 있도록 안내한다. 크게 '일변수 함수의 미적분'과 '다변수 함수와 벡터 해석'으로

book.naver.com

하지만 비 전공자 분들은 통계학이 너무 어렵고 깊게 공부하기 싫으시면, 그냥 딥러닝 모델에 대한 수학적인 식을 한 번만 이해하시고, 코딩 공부를 열심히 하는 게 효율적일 것 같네요.

책에서도 말하듯이, 진입장벽을 허무는게 가장 중요하니깐요.

 

댓글