본문 바로가기
Tabular data

Tabular data란? Tabular data 이해하기

by inhovation97 2022. 6. 13.

최근에 주식 데이터를 다루게 되면서 TimeSeries data와 Tabular data에 관심이 가 공부했던 것들을 정리 해보려고 합니다.

아직 저도 많이 부족한지라... 제가 생각한 것이 틀리면 지적해주세요.

1. Tabular data란?
2. Tabular data 이해하기 (연구동향)

 

 

1. Tabular data란?

 

우선 Tabular data가 뭔지 알아야겠죠?

저는 data를 크게 2가지로 나눌 수 있다고 생각합니다. 

1. 정형 데이터 (Tabular)

2. 비정형 데이터 (이미지, 텍스트, 음성...)

 

위에서 말한 대로 Tabular data는 그냥 정형 데이터입니다. 우리가 흔히 보는 데이터 베이스에 table 형태의 행과 열로 표현되는 데이터입니다. tabular data의 유명한 예제 데이터는 타이타닉이나 iris 데이터 등등이 있죠.

그럼 위 2가지의 데이터는 어떻게 연구돼 왔을까요?

타이타닉 데이터셋(tabular)

 

 

2. Tabular data 이해하기(연구동향)

 

먼저 정형 데이터와 비정형 데이터의 핵심을 이해해 봅시다. 

(여기부터는 제 뇌피셜이 조금 섞여 있습니다.)

 

최근 딥러닝으로의 인공지능을 견인했던 데이터는 대부분이 비정형 데이터입니다. 

텍스트 데이터는 RNN, 영상 데이터는 CNN으로 대표적인 딥러닝 아키텍처가 있습니다. 

이는 텍스트 데이터의 Sequential한 특징을 RNN이 잘 뽑아주어 응용이 되었고, 영상 데이터는 픽셀 간의 연관성을 크게 해치지 않는 방향으로 CNN이 잘 표현해 주면서 인공지능이 크게 성장하였습니다. 

 

그렇다면 정형 데이터는 대표적인 딥러닝 아키텍처가 있을까요?

RNN과 CNN이 엄청나게 발전하는 동안에 정형 데이터는 딥러닝 알고리즘 보다는 전통적인 통계기반 방식과 Tree-based model이 긴 시간을 지배했었고 거의 19년도?부터 TabNet이라는 대표적인 Tabular 데이터 딥러닝 아키텍처가 개발되었습니다. 

 

Text -> Sequential한 특징이 핵심

Image,Video -> 객체에 대한 픽셀 간 연관성이 핵심

Tabular -> ??

 

혹시 뭐라고 생각하시나요?

제가 조금 공부를 해 본 지금 Tabula data의 핵심은 Feature importance라고 생각합니다. 

Tree 모델을 공부하다보면 자주 접하는 키워드 입니다. Feature selection, Feature importance

 

TabNet이 이제껏 트리 모델이 학습해왔던 방식인  Feature selection 원리를 채택하여 개발되면서 드디어 Tabular data도 딥러닝으로 발전이 크게 열렸고, 현재 State-of-the-art가 된 것 같습니다. (물론 TabNet이전부터 계속 시도는 있었습니다.)

이런 Tabualr data의 feature importance특성으로 연구된 여러가지 것들과 TabNet까지 최근 공부하게 되면서 이참에 tree-based model부터 TabNet까지 관련 논문도 몇개 훑으면서 순서대로 정리해볼까합니다.

댓글