[ Dataset ] MNIST, ImageNet 데이터 파악하기.

요즘 딥러닝이 떠오르며 연습용 데이터로 많이 다루는 MNIST 와 ImageNet에 대하여 알아볼 것이다.

MNIST DATA BASE

: (Modified National Institute of Standardas and Technology)

MNIST 자료는 손으로 쓴 숫자들의 이미지를 담은 데이터베이스이다.

자료 정보

- 6만 개의 training 이미지와 1만개의 test 이미지가 있다.

- 각 이미지는 손으로 쓴 0 ~ 9 의 아리비아 숫자들을 스캔한 것인데, 사람마다 글씨체가 다르다 보니 숫자 이미지들도 제각각이다.

- 20 X 20 픽셀 상자 안으로 정규화 한 후, 그 상자의 중심이 28 X 28 픽셀 영역의 중심과 일치하도록 적당히 이동시켰다.

- 28 X 28 픽셀 영역에서 각 픽셀은 0 ~ 255 사이의 값을 가진다. 이는 회색조의 세기에 해당한다.

- 각 이미지에는 0 ~ 9 까지의 해당 숫자 값이 분류명(label)으로 부여되어있다.

자료의 장점

이 데이터베이스의 작은 크기와 단순함은 다양한 연구실에서 기계 학습 알고리즘을 빠르게 시험해보기 좋다.

각 이미지의 행렬 표현이 합성곱 신경망(CNN, Convolutional Neural Network)에 적합하긴 하지만, 이미지값을 flatten 해서 다차원 표현으로 변환하는 것도 가능하다. 28 X 28 = 784 차원. 그러면 이미지의 공간적 정보가 일부 사라지긴 하지만, 애초에 자료가 단순해서 큰 문제가 되지 않는다. 신경망의 구체적인 구조에 따라 결과에 차이가 난다.

마지막으로, 784차원 비공간적 표현이 컴퓨터 시각 분야 이외의 모든 종류의 신경망 알고리즘을 시험하는데 쓰인다.

ImageNet DATA BASE

: 천 가지 범주에서 뽑은 약 1천 4백만 장의 이미지들로 이루어진 거대한 데이터 베이스이다.

이미지 부류가 아주 다양해서, 일상생활에서 볼 수있는 대부분의 이미지를 포함한다. 이 데이터베이스는 명사들로 이루어진 WordNet 계통구조에 따라 조직화되어 있다. WordNet 데이터베이스는 유의어집합(synset)의 개념에 기초해서 결정된 영어 단어들 사이의 관계를 담은 자료 집합이다.

이 데이터가 유명해진 이유는 ImageNet Large Scale Visual Recognition Challenge(ILSVRC) 공모전이 이 자료 집합을 사용하기 때문이다. 이 공모전은 컴퓨터 시각 분야에서 권위가 아주 높다.

또 다른 이유로는 이미지 응용 분야의 핵심적인 시각적 개념들을 모두 표현하기에 충분할 정도로 이미지들이 많고 다양하다는 점이다. 그래서 흔히 합성곱 신경망(CNN, Convolutional Neural Network)들은 이 자료 집합으로 훈련되며, 미리 훈련된 모형을 임의의 이미지에서 특징들을 추출하는 용도로 사용할 수 있다. 이 자료들의 시각적 개념들이 다른 응용 분야의 자료 객체들로 전달하는 일종의 전이 학습으로 사용한다.

출처

<신경망과 심층학습: Neural Networks and DeepLearing> / 차루 C. 아가르왈 지음. / 류광 옮김. / Jpub 출판.

SuperMemi's Study

[ Dataset ] MNIST, ImageNet 데이터 파악하기.

MNIST DATA BASE

자료 정보

자료의 장점

ImageNet DATA BASE

티스토리툴바