AI | ML

딥러닝 학습 데이터셋 쉽게 찾고 다운받기

깜태 2020. 12. 3. 14:39
728x90

최근에 데이터 확보를 위해 다양한 데이터셋을 다운받을 일이 생겼습니다.

 

하지만, 찾기가 힘든 데이터셋들이 많아지면서 저와 비슷한 분이 있지 않을까 해서

 

어떻게 하면 데이터셋을 빠르게 모을 수 있는지 써보겠습니다.

 

1. paperswithcode.com/ 사이트에 검색하기

 

paperswithcode.com은 제가 자주 애용하는 딥러닝 네트워크의 성능과 코드를 찾아볼 수 있는 사이트입니다.

 

저의 경우엔 image dehazing 분야의 데이터셋이 필요했는데요

 

paperswithcode.com 에 image dehazing 검색 결과

 

Benchmarks 를 보시면  Dataset 종류들이 나옵니다

 

다양한 논문들이 좌측처럼 그래프를 보이고 있다면, 그 데이터는 그만큼 접근하기 쉽다는 얘기가 되기도 합니다.

 

그리고, 해당 분야에 어떤 데이터셋 존재하는지도 알 수 있게 됩니다

 

그 다음은 단순하게 SOTS Indoor Dataset Download, SOTS Outdoor Dataset Download 이런 식으로

 

해당 데이터셋 다운로드에 대해 구글링하면 웬만하면 1~2페이지를 넘기지 않고 빠르게 데이터를 획득할 수 있습니다.

 

2. github 애용하기

 

github에는 awesome-[분야명] 과 같은 식으로 누군가가 먼저 다음 사람들을 위해 정리해놓은 포스팅이 존재합니다.

 

저의 경우에도 마찬가지로 awesome dehaze를 검색했고, 그 결과는 다음과 같이 나오게 됩니다.

 

 

그리고 저 첫 포스팅을 누르면 다음과 같은 링크가 나오고, 관련 데이터셋을 친절하게 링크해놓은 글을 확인할 수 있습니다.

 

 

3.  AIHUB 홈페이지 검색해보기

요즘 국가 차원에서 데이터 사업을 많이 진행하고 있는데, 완성된 데이터셋을 받아 볼 수 있는 사이트로

 

AIHUB라는 홈페이지 사이트가 있습니다.

 

들어가면 카테고리 별로 잘 정리된 것도 볼 수 있고, 일부 데이터셋 같은 경우에는 "한국"에 한정된 데이터를 구하기 힘든데

 

신청만 하면 빠르게 받아볼 수 있습니다.

 

https://aihub.or.kr/

 

홈 | AI 허브

AI 허브는 AI 기술 및 제품·서비스 개발에 필요한 AI 인프라(AI 데이터, AI SW API, 컴퓨팅 자원)를 지원함으로써 누구나 활용하고 참여하는 AI 통합 플랫폼입니다.

aihub.or.kr

 

다들 데이터셋 빨리 구하고, 삽질 없으시길 바라며 이상으로 글 마치겠습니다.

728x90

'AI | ML' 카테고리의 다른 글

[AWS] SageMaker에서 파이토치를 이용한 딥러닝 학습 (1)  (1) 2021.05.28
Transfer Learning 가이드  (0) 2021.01.05