□ 한국정보화진흥원(NIA), 디지털 뉴딜 사업의 일환으로 2020년도 2차 인공지능 학습용 데이터 구축 사업 공모 실시

  ○ 지난 6월 이후에 추가로 진행하는 2차 사업임

 

사업 목표

  ○ 중소·벤처, 스타트업, 학계 등 민간의 인공지능 기술개발 촉진, 인공지능 산업 육성 등을 위해 대규모 인공지능 학습용 데이터 구축·개방

  ○ 민간·공공의 수요를 기반으로 양질의 AI 데이터를 대규모로 구축·공개하고 활용을 촉진하여 AI·데이터 선순환 생태계 조성

국가 지능정보 데이터 인프라 구축 개념도 (출처 : AI Hub)

 

추진배경 및 필요성

  ○ AI가 스스로 인식, 이해할 수 있으려면 AI SW가 사물간 연관성을 이해할 수 있는 형태로 가공된 대규모 AI 학습용 데이터 확보가 중요하나, 우리나라는 AI 학습용 데이터의 축적, 개방, 활용 수준이 미흡함

  ○ 미국, 유럽 등 AI 선도국에서는 AI 기술 발전을 위해 정부와 민간 협업, 투자로 대규모의 데이터를 대량으로 구축하여 공개하고 있음

     - 구글 open Image(900만장, 객체인식), MS-Celeb(10만장, 안면인식), UC버클리 BDD100K(10만건, 자율주행), Human Motion DB(6천건, 동작인식) 등

 

□ 사업 주요 내용

  ○ (지원대상) AI 학습용 데이터를 구축 및 개방하고자 하는 기업, 출연연, 공공기관, 대학, 협회, 지자체 등 민간·공공 법

  ○ (선정과제 수) 150개 세부 과제 (43 그룹 과제)

     - 주제지정 132개 세부과제, 지역 6개 세부과제, 자유 12개 세부과제

  ○ (지원예산) 과제별 구축 데이터 규모 등에 따라 산정되며, 대략 과제당 20억원

  ○ (고려사항) AI 학습용 데이터 구축에 크라우드 소싱 방식 도입시 우대

  ○ (공모방식) 주제지정 공모, 자유공모

  ○ (지원방식) 매칭펀드

  ○ (수행기간) 협약일로부터 2020년 12월 31일까지

  ○ (접수) 8월초 접수 마감 예정

 

주제지정 과제 목록

  ○ 자연어 분야

순번 과제명
1 자유대화 AI 데이터 (4개 세부과제), 80억 이내
2 명령어 AI 데이터 (4개 세부과제), 80억 이내
3 상황별음성 AI 데이터 (4개 세부과제), 80억 이내
4 열악환경 음성 AI 데이터 (3개 세부과제), 60억 이내
5 한국어 방언 AI 데이터 (5개 세부과제), 100억 이내
6 요약 데이터 AI 데이터 (3개 세부과제), 60억 이내
7 한국어 텍스트 AI 데이터 (4개 세부과제), 80억 이내
8 영어 번역말뭉치 AI 데이터 (2개 세부과제), 40억 이내
9 중어, 일어 번역 말뭉치 AI 데이터 (3개 세부과제), 60억 이내
10 한국어 글자체 AI 데이터 (3개 세부과제), 60억 이내

 

  ○ 헬스케어 분야

순번 과제명
11 소화기계 및 신장계암 AI 데이터 (4개 세부과제), 80억 이내
12 간췌담도계암 AI 데이터 (3개 세부과제), 60억 이내
13 체부암 AI 데이터 (3개 세부과제), 60억 이내
14 신경계질환 AI 데이터 (4개 세부과제), 80억 이내
15 피부구강계 질환 AI 데이터 (3개 세부과제), 60억 이내
16 복합 의료 AI 데이터 (3개 세부과제), 60억 이내
17 진료 및 건강 AI 데이터 (3개 세부과제), 60억 이내

 

  ○ 자율주행 분야

순번 과제명
18 주행환경 정적 객체 인지 AI 데이터 (4개 세부과제), 80억 이내
19 동적 객체 인지 AI 데이터 (3개 세부과제), 60억 이내
20 정적 객체 인지 AI 데이터 (4개 세부과제), 80억 이내
21 특수객체 인지 AI 데이터 (3개 세부과제), 60억 이내

 

  ○ 농축수산 분야

순번 과제명
22 농업영상 AI 데이터 (4개 세부과제), 80억 이내
23 작물질병해중 AI 데이터 (4개 세부과제), 80억 이내
24 축산물 품질 및 가축행동 영상 AI 데이터 (2개 세부과제), 40억 이내
25 어류행동 및 개체 AI 데이터 (2개 세부과제), 40억 이내

 

  ○ 기후환경 분야

순번 과제명
26 국토환경 AI 데이터 (4개 세부과제), 80억 이내
27 환경오염 AI 데이터 (3개 세부과제), 60억 이내
28 환경기타 AI 데이터 (3개 세부과제), 60억 이내

 

  ○ 미디어 분야

순번 과제명
29 영상내 음성 및 글자인식 AI 데이터 (3개 세부과제), 60억 이내
30 영상 콘텐츠 이해 AI 데이터 (3개 세부과제), 60억 이내
31 감정인식 및 요약 AI 데이터 (2개 세부과제), 40억 이내
32 사람행동영상 AI 데이터 (3개 세부과제), 60억 이내
33 스포츠 사람 동작 AI 데이터 (3개 세부과제), 60억 이내

 

  ○ 안전 분야

순번 과제명
34 교통안전 AI 데이터 (4개 세부과제), 80억 이내
35 산업안전 AI 데이터 (3개 세부과제), 60억 이내
36 CCTV영상 AI 데이터 (2개 세부과제), 40억 이내
37 생활안전 AI 데이터 (3개 세부과제), 60억 이내
38 시설물안전 AI 데이터 (2개 세부과제), 40억 이내
39 안면 이미지 AI 데이터 (2개 세부과제), 40억 이내

 

  ○ 기타 분야

순번 과제명
40 소상공인1 AI 데이터 (3개 세부과제), 60억 이내
41 소상공인2 AI 데이터 (2개 세부과제), 40억 이내
42 제조 AI AI 데이터 (1개 세부과제), 20억 이내
43 기타 AI 데이터 (2개 세부과제), 40억 이내

 

(공모안내서_사전공개) 인공지능 학습용 데이터 구축 사업(2차).hwp
2.74MB

 

※ 지난 6월에 있었던 20개 과제 구축 이후에 추가로 진행하는 사업입니다.  (1차 구축 사업 게시글)

※ AI허브(www.aihub.or.kr)에서 기존에 구축된 다양한 AI 학습용 데이터를 확인 및 이용할 수 있습니다.

※ 디지털 뉴딜답게 분야도 다양하고 규모가 엄청나네요... 올해 AI 학습용 데이터를 170종 구축하게 되는데, 디지털 뉴딜 사업을 통해 2025년까지 1,300종의 학습용 데이터를 구축한다고 하니 아직 갈길이 머네요.

※ 사업 기간이 촉박한 느낌도 있습니다. 약 3,000억원의 예산을 들여서 구축하는 만큼 양질의 데이터로 구축이 잘 되었으면 하는 바램입니다.

인공지능 분야의 새로운 일자리로 데이터 가공 분야가 뜨고 있는데, 소위 "21세기판 인형  눈붙이기"라고 부르는 데이터 라벨링 작업입니다. 일자리가 생기긴 하는데... 긍정적인면도 있지만 궁극적으로는 양질의 일자리라고 보기는 어려울 것 같습니다.

AI 새로운 일자리 '인형 눈 붙이기' (리더스경제, 20.7.3.)

AI 시대 인형 눈붙이기 (중앙일보, 20.5.13)

+ Recent posts