□ 한국정보화진흥원(NIA), 디지털 뉴딜 사업의 일환으로 2020년도 2차 인공지능 학습용 데이터 구축 사업 공모 실시
○ 지난 6월 이후에 추가로 진행하는 2차 사업임
□ 사업 목표
○ 중소·벤처, 스타트업, 학계 등 민간의 인공지능 기술개발 촉진, 인공지능 산업 육성 등을 위해 대규모 인공지능 학습용 데이터 구축·개방
○ 민간·공공의 수요를 기반으로 양질의 AI 데이터를 대규모로 구축·공개하고 활용을 촉진하여 AI·데이터 선순환 생태계 조성
□ 추진배경 및 필요성
○ AI가 스스로 인식, 이해할 수 있으려면 AI SW가 사물간 연관성을 이해할 수 있는 형태로 가공된 대규모 AI 학습용 데이터 확보가 중요하나, 우리나라는 AI 학습용 데이터의 축적, 개방, 활용 수준이 미흡함
○ 미국, 유럽 등 AI 선도국에서는 AI 기술 발전을 위해 정부와 민간 협업, 투자로 대규모의 데이터를 대량으로 구축하여 공개하고 있음
- 구글 open Image(900만장, 객체인식), MS-Celeb(10만장, 안면인식), UC버클리 BDD100K(10만건, 자율주행), Human Motion DB(6천건, 동작인식) 등
□ 사업 주요 내용
○ (지원대상) AI 학습용 데이터를 구축 및 개방하고자 하는 기업, 출연연, 공공기관, 대학, 협회, 지자체 등 민간·공공 법인
○ (선정과제 수) 150개 세부 과제 (43 그룹 과제)
- 주제지정 132개 세부과제, 지역 6개 세부과제, 자유 12개 세부과제
○ (지원예산) 과제별 구축 데이터 규모 등에 따라 산정되며, 대략 과제당 20억원
○ (고려사항) AI 학습용 데이터 구축에 크라우드 소싱 방식 도입시 우대
○ (공모방식) 주제지정 공모, 자유공모
○ (지원방식) 매칭펀드
○ (수행기간) 협약일로부터 2020년 12월 31일까지
○ (접수) 8월초 접수 마감 예정
□ 주제지정 과제 목록
○ 자연어 분야
순번 | 과제명 |
1 | 자유대화 AI 데이터 (4개 세부과제), 80억 이내 |
2 | 명령어 AI 데이터 (4개 세부과제), 80억 이내 |
3 | 상황별음성 AI 데이터 (4개 세부과제), 80억 이내 |
4 | 열악환경 음성 AI 데이터 (3개 세부과제), 60억 이내 |
5 | 한국어 방언 AI 데이터 (5개 세부과제), 100억 이내 |
6 | 요약 데이터 AI 데이터 (3개 세부과제), 60억 이내 |
7 | 한국어 텍스트 AI 데이터 (4개 세부과제), 80억 이내 |
8 | 영어 번역말뭉치 AI 데이터 (2개 세부과제), 40억 이내 |
9 | 중어, 일어 번역 말뭉치 AI 데이터 (3개 세부과제), 60억 이내 |
10 | 한국어 글자체 AI 데이터 (3개 세부과제), 60억 이내 |
○ 헬스케어 분야
순번 | 과제명 |
11 | 소화기계 및 신장계암 AI 데이터 (4개 세부과제), 80억 이내 |
12 | 간췌담도계암 AI 데이터 (3개 세부과제), 60억 이내 |
13 | 체부암 AI 데이터 (3개 세부과제), 60억 이내 |
14 | 신경계질환 AI 데이터 (4개 세부과제), 80억 이내 |
15 | 피부구강계 질환 AI 데이터 (3개 세부과제), 60억 이내 |
16 | 복합 의료 AI 데이터 (3개 세부과제), 60억 이내 |
17 | 진료 및 건강 AI 데이터 (3개 세부과제), 60억 이내 |
○ 자율주행 분야
순번 | 과제명 |
18 | 주행환경 정적 객체 인지 AI 데이터 (4개 세부과제), 80억 이내 |
19 | 동적 객체 인지 AI 데이터 (3개 세부과제), 60억 이내 |
20 | 정적 객체 인지 AI 데이터 (4개 세부과제), 80억 이내 |
21 | 특수객체 인지 AI 데이터 (3개 세부과제), 60억 이내 |
○ 농축수산 분야
순번 | 과제명 |
22 | 농업영상 AI 데이터 (4개 세부과제), 80억 이내 |
23 | 작물질병해중 AI 데이터 (4개 세부과제), 80억 이내 |
24 | 축산물 품질 및 가축행동 영상 AI 데이터 (2개 세부과제), 40억 이내 |
25 | 어류행동 및 개체 AI 데이터 (2개 세부과제), 40억 이내 |
○ 기후환경 분야
순번 | 과제명 |
26 | 국토환경 AI 데이터 (4개 세부과제), 80억 이내 |
27 | 환경오염 AI 데이터 (3개 세부과제), 60억 이내 |
28 | 환경기타 AI 데이터 (3개 세부과제), 60억 이내 |
○ 미디어 분야
순번 | 과제명 |
29 | 영상내 음성 및 글자인식 AI 데이터 (3개 세부과제), 60억 이내 |
30 | 영상 콘텐츠 이해 AI 데이터 (3개 세부과제), 60억 이내 |
31 | 감정인식 및 요약 AI 데이터 (2개 세부과제), 40억 이내 |
32 | 사람행동영상 AI 데이터 (3개 세부과제), 60억 이내 |
33 | 스포츠 사람 동작 AI 데이터 (3개 세부과제), 60억 이내 |
○ 안전 분야
순번 | 과제명 |
34 | 교통안전 AI 데이터 (4개 세부과제), 80억 이내 |
35 | 산업안전 AI 데이터 (3개 세부과제), 60억 이내 |
36 | CCTV영상 AI 데이터 (2개 세부과제), 40억 이내 |
37 | 생활안전 AI 데이터 (3개 세부과제), 60억 이내 |
38 | 시설물안전 AI 데이터 (2개 세부과제), 40억 이내 |
39 | 안면 이미지 AI 데이터 (2개 세부과제), 40억 이내 |
○ 기타 분야
순번 | 과제명 |
40 | 소상공인1 AI 데이터 (3개 세부과제), 60억 이내 |
41 | 소상공인2 AI 데이터 (2개 세부과제), 40억 이내 |
42 | 제조 AI AI 데이터 (1개 세부과제), 20억 이내 |
43 | 기타 AI 데이터 (2개 세부과제), 40억 이내 |
※ 지난 6월에 있었던 20개 과제 구축 이후에 추가로 진행하는 사업입니다. (1차 구축 사업 게시글)
※ AI허브(www.aihub.or.kr)에서 기존에 구축된 다양한 AI 학습용 데이터를 확인 및 이용할 수 있습니다.
※ 디지털 뉴딜답게 분야도 다양하고 규모가 엄청나네요... 올해 AI 학습용 데이터를 170종 구축하게 되는데, 디지털 뉴딜 사업을 통해 2025년까지 1,300종의 학습용 데이터를 구축한다고 하니 아직 갈길이 머네요.
※ 사업 기간이 촉박한 느낌도 있습니다. 약 3,000억원의 예산을 들여서 구축하는 만큼 양질의 데이터로 구축이 잘 되었으면 하는 바램입니다.
※ 인공지능 분야의 새로운 일자리로 데이터 가공 분야가 뜨고 있는데, 소위 "21세기판 인형 눈붙이기"라고 부르는 데이터 라벨링 작업입니다. 일자리가 생기긴 하는데... 긍정적인면도 있지만 궁극적으로는 양질의 일자리라고 보기는 어려울 것 같습니다.
'인공지능' 카테고리의 다른 글
인공지능 학습용 데이터셋 구축 사업 (과기부, NIA) (0) | 2020.06.30 |
---|