□ 한국정보화진흥원(NIA), 디지털 뉴딜 사업의 일환으로 2020년도 2차 인공지능 학습용 데이터 구축 사업 공모 실시

  ○ 지난 6월 이후에 추가로 진행하는 2차 사업임

 

사업 목표

  ○ 중소·벤처, 스타트업, 학계 등 민간의 인공지능 기술개발 촉진, 인공지능 산업 육성 등을 위해 대규모 인공지능 학습용 데이터 구축·개방

  ○ 민간·공공의 수요를 기반으로 양질의 AI 데이터를 대규모로 구축·공개하고 활용을 촉진하여 AI·데이터 선순환 생태계 조성

국가 지능정보 데이터 인프라 구축 개념도 (출처 : AI Hub)

 

추진배경 및 필요성

  ○ AI가 스스로 인식, 이해할 수 있으려면 AI SW가 사물간 연관성을 이해할 수 있는 형태로 가공된 대규모 AI 학습용 데이터 확보가 중요하나, 우리나라는 AI 학습용 데이터의 축적, 개방, 활용 수준이 미흡함

  ○ 미국, 유럽 등 AI 선도국에서는 AI 기술 발전을 위해 정부와 민간 협업, 투자로 대규모의 데이터를 대량으로 구축하여 공개하고 있음

     - 구글 open Image(900만장, 객체인식), MS-Celeb(10만장, 안면인식), UC버클리 BDD100K(10만건, 자율주행), Human Motion DB(6천건, 동작인식) 등

 

□ 사업 주요 내용

  ○ (지원대상) AI 학습용 데이터를 구축 및 개방하고자 하는 기업, 출연연, 공공기관, 대학, 협회, 지자체 등 민간·공공 법

  ○ (선정과제 수) 150개 세부 과제 (43 그룹 과제)

     - 주제지정 132개 세부과제, 지역 6개 세부과제, 자유 12개 세부과제

  ○ (지원예산) 과제별 구축 데이터 규모 등에 따라 산정되며, 대략 과제당 20억원

  ○ (고려사항) AI 학습용 데이터 구축에 크라우드 소싱 방식 도입시 우대

  ○ (공모방식) 주제지정 공모, 자유공모

  ○ (지원방식) 매칭펀드

  ○ (수행기간) 협약일로부터 2020년 12월 31일까지

  ○ (접수) 8월초 접수 마감 예정

 

주제지정 과제 목록

  ○ 자연어 분야

순번 과제명
1 자유대화 AI 데이터 (4개 세부과제), 80억 이내
2 명령어 AI 데이터 (4개 세부과제), 80억 이내
3 상황별음성 AI 데이터 (4개 세부과제), 80억 이내
4 열악환경 음성 AI 데이터 (3개 세부과제), 60억 이내
5 한국어 방언 AI 데이터 (5개 세부과제), 100억 이내
6 요약 데이터 AI 데이터 (3개 세부과제), 60억 이내
7 한국어 텍스트 AI 데이터 (4개 세부과제), 80억 이내
8 영어 번역말뭉치 AI 데이터 (2개 세부과제), 40억 이내
9 중어, 일어 번역 말뭉치 AI 데이터 (3개 세부과제), 60억 이내
10 한국어 글자체 AI 데이터 (3개 세부과제), 60억 이내

 

  ○ 헬스케어 분야

순번 과제명
11 소화기계 및 신장계암 AI 데이터 (4개 세부과제), 80억 이내
12 간췌담도계암 AI 데이터 (3개 세부과제), 60억 이내
13 체부암 AI 데이터 (3개 세부과제), 60억 이내
14 신경계질환 AI 데이터 (4개 세부과제), 80억 이내
15 피부구강계 질환 AI 데이터 (3개 세부과제), 60억 이내
16 복합 의료 AI 데이터 (3개 세부과제), 60억 이내
17 진료 및 건강 AI 데이터 (3개 세부과제), 60억 이내

 

  ○ 자율주행 분야

순번 과제명
18 주행환경 정적 객체 인지 AI 데이터 (4개 세부과제), 80억 이내
19 동적 객체 인지 AI 데이터 (3개 세부과제), 60억 이내
20 정적 객체 인지 AI 데이터 (4개 세부과제), 80억 이내
21 특수객체 인지 AI 데이터 (3개 세부과제), 60억 이내

 

  ○ 농축수산 분야

순번 과제명
22 농업영상 AI 데이터 (4개 세부과제), 80억 이내
23 작물질병해중 AI 데이터 (4개 세부과제), 80억 이내
24 축산물 품질 및 가축행동 영상 AI 데이터 (2개 세부과제), 40억 이내
25 어류행동 및 개체 AI 데이터 (2개 세부과제), 40억 이내

 

  ○ 기후환경 분야

순번 과제명
26 국토환경 AI 데이터 (4개 세부과제), 80억 이내
27 환경오염 AI 데이터 (3개 세부과제), 60억 이내
28 환경기타 AI 데이터 (3개 세부과제), 60억 이내

 

  ○ 미디어 분야

순번 과제명
29 영상내 음성 및 글자인식 AI 데이터 (3개 세부과제), 60억 이내
30 영상 콘텐츠 이해 AI 데이터 (3개 세부과제), 60억 이내
31 감정인식 및 요약 AI 데이터 (2개 세부과제), 40억 이내
32 사람행동영상 AI 데이터 (3개 세부과제), 60억 이내
33 스포츠 사람 동작 AI 데이터 (3개 세부과제), 60억 이내

 

  ○ 안전 분야

순번 과제명
34 교통안전 AI 데이터 (4개 세부과제), 80억 이내
35 산업안전 AI 데이터 (3개 세부과제), 60억 이내
36 CCTV영상 AI 데이터 (2개 세부과제), 40억 이내
37 생활안전 AI 데이터 (3개 세부과제), 60억 이내
38 시설물안전 AI 데이터 (2개 세부과제), 40억 이내
39 안면 이미지 AI 데이터 (2개 세부과제), 40억 이내

 

  ○ 기타 분야

순번 과제명
40 소상공인1 AI 데이터 (3개 세부과제), 60억 이내
41 소상공인2 AI 데이터 (2개 세부과제), 40억 이내
42 제조 AI AI 데이터 (1개 세부과제), 20억 이내
43 기타 AI 데이터 (2개 세부과제), 40억 이내

 

(공모안내서_사전공개) 인공지능 학습용 데이터 구축 사업(2차).hwp
2.74MB

 

※ 지난 6월에 있었던 20개 과제 구축 이후에 추가로 진행하는 사업입니다.  (1차 구축 사업 게시글)

※ AI허브(www.aihub.or.kr)에서 기존에 구축된 다양한 AI 학습용 데이터를 확인 및 이용할 수 있습니다.

※ 디지털 뉴딜답게 분야도 다양하고 규모가 엄청나네요... 올해 AI 학습용 데이터를 170종 구축하게 되는데, 디지털 뉴딜 사업을 통해 2025년까지 1,300종의 학습용 데이터를 구축한다고 하니 아직 갈길이 머네요.

※ 사업 기간이 촉박한 느낌도 있습니다. 약 3,000억원의 예산을 들여서 구축하는 만큼 양질의 데이터로 구축이 잘 되었으면 하는 바램입니다.

인공지능 분야의 새로운 일자리로 데이터 가공 분야가 뜨고 있는데, 소위 "21세기판 인형  눈붙이기"라고 부르는 데이터 라벨링 작업입니다. 일자리가 생기긴 하는데... 긍정적인면도 있지만 궁극적으로는 양질의 일자리라고 보기는 어려울 것 같습니다.

AI 새로운 일자리 '인형 눈 붙이기' (리더스경제, 20.7.3.)

AI 시대 인형 눈붙이기 (중앙일보, 20.5.13)

□ 과기부, 인공지능(AI) 개발에 필수적인 양질의 데이터를 대규모로 구축 및 개방하는 'AI 학습용 데이터 구축 사업'에 20개 과제 최종 확정 (6.22)

 

정부에서는 2017년부터 텍스트, 이미지, 영상 분야의 인공지능 서비스 개발을 위한 학습용 데이터 셋 21종, 4,650만건을 구축하고 있으며, AI허브(www.aihub.or.kr)를 통해 공개 중

 

2020년은 총 390억 규모로 총 20개 과제 선정 (10개 지정공모, 10개 자유공모)

 

선정된 분야를 살펴보면, 국가적, 산업적으로 필요성이 시급한 자연어 처리분야, 자율주행기술 분야, 융합 분야와 국민편의 향상을 위한 헬스케어 분야, 딥페이크 방지 기술 분야, 장애인의삶을 향상 시킬 수 있는 분야 등이 선정되었음

 

 그리고, 과기부는 2020년 추경예산을 통해 AI 학습용 데이터 확대 구축을 대규모로 확대 및 구축하여 데이터 댐에 모으고, 다양한 AI 기술연구, 상용화 서비스 개발에 활용할 수 있도록 추진 예정이라고 함

 

<2020년 AI 학습용 데이터 구축 과제 선정 결과>

 

 지정과제 (10개)

과제명

주관/참여기관

주요 내용

대용량 동영상 콘텐츠

KDX 한국데이터거래소, 씨이랩, 매경닷컴, 에버영피플, 서울대학교 산학협력단, 씨드롭, 상상우리, 에스이앤티, 베어버터, 디앤디클라우드

o 대용량 동영상 내 객체 탐지, 상황 이해, 행동 분석을 위한 대용량 동영상 AI 데이터 구축
- 원천 데이터 30종류 1,630시간 이상 확보, 객체 행동 카테고리 분류 7,500개 이상 구성, 바운딩 박스 700만개 이상 구성, 학습 데이터 500시간 이상 확보

자율주행드론 비행 영상

울산대학교 산학협력단, 경북대학교 산학협력단, 서홍테크, 에이테크, 엠엠피, 휴먼드론개발, 유시스, 단트넷, 울산정보산업진흥원

o 관광지, 도심지, 산림지 4K, 25FPS 360시간 및 LiDAR 영상데이터 20시간 구축o 별도 품질 관리 지표 및 방안 마련하여 데이터 품질 관리 실시

시각정보 기반 질의응답

유클리드소프트, 한국원자력연구원, 국립공주대학교, 터치스톤

o 생활 이미지와 이미지에 대한 질문을 입력받아 질문에 대한 답을 생성하는 AI데이터 구축(이미지 135만장, 한국어 질의응답 750만쌍)

수어 영상

테스트웍스, 이큐포올, 한국농아인협회, 카이스트, 나사렛대학교

o 청각 및 언어장애를 가진 사람들이 사용하는 수어를 영상 기반으로 인식하여 의사를 전달할 수 있도록 AI 기술 및 응용서비스 개발에 필요한 수어 영상 학습 데이터 구축

한국인 대화음성

솔루게이트타임소프트, 코난테크놀로지

o 한국인의 일상 대화를 인식하고 음성을 문자로 실시간 변환하는 AI 기술 개발을 위한 대화 음성 데이터셋 구축
(원본 음성 데이터 4,000시간 이상, 음성을 문자로 변환한 텍스트 데이터 400만 문장)

딥페이크 방지영상

머니브레인크라우드웍스, 서울대학교

o GAN(적대적 생성 신경망) 기반의 다양한 변형 알고리즘을 통해 생성된 변조 영상을 탐지하는 AI기술 개발에 필요한 원본 및 변조 영상 데이터 구축 및 응용서비스 개발

랜드마크 이미지

피씨엔크라우드웍스, 데이콘

o 인공지능 기반의 시각지능 기술 및 서비스 개발에 활용하기 위한 국내 특성이 반영된 국내 도심 민간건물, 공공기관, 관광명소, 편의시설 등 국내 도시별 주요 랜드마크 이미지 데이터 구축

사람 인체자세 3D

스위트케이서울대학교, 한국디자인진흥원, 모션테크놀로지

o 2D인체 영상을 3D모델로 변환할 때, 자세(pose)와 형태(shape)를 추론하여 커머스, 스포츠 및 AR·VR 서비스를 개발하기 위한 2D-3D 인체 데이터셋 구축

문서요약 텍스트

비플라이소프트위고, 테스트웍스, 고려대학교, 에이아이닷엠

o AI가 텍스트를 이해하고 핵심 내용을 요약적으로 전달하기 위해 AI SW가 해당 텍스트의 주요 내용이 무엇인지를 이해할 수 있는 형태로 가공된, 다양한 유형의 대규모 요약 텍스트 데이터 구축

전문분야 한영 말뭉치

플리토솔트룩스파트너스, 에버트란

o 한영 병렬 번역 말뭉치 155만건 구축o 대법원 판례(인공지능 판례 번역), 의료/보건(코로나19 pandemic 관련 공문) 등 전문분야별 한영 말뭉치 구축

 

 자유과제 (10개)

과제명

주관/참여기관

주요 내용

질병진단(암조직, 부비동) 이미지 AI데이터

국립암센터, 건양대학교병원, 인피니트헬스케어, 딥노이드, 마인즈앤컴퍼니, 유비즈정보기술, 오엠인터랙티브딥네츄럴, 네이버비즈니스플랫폼

o 유방암 및 부비동 질환의 진단을 위한 의료 영상 이미지 AI데이터 구축

도로환경 파노라마 이미지 AI데이터

올포랜드스티리스, 지디에스컨설팅그룹, 에스이앤티, 가천대학교 산학협력단

o 영상데이터 수집 후 가공을 통한 자율주행용 이미지 AI데이터 구축

피트니스 자세 이미지 AI데이터

슬릭코퍼레이션데이터연구소, 서울대학교 산학협력단, 위힐드

o 피트니스 자세 평가/피드백 AI Application을 개발하고자 하는 기관들이 사용할 AI데이터셋 및 관련 모델/응용서비스를 구축

K-Fashion 이미지 AI데이터

오피니언라이브웨얼리, 에이아이닷엠, 이화여자대학교 산학협력단, 한국패션산업연구원

o 구매 또는 직접 촬영하여 저작권 문제가 해결된 패션 이미지의 패션 요소 정보를 어노테이션한 이미지 100만장 이상 구축

한국인 재식별 이미지 AI데이터

한국과학기술연구원휴먼아이씨티, SQI소프트

o 대한민국의 실내/외 구축된 공공 CCTV 환경을 고려한 한국인(1,000) 재식별 데이터셋 구축

도로주행영상 AI데이터

티큐에스코리아지어소프트, 와토시스, 한국자동차연구원

o 70건 이상 실도로 주행 데이터 Use-Case 기반 175TB 상당의 자율주행 원천데이터 수집, 855천 프레임 구축

치매진단 뇌파영상 AI데이터

디노플러스엔브레인, 삼성서울병원

o 치매 및 난청 Active 영상·이미지 데이터(PACS) 및 임상전문의 진단정보 AI데이터 구축

감성 대화 말뭉치 AI데이터

미디어젠

o 우울증 등 심리 장애로 인한 사회문제 해결을 위해 감성대화 코퍼스 데이터 구축

위성영상 객체판독 이미지 AI데이터

한국항공우주연구원에스아이아이에스, 에스아이에이, 슈퍼브에이아이

o 국내 위성 영상 활용 산업의 발전을 위해 아리랑 위성영상을 이용한 범용 위성정보 데이터 구축

구강악 2D3D 이미지 AI데이터

헬스허브서울대학교 치과병원사회적 협동조합 굿임팩트

o 치아 및 치주질환 진단과 치료계획 수립을 위한 파노라마 영상과 CBCT (Cone Beam Computed Tomography) 영상 데이터 구축

 

※ AI허브(www.aihub.or.kr)에서 기존에 구축된 다양한 AI 학습용 데이터를 확인 및 이용할 수 있습니다.

 

AI허브 플랫폼

200622 조간 (보도) AI 학습용 데이터 구축 사업 과제 확정.hwp
0.34MB

'인공지능' 카테고리의 다른 글

인공지능 학습용 데이터 구축 사업 (2차) 공모  (0) 2020.07.14

+ Recent posts