□ 과기부, 인공지능(AI) 개발에 필수적인 양질의 데이터를 대규모로 구축 및 개방하는 'AI 학습용 데이터 구축 사업'에 20개 과제 최종 확정 (6.22)

 

정부에서는 2017년부터 텍스트, 이미지, 영상 분야의 인공지능 서비스 개발을 위한 학습용 데이터 셋 21종, 4,650만건을 구축하고 있으며, AI허브(www.aihub.or.kr)를 통해 공개 중

 

2020년은 총 390억 규모로 총 20개 과제 선정 (10개 지정공모, 10개 자유공모)

 

선정된 분야를 살펴보면, 국가적, 산업적으로 필요성이 시급한 자연어 처리분야, 자율주행기술 분야, 융합 분야와 국민편의 향상을 위한 헬스케어 분야, 딥페이크 방지 기술 분야, 장애인의삶을 향상 시킬 수 있는 분야 등이 선정되었음

 

 그리고, 과기부는 2020년 추경예산을 통해 AI 학습용 데이터 확대 구축을 대규모로 확대 및 구축하여 데이터 댐에 모으고, 다양한 AI 기술연구, 상용화 서비스 개발에 활용할 수 있도록 추진 예정이라고 함

 

<2020년 AI 학습용 데이터 구축 과제 선정 결과>

 

 지정과제 (10개)

과제명

주관/참여기관

주요 내용

대용량 동영상 콘텐츠

KDX 한국데이터거래소, 씨이랩, 매경닷컴, 에버영피플, 서울대학교 산학협력단, 씨드롭, 상상우리, 에스이앤티, 베어버터, 디앤디클라우드

o 대용량 동영상 내 객체 탐지, 상황 이해, 행동 분석을 위한 대용량 동영상 AI 데이터 구축
- 원천 데이터 30종류 1,630시간 이상 확보, 객체 행동 카테고리 분류 7,500개 이상 구성, 바운딩 박스 700만개 이상 구성, 학습 데이터 500시간 이상 확보

자율주행드론 비행 영상

울산대학교 산학협력단, 경북대학교 산학협력단, 서홍테크, 에이테크, 엠엠피, 휴먼드론개발, 유시스, 단트넷, 울산정보산업진흥원

o 관광지, 도심지, 산림지 4K, 25FPS 360시간 및 LiDAR 영상데이터 20시간 구축o 별도 품질 관리 지표 및 방안 마련하여 데이터 품질 관리 실시

시각정보 기반 질의응답

유클리드소프트, 한국원자력연구원, 국립공주대학교, 터치스톤

o 생활 이미지와 이미지에 대한 질문을 입력받아 질문에 대한 답을 생성하는 AI데이터 구축(이미지 135만장, 한국어 질의응답 750만쌍)

수어 영상

테스트웍스, 이큐포올, 한국농아인협회, 카이스트, 나사렛대학교

o 청각 및 언어장애를 가진 사람들이 사용하는 수어를 영상 기반으로 인식하여 의사를 전달할 수 있도록 AI 기술 및 응용서비스 개발에 필요한 수어 영상 학습 데이터 구축

한국인 대화음성

솔루게이트타임소프트, 코난테크놀로지

o 한국인의 일상 대화를 인식하고 음성을 문자로 실시간 변환하는 AI 기술 개발을 위한 대화 음성 데이터셋 구축
(원본 음성 데이터 4,000시간 이상, 음성을 문자로 변환한 텍스트 데이터 400만 문장)

딥페이크 방지영상

머니브레인크라우드웍스, 서울대학교

o GAN(적대적 생성 신경망) 기반의 다양한 변형 알고리즘을 통해 생성된 변조 영상을 탐지하는 AI기술 개발에 필요한 원본 및 변조 영상 데이터 구축 및 응용서비스 개발

랜드마크 이미지

피씨엔크라우드웍스, 데이콘

o 인공지능 기반의 시각지능 기술 및 서비스 개발에 활용하기 위한 국내 특성이 반영된 국내 도심 민간건물, 공공기관, 관광명소, 편의시설 등 국내 도시별 주요 랜드마크 이미지 데이터 구축

사람 인체자세 3D

스위트케이서울대학교, 한국디자인진흥원, 모션테크놀로지

o 2D인체 영상을 3D모델로 변환할 때, 자세(pose)와 형태(shape)를 추론하여 커머스, 스포츠 및 AR·VR 서비스를 개발하기 위한 2D-3D 인체 데이터셋 구축

문서요약 텍스트

비플라이소프트위고, 테스트웍스, 고려대학교, 에이아이닷엠

o AI가 텍스트를 이해하고 핵심 내용을 요약적으로 전달하기 위해 AI SW가 해당 텍스트의 주요 내용이 무엇인지를 이해할 수 있는 형태로 가공된, 다양한 유형의 대규모 요약 텍스트 데이터 구축

전문분야 한영 말뭉치

플리토솔트룩스파트너스, 에버트란

o 한영 병렬 번역 말뭉치 155만건 구축o 대법원 판례(인공지능 판례 번역), 의료/보건(코로나19 pandemic 관련 공문) 등 전문분야별 한영 말뭉치 구축

 

 자유과제 (10개)

과제명

주관/참여기관

주요 내용

질병진단(암조직, 부비동) 이미지 AI데이터

국립암센터, 건양대학교병원, 인피니트헬스케어, 딥노이드, 마인즈앤컴퍼니, 유비즈정보기술, 오엠인터랙티브딥네츄럴, 네이버비즈니스플랫폼

o 유방암 및 부비동 질환의 진단을 위한 의료 영상 이미지 AI데이터 구축

도로환경 파노라마 이미지 AI데이터

올포랜드스티리스, 지디에스컨설팅그룹, 에스이앤티, 가천대학교 산학협력단

o 영상데이터 수집 후 가공을 통한 자율주행용 이미지 AI데이터 구축

피트니스 자세 이미지 AI데이터

슬릭코퍼레이션데이터연구소, 서울대학교 산학협력단, 위힐드

o 피트니스 자세 평가/피드백 AI Application을 개발하고자 하는 기관들이 사용할 AI데이터셋 및 관련 모델/응용서비스를 구축

K-Fashion 이미지 AI데이터

오피니언라이브웨얼리, 에이아이닷엠, 이화여자대학교 산학협력단, 한국패션산업연구원

o 구매 또는 직접 촬영하여 저작권 문제가 해결된 패션 이미지의 패션 요소 정보를 어노테이션한 이미지 100만장 이상 구축

한국인 재식별 이미지 AI데이터

한국과학기술연구원휴먼아이씨티, SQI소프트

o 대한민국의 실내/외 구축된 공공 CCTV 환경을 고려한 한국인(1,000) 재식별 데이터셋 구축

도로주행영상 AI데이터

티큐에스코리아지어소프트, 와토시스, 한국자동차연구원

o 70건 이상 실도로 주행 데이터 Use-Case 기반 175TB 상당의 자율주행 원천데이터 수집, 855천 프레임 구축

치매진단 뇌파영상 AI데이터

디노플러스엔브레인, 삼성서울병원

o 치매 및 난청 Active 영상·이미지 데이터(PACS) 및 임상전문의 진단정보 AI데이터 구축

감성 대화 말뭉치 AI데이터

미디어젠

o 우울증 등 심리 장애로 인한 사회문제 해결을 위해 감성대화 코퍼스 데이터 구축

위성영상 객체판독 이미지 AI데이터

한국항공우주연구원에스아이아이에스, 에스아이에이, 슈퍼브에이아이

o 국내 위성 영상 활용 산업의 발전을 위해 아리랑 위성영상을 이용한 범용 위성정보 데이터 구축

구강악 2D3D 이미지 AI데이터

헬스허브서울대학교 치과병원사회적 협동조합 굿임팩트

o 치아 및 치주질환 진단과 치료계획 수립을 위한 파노라마 영상과 CBCT (Cone Beam Computed Tomography) 영상 데이터 구축

 

※ AI허브(www.aihub.or.kr)에서 기존에 구축된 다양한 AI 학습용 데이터를 확인 및 이용할 수 있습니다.

 

AI허브 플랫폼

200622 조간 (보도) AI 학습용 데이터 구축 사업 과제 확정.hwp
0.34MB

'인공지능' 카테고리의 다른 글

인공지능 학습용 데이터 구축 사업 (2차) 공모  (0) 2020.07.14

+ Recent posts