□ 과기부, 인공지능(AI) 개발에 필수적인 양질의 데이터를 대규모로 구축 및 개방하는 'AI 학습용 데이터 구축 사업'에 20개 과제 최종 확정 (6.22)
□ 정부에서는 2017년부터 텍스트, 이미지, 영상 분야의 인공지능 서비스 개발을 위한 학습용 데이터 셋 21종, 4,650만건을 구축하고 있으며, AI허브(www.aihub.or.kr)를 통해 공개 중
□ 2020년은 총 390억 규모로 총 20개 과제 선정 (10개 지정공모, 10개 자유공모)
□ 선정된 분야를 살펴보면, 국가적, 산업적으로 필요성이 시급한 자연어 처리분야, 자율주행기술 분야, 융합 분야와 국민편의 향상을 위한 헬스케어 분야, 딥페이크 방지 기술 분야, 장애인의삶을 향상 시킬 수 있는 분야 등이 선정되었음
□ 그리고, 과기부는 2020년 추경예산을 통해 AI 학습용 데이터 확대 구축을 대규모로 확대 및 구축하여 데이터 댐에 모으고, 다양한 AI 기술연구, 상용화 서비스 개발에 활용할 수 있도록 추진 예정이라고 함
<2020년 AI 학습용 데이터 구축 과제 선정 결과>
□ 지정과제 (10개)
과제명 |
주관/참여기관 |
주요 내용 |
대용량 동영상 콘텐츠 |
KDX 한국데이터거래소, 씨이랩, 매경닷컴, 에버영피플, 서울대학교 산학협력단, 씨드롭, 상상우리, 에스이앤티, 베어버터, 디앤디클라우드 |
o 대용량 동영상 내 객체 탐지, 상황 이해, 행동 분석을 위한 대용량 동영상 AI 데이터 구축 |
자율주행드론 비행 영상 |
울산대학교 산학협력단, 경북대학교 산학협력단, 서홍테크, 에이테크, 엠엠피, 휴먼드론개발, 유시스, 단트넷, 울산정보산업진흥원 |
o 관광지, 도심지, 산림지 4K, 25FPS 360시간 및 LiDAR 영상데이터 20시간 구축o 별도 품질 관리 지표 및 방안 마련하여 데이터 품질 관리 실시 |
시각정보 기반 질의응답 |
유클리드소프트, 한국원자력연구원, 국립공주대학교, 터치스톤 |
o 생활 이미지와 이미지에 대한 질문을 입력받아 질문에 대한 답을 생성하는 AI데이터 구축(이미지 135만장, 한국어 질의응답 750만쌍) |
수어 영상 |
테스트웍스, 이큐포올, 한국농아인협회, 카이스트, 나사렛대학교 |
o 청각 및 언어장애를 가진 사람들이 사용하는 수어를 영상 기반으로 인식하여 의사를 전달할 수 있도록 AI 기술 및 응용서비스 개발에 필요한 수어 영상 학습 데이터 구축 |
한국인 대화음성 |
솔루게이트, 타임소프트, 코난테크놀로지 |
o 한국인의 일상 대화를 인식하고 음성을 문자로 실시간 변환하는 AI 기술 개발을 위한 대화 음성 데이터셋 구축 |
딥페이크 방지영상 |
머니브레인, 크라우드웍스, 서울대학교 |
o GAN(적대적 생성 신경망) 기반의 다양한 변형 알고리즘을 통해 생성된 변조 영상을 탐지하는 AI기술 개발에 필요한 원본 및 변조 영상 데이터 구축 및 응용서비스 개발 |
랜드마크 이미지 |
피씨엔, 크라우드웍스, 데이콘 |
o 인공지능 기반의 시각지능 기술 및 서비스 개발에 활용하기 위한 국내 특성이 반영된 국내 도심 민간건물, 공공기관, 관광명소, 편의시설 등 국내 도시별 주요 랜드마크 이미지 데이터 구축 |
사람 인체자세 3D |
스위트케이, 서울대학교, 한국디자인진흥원, 모션테크놀로지 |
o 2D인체 영상을 3D모델로 변환할 때, 자세(pose)와 형태(shape)를 추론하여 커머스, 스포츠 및 AR·VR 서비스를 개발하기 위한 2D-3D 인체 데이터셋 구축 |
문서요약 텍스트 |
비플라이소프트, 위고, 테스트웍스, 고려대학교, 에이아이닷엠 |
o AI가 텍스트를 이해하고 핵심 내용을 요약적으로 전달하기 위해 AI SW가 해당 텍스트의 주요 내용이 무엇인지를 이해할 수 있는 형태로 가공된, 다양한 유형의 대규모 요약 텍스트 데이터 구축 |
전문분야 한영 말뭉치 |
플리토, 솔트룩스파트너스, 에버트란 |
o 한영 병렬 번역 말뭉치 155만건 구축o 대법원 판례(인공지능 판례 번역), 의료/보건(코로나19 등 pandemic 관련 공문) 등 전문분야별 한영 말뭉치 구축 |
□ 자유과제 (10개)
과제명 |
주관/참여기관 |
주요 내용 |
질병진단(암조직, 부비동) 이미지 AI데이터 |
국립암센터, 건양대학교병원, 인피니트헬스케어, 딥노이드, 마인즈앤컴퍼니, 유비즈정보기술, 오엠인터랙티브, 딥네츄럴, 네이버비즈니스플랫폼 |
o 유방암 및 부비동 질환의 진단을 위한 의료 영상 이미지 AI데이터 구축 |
도로환경 파노라마 이미지 AI데이터 |
올포랜드, 스티리스, 지디에스컨설팅그룹, 에스이앤티, 가천대학교 산학협력단 |
o 영상데이터 수집 후 가공을 통한 자율주행용 이미지 AI데이터 구축 |
피트니스 자세 이미지 AI데이터 |
슬릭코퍼레이션, 데이터연구소, 서울대학교 산학협력단, 위힐드 |
o 피트니스 자세 평가/피드백 AI Application을 개발하고자 하는 기관들이 사용할 AI데이터셋 및 관련 모델/응용서비스를 구축 |
K-Fashion 이미지 AI데이터 |
오피니언라이브, 웨얼리, 에이아이닷엠, 이화여자대학교 산학협력단, 한국패션산업연구원 |
o 구매 또는 직접 촬영하여 저작권 문제가 해결된 패션 이미지의 패션 요소 정보를 어노테이션한 이미지 100만장 이상 구축 |
한국인 재식별 이미지 AI데이터 |
한국과학기술연구원, 휴먼아이씨티, SQI소프트 |
o 대한민국의 실내/외 구축된 공공 CCTV 환경을 고려한 한국인(1,000명) 재식별 데이터셋 구축 |
도로주행영상 AI데이터 |
티큐에스코리아, 지어소프트, 와토시스, 한국자동차연구원 |
o 70건 이상 실도로 주행 데이터 Use-Case 기반 총 175TB 상당의 자율주행 원천데이터 수집, 총 85만 5천 프레임 구축 |
치매진단 뇌파영상 AI데이터 |
디노플러스, 엔브레인, 삼성서울병원 |
o 치매 및 난청 Active 영상·이미지 데이터(PACS) 및 임상전문의 진단정보 AI데이터 구축 |
감성 대화 말뭉치 AI데이터 |
미디어젠 |
o 우울증 등 심리 장애로 인한 사회문제 해결을 위해 감성대화 코퍼스 데이터 구축 |
위성영상 객체판독 이미지 AI데이터 |
한국항공우주연구원, 에스아이아이에스, 에스아이에이, 슈퍼브에이아이 |
o 국내 위성 영상 활용 산업의 발전을 위해 아리랑 위성영상을 이용한 범용 위성정보 데이터 구축 |
구강악 2D‧3D 이미지 AI데이터 |
헬스허브, 서울대학교 치과병원, 사회적 협동조합 굿임팩트 |
o 치아 및 치주질환 진단과 치료계획 수립을 위한 파노라마 영상과 CBCT (Cone Beam Computed Tomography) 영상 데이터 구축 |
※ AI허브(www.aihub.or.kr)에서 기존에 구축된 다양한 AI 학습용 데이터를 확인 및 이용할 수 있습니다.
'인공지능' 카테고리의 다른 글
인공지능 학습용 데이터 구축 사업 (2차) 공모 (0) | 2020.07.14 |
---|