기술개요
본 기술은 사전 학습된 클래스뿐만 아니라 학습되지 않은 클래스에 대해서도 시맨틱 분할이 가능한 '제로샷 시맨틱 분할' 기술임
기술 구현 내용
▶ 구성 요소:
1) 비주얼 인코더 (CNN 기반)
- 이미지의 픽셀 단위 특징(채널 벡터)을 추출
2) 시맨틱 인코더 (FC 기반)
- 텍스트 기반 클래스 벡터 → 프로토타입 벡터로 변환
3) 시맨틱 분할부
- 각 픽셀 채널 벡터와 가장 유사한 프로토타입 벡터로 클래스 결정
▶ 학습 구조:
- 프로토타입 손실: 비주얼 인코더와 시맨틱 인코더가 출력하는 벡터의 중간값과 유사성을 학습
- 크로스 엔트로피 손실: 같은 클래스는 가까이, 다른 클래스는 멀어지도록 임베딩 공간 조정
- 시맨틱 손실: 입력된 클래스 간 거리와 출력 벡터 간 거리의 유사성 유지
시장성
1) 시맨틱 이미지 분할 서비스 시장
글로벌 시맨틱 이미지 분할 서비스 시장은 2023년 1억 4,000만 달러에서 2030년 5억 5,000만 달러까지 연평균 34.5% 성장할 것으로 전망됨
2) 시장 성장 요인
- 데이터 수집의 한계 극복: 픽셀 수준 레이블링 없이도 정확한 분할 가능
- 오픈월드 AI 수요 증가: 예측 불가한 환경에서도 동작 가능한 인식 기술 필요
- 자동화·자율 시스템 확산: 자율주행, 로봇, 산업 안전 분야에서 즉각적인 클래스 인식 수요 확대
- 클래스 증가에 따른 유지보수 비용 절감 효과: 분류기 재학습 필요 없음
기술의 차별성
(1) 기존 기술의 한계:
- 기존 제로샷 시맨틱 분할은 생성 기반 방식이 대부분으로, 다단계 구조와 높은 편향 문제(미학습 클래스가 학습된 클래스로 분류됨) 존재
- 새로운 클래스 등장 시 분류기 재학습 필요
(2) 본 발명의 특장점:
- 판별 기반 제로샷 분할을 통해 편향 문제 감소
- 분류기 재학습 없이도 미학습 클래스 대응 가능
- 프로토타입 손실 + 시맨틱 손실 + 크로스 엔트로피 손실을 통한 정밀한 분할 가능
(3) 차별화 포인트:
- 공통 임베딩 공간에서 비주얼·시맨틱 벡터 통합 학습
- 상용 데이터베이스 기반 클래스 특징 벡터 사용 가능 (Wikipedia 등) → 일반화 가능성 높음
- 경계 영역의 연속성을 보장하는 제2 시맨틱 분할맵 학습 기법 제안