기술개요
본 기술은 소스코드의 구조 정보를 활용하여 자연어 요약문을 생성하는 인공지는 기반의 코드 요약 장치 및 방법 임
기술 구현 내용
1) 입력
- 소스코드 (JAVA, C 등)
- 해당 코드의 프로그램 의존 그래프 (PDG)
2) 구성 요소
- 제1 인코더: 토큰 임베딩 → 토큰 수준 잠재 표현 학습
- 제2 인코더: PDG 기반 구조 학습 → 구문 수준 잠재 표현 학습
- 디코더: 두 인코더 출력값을 통합하여 자연어 요약 생성
3) 모델 특성
- 트랜스포머 기반 구조
- PDG 내 간선 정보에 어텐션(attention) 적용
- 학습 데이터셋: (소스코드 + PDG + 정답 요약문) 기반 supervised learning
시장성
1. AI 지원 테스트 시장 규모
글로벌 AI 지원 테스트 시장 규모는 2025년 10억 1,000만 달러에서 2032년 38억 2,000만 달러까지 연평균 20.9% 성장할 것으로 전망됨
2. 주요 성장 요인
- 전세계 개발자 수 증가 및 개발 복잡성 증대
- AI 도구(Copilot, CodeWhisperer 등) 확산에 따른 코드 요약·해석 수요 급증
- 기업 내 코드 문서화 자동화 수요 (특히 레거시 코드 및 협업용 문서)
- 프로그래밍 교육 및 튜토리얼 자동화를 위한 활용
- 오픈소스 코드 자동 이해 및 리팩토링 지원 수요
기술의 차별성
1) 기존 기술의 한계
- 대부분의 기존 코드 요약 기술은 시퀀스 기반(Seq2Seq) 접근 → 구조 정보 반영 부족
- 추상 구문 트리(AST)는 긴 코드에 대해 그래프 복잡도 증가 및 성능 저하 문제
2) 본 발명의 특장점
- 프로그램 의존 그래프(PDG)를 기반으로 코드의 구조 정보까지 학습
- 토큰 수준(제1 인코더)과 구문 수준(제2 인코더)을 병렬·통합 학습
3) 차별화 포인트
- PDG 기반 그래프 어텐션 적용 → 코드 의미와 구조를 동시 반영
- 트랜스포머와 그래프 신경망의 하이브리드 구조
- JAVA, C 등 다언어 지원 가능성 내포