Sim2Real domain gap: 합성 데이터가 실데이터를 대체하지 못하는 이유 | Ridgeline Synthetic
시뮬레이션 합성 데이터가 실환경에서 무너지는 핵심 원인은 'domain gap'입니다. Sim2Real 격차가 어디서 생기고, 무작정 데이터를 늘리는 대신 무엇을 진단해야 하는지 정리합니다.
합성 데이터는 매력적입니다. 라벨링 비용 없이, 위험하거나 희귀한 상황까지 무한히 생성할 수 있으니까요. 그런데 막상 시뮬레이션에서 만든 데이터로 학습한 모델을 실환경에 올리면 성능이 기대만큼 나오지 않는 경우가 많습니다. 원인은 대부분 하나로 모입니다 — Sim2Real domain gap.
domain gap이란 무엇인가
domain gap은 학습에 쓴 데이터의 분포와 실제 추론 대상이 되는 데이터의 분포 사이의 차이입니다. 시뮬레이션 이미지와 실제 카메라 이미지는 사람 눈에는 비슷해 보여도, 픽셀 통계·텍스처 분산·조명 응답·센서 노이즈 수준에서 서로 다른 분포를 가집니다. 모델은 사람이 아니라 이 분포를 학습하기 때문에, 분포가 어긋나면 실환경에서 일반화에 실패합니다.
흔한 오해는 “데이터를 더 많이, 더 다양하게 만들면 해결된다”는 것입니다. Domain Randomization(조명·재질·카메라 각도·occlusion을 무작위로 변화)은 분명 유용하지만, 무엇이 부족한지 모른 채 무작위로 늘리는 것은 종종 엉뚱한 축의 다양성만 키우고 정작 문제가 되는 축은 그대로 둡니다.
실제 사례 — 균일한 합성 지면이 만든 오학습
건설 중장비 작업영역 인식(semantic segmentation) 프로젝트에서 이 문제를 정량적으로 마주한 적이 있습니다. 실데이터를 1%만 보유한 cold-start 환경에서 합성 데이터로 부족분을 보강하려 했는데, 단순 무작위 합성에는 한 가지 함정이 있었습니다.

시뮬레이션의 Soil(지면) 텍스처는 픽셀 표준편차가 약 20으로 너무 균일했습니다. 반면 실환경 Soil은 약 34로 분산이 훨씬 컸습니다. 모델은 이 차이를 학습해 “낮은 분산 = Soil, 높은 분산 = Dump(흙더미)“라는 잘못된 휴리스틱을 만들었고, 그 결과 실환경에서 자연스럽게 분산이 큰 Soil 영역을 Dump로 오인식하는 false positive가 폭증했습니다.
핵심은, 이 문제가 “데이터 양”이나 “장면 다양성”으로는 풀리지 않았다는 점입니다. 어느 클래스의, 어떤 시각 특성이, 얼마나 어긋났는지를 먼저 진단해야 했습니다.
진단 먼저, 생성은 그 다음
저희가 일관되게 적용하는 작업 순서는 “많이 만들기”가 아니라 “무엇이 부족한지 정확히 알기”입니다.
- 의뢰자 도메인에 맞는 클래스 의미 체계 설계
- 모델이 실패하기 쉬운 hard scenario 식별
- data leakage를 차단하는 sequence-disjoint validation 설계
- 클래스별 domain gap 정량 진단 (Wasserstein 거리·픽셀 통계)
- 진단 결과에 맞춘 class-specific 합성 데이터 설계
- 식별한 갭이 실제로 해소됐는지 정량 검증
위 사례에서는 진단 결과를 바탕으로 Soil 클래스에만 한정한 style transfer(Soil-selective FDA)를 설계했고, Soil의 domain gap을 Wasserstein 기준 −58% 줄이면서 rare class인 Dump IoU를 +11.14pp, 안전 핵심 클래스인 Human Recall을 +6.27pp 개선했습니다. 전체 mIoU도 +3.96% 함께 올라 Pareto PASS를 만족했습니다.
자세한 진단·해소 과정과 backbone-agnostic 검증은 굴착기 Sim2Real 케이스 스터디에서 다룹니다.
정직하게 — 합성 데이터의 한계
같은 사례에서 정직하게 남는 한계도 있었습니다. Dump 클래스의 domain gap은 이 방법으로 해소되지 않았고(후속 과제), 실데이터 비율이 5% 이상으로 충분해지면 오히려 합성 데이터의 잔여 갭이 noise로 작용했습니다. 즉 이 접근은 극심한 cold-start(<5%)에서 가장 효과적이며, 합성 데이터가 실데이터를 100% 대체하지는 못합니다. 실데이터 일부와의 혼합 학습이 항상 전제입니다.
정리
Sim2Real domain gap은 합성 데이터의 본질적 약점이 아니라, 측정하고 좁힐 수 있는 대상입니다. 무작위로 양을 늘리기 전에 어느 클래스의 어떤 분포가 얼마나 어긋났는지 진단하면, 같은 생성 예산으로 훨씬 큰 실환경 적용 가능성을 얻을 수 있습니다.
도메인별 domain gap 진단부터 함께 검토하고 싶다면 문의로 연락 주세요.