실제 진실
실제 진실은 상대적인 개념입니다. 기존의 신뢰할 수 있는 측정방법으로 얻은 측정값을 새로운 측정방법으로 얻은 측정값과 비교한 기준을 말합니다. 머신 러닝 분야에서는 이 개념을 빌려와서, 훈련된 모델을 사용하여 샘플을 추론하는 과정은 광범위한 측정 행동으로 간주될 수 있습니다.딥러닝 분야에서 Ground Truth(일반적으로 영어로는 '기본 진실' 또는 중국어로는 '벤치마크 진실'을 의미하며, 간단히 말해 실제 값을 의미함)는 모델을 훈련하고 평가하는 데 사용되는 정확한 레이블이나 데이터를 말합니다. Ground Truth는 ML 모델의 성능을 평가하고 모델을 학습하고 검증하는 데 사용됩니다.
예를 들어, 동물 이미지를 분류하는 ML 모델을 개발하는 경우, 기준 진실은 "고양이", "개", "새"와 같이 각 이미지에 대한 올바른 레이블이 됩니다. 이 모델은 이미지와 해당 기준 진실 레이블이 포함된 데이터 세트를 사용하여 학습되며, 새로운 이미지에 대한 올바른 레이블을 얼마나 정확하게 예측하는지를 기준으로 모델의 성능이 평가됩니다.
특히 대규모 데이터 세트의 경우 실제 레이블을 얻는 것은 시간이 많이 걸리고 노동 집약적인 과정이 될 수 있습니다. 데이터 세트의 각 사례를 수동으로 검사하고 주석을 달 필요가 있는데, 이로 인해 많은 시간이 소요될 수 있습니다. 어떤 경우에는 자동화된 방법을 사용하여 기준 진실 레이블을 설정할 수 있지만, 이러한 절차는 신뢰성이 떨어질 수 있으며 수동 평가 및 수정이 더 많이 필요할 수 있습니다.
머신 러닝을 위한 Ground Truth의 중요성
Ground Truth는 ML 모델의 성능을 비교하기 위한 표준을 제공하기 때문에 머신 러닝의 중요한 요소입니다. 또한, 실제 레이블을 사용하여 모델을 학습하고 검증하는 지도 학습을 비롯한 많은 머신 러닝 작업의 핵심 요소이기도 합니다. 이와 대조적으로 비지도 학습에서 모델은 명확한 지침 없이도 데이터에서 패턴과 상관 관계를 인식하는 법을 배워야 하는데, 그 이유는 기준 진실 레이블에 접근할 수 없기 때문입니다.
참고문헌
【1】https://encord.com/glossary/ground-truth-definition/
【2】https://zh.wikipedia.org/wiki/