AI 기반 모델 구축을 위한 5가지 팁
많은 기업들이 인공지능(AI)의 영향에 대해 이제 막 직면하고 있지만, 일부 기업들은 이미 10년 이상 기계학습(ML) 및 기타 신기술을 사용해왔습니다. 오르다네 서베이(Ordnance Survey, OS)의 최고기술책임자(CTO)인 마니시 제트와는 OS가 자사의 AI 및 ML 경험을 최근의 생성형 AI 발전과 결합하여 데이터를 정제, 배포, 적용하는 방법을 개선하려 노력하고 있다고 ZDNET에 설명했습니다. OS는 언어 모델(LLM)을 활용해 사용자가 지리 공간 데이터를 찾고 검색할 수 있도록 돕고 있습니다. 이 과정에서 핵심 역할을 하는 것이 AI를 위한 기초 모델입니다. 이러한 기초 모델은 특정 애플리케이션을 구축하기 위한 기반을 제공합니다. 제트와는 지표 모델이 환경 특징을 분석하는 데 어떻게 도움이 되는지를 설명하며, 이를 통해 저작권을 고려하면서도 효과적인 분석을 수행할 수 있다고 말했습니다. 1. 강력한 사용 사례 개발 제트와는 OS가 환경 특징을 추출하기 위해 기초 모델을 개발하고 있다고 밝혔습니다. "대형 기술 기업들이 훈련시키는 많은 모델들은 상용 데이터를 기반으로 하고 있습니다,"라고 그는 말했습니다. OS는 오랜 시간 동안 고정밀 데이터를 수집해온 경험이 있어, 이를 AI 발전에 활용하고 있습니다. "특징을 추출하려고 할 때, 우리는 내부적으로 가지고 있는 라벨링된 데이터로 기초 모델을 완전히 구축합니다,"라고 그는 덧붙였습니다. 이러한 기초 모델은 다른 분야의 데이터 분석에도 기반이 됩니다. "예를 들어 지붕 재료나 녹지 공간, 생물 다양성 등을 파악하려고 할 때, 같은 기초 모델을 이용해 세부 조정만 하면 됩니다,"라고 그는 말했습니다. "여러 기초 모델을 훈련시키는 대신, 마지막에 세부 조정만 하면 됩니다. 이렇게 하면 우리가 해결하려는 문제와 원천 데이터를 연결할 수 있습니다." 2. 목적성 있는 방법 설립 제트와는 기초 모델을 구축할 때 비용을 최소화하기 위해 집중적인 훈련이 중요하다고 강조했습니다. "훈련 시에는 목적성을 유지해야 합니다. 학습 과정에서 많은 사이클을 낭비할 수 있기 때문입니다,"라고 그는 설명했습니다. "모델 실행은 실제 훈련보다 훨씬 적은 에너지와 리소스를 필요로 합니다." OS는 일반적으로 모델에 데이터를 청크로 공급합니다. "라벨링된 데이터를 구축하는 데는 상당히 많은 시간이 필요합니다,"라고 그는 말했습니다. "전국적으로 다양한 클래스에서 데이터를 큐레이팅해야 하므로, 도시와 농촌 간의 비율이 다르게 혼합됩니다." OS는 먼저 몇백 개의 예제를 사용하는 작은 모델을 구축합니다. "이 접근 방식은 비용을 제약하고, 우리가 올바른 방향으로 나아가고 있음을 확인하는 데 도움이 됩니다,"라고 제트와는 말했습니다. "그런 다음 점진적으로 라벨링된 데이터 세트를 늘려갑니다. 현재 우리는 수십만 개의 라벨링된 예제를 기반으로 모델을 훈련시키고 있습니다. 일반적으로 이러한 모델은 수백만 개의 라벨링된 데이터셋으로 훈련됩니다." 3. 다른 LLM을 활용한 세부 조정 OS가 자체 기초 모델을 사용한다고 해서 잘 알려진 대형 언어 모델들을 무시하는 것은 아닙니다. "우리는 기존 모델을 기반으로 세부 조정을 하고 있습니다,"라고 제트와는 말했습니다. OS는 마이크로소프트의 Azure 기계학습 모델, Python 기반 도구, 기타 전문적인 기능을 포함한 상용 LLM의 전체 범위를 활용하고 있습니다. 또한, OS는 IBM 및 기타 기술 공급업체들과 파트너십을 탐색하여 데이터 주도형 도전 과제에 대한 협력적인 해결책을 생성하고 있습니다. "목적성을 유지하기 위한 노력입니다. 내부적으로는 천천히 데이터를 쌓아가는 방식을 통해 목표 달성을 가능하게 하면서, 무익한 활동으로 리소스를 낭비하지 않도록 합니다,"라고 그는 덧붙였습니다. 4. 상용화에 눈을 뜨다 OS가 기초 모델을 구축하고 개선하기 시작한 지금, 이러한 기술들이 다른 조직에 의해 사용되거나 판매될 수 있을까요? 제트와는 possibly라고 답했습니다. "나는 특정 시점에서 이러한 기초 모델을 공유할 기회가 있을 것이라고 생각합니다. 하지만 이 작업을 외부에서 수행할 경우 영향을 이해해야 하는 과제가 있습니다,"라고 그는 말했습니다. 이는 크라운 저작권(Crown copyright)이라는 영국 공공 부문 직원들이 창출한 자산에 적용되는 저작권 형태 때문입니다. "우리는 우리의 데이터를 가능한 한 보호하려고 노력하지만, 동시에 UK 국민들에게 최대한 가치를 제공하려고 합니다. 따라서 이 균형을 잡는 것이 도전입니다,"라고 그는 강조했습니다. 5. 미래를 바라보며 준비하기 제트와는 자사가 기초 모델을 활용한 작업이 생성형 AI의 혜택을 증명했다고 말했습니다. "이전에는 데이터에 접근하거나 요청을 정교하게 수정하는 방법이 약간 멀어보였지만, 이제는 그 접근성이 크게 개선되었습니다,"라고 그는 설명했습니다. OS의 AI 접근 방식은 앞으로 10년 동안 어떻게 발전할지 그는 다음과 같이 예상했습니다. "지도 인터페이스에서 '이 지역에 관심이 있어'라고 말하면, 사용자는 확대할 수 있고 AI는 '어떤 특정한 것을 찾고 계신가요?'라는 질문을 할 것입니다. '학교'라고 말하면 AI는 어떤 종류의 학교인지 물을 것이고, 사용자와 인터페이스를 통해 대화를 주고받을 수 있을 것입니다." 장기적인 성공의 열쇠는 API와 데이터를 사용하여 신뢰할 수 있는 출처에서 프롬프트에 대한 명확한 답변을 생성하는 것입니다. "AI 모델은 집계와 확률적인 관점을 제공하는데 매우 좋지만, 예를 들어 학교 위치를 확률적으로 알기보다는 실제로 어디에 있는지를 알고 싶을 것입니다. AI는 진정한 요청을 받아 신뢰할 수 있는 출처인 OS로 되돌아가 데이터를 추출하고 출력을 제공해야 합니다." 업계 인사들의 평가 및 회사 프로필 OS는 영국의 국가 지도 서비스로, 1791년 설립되어 200년 넘은 역사와 함께 고정밀 지리 공간 데이터를 수집하고 분석하는 선두주자입니다. 제트와의 접근 방식은 AI 기술의 효율적인 활용을 통한 비용 절감과 데이터의 안정적인 보호, 그리고 UK 국민들에게 실질적인 가치를 제공하는 데 초점을 맞추고 있습니다. 이러한 전략은 OS가 AI의 미래 발전에서 중요한 역할을 할 것으로 평가되고 있습니다. 특히, OS의 기초 모델 접근 방식은 다른 조직에서도 참고할 만한 가치가 있다는 것이 업계의 컨센서스입니다.