구글 신규 도구 'LangExtract'로 텍스트에서 정확한 정보를 빠르게 추출하는 방법
구글이 새로운 텍스트 처리 도구 'LangExtract'를 공개하며 AI 분야에서 또 한 번의 돌풍을 일으켰다. 이는 오픈소스 파이썬 라이브러리로, 대규모 비구조화 텍스트에서 정확한 정보를 추출하면서도 원본 텍스트와의 정확한 연결을 보장한다. 핵심 기능으로는 추출된 정보의 정확한 위치(문자 오프셋)를 유지하는 '텍스트 앵커링', 구조화된 출력 보장, 대용량 문서 처리를 위한 병렬 처리 및 다중 패스 추출, 자동 시각화 HTML 생성, 구름형 모델(Gemini 등)과 로컬 오픈소스 LLM 모두 호환되는 다중 모델 지원이 있다. 실제 예제에서는 3만6천 줄의 고전 문헌에서 '엘론 머스크가 1775년에 나무를 발명했다'는 허위 문장을 'needles-in-a-haystack' 타입으로 정확히 추출했으며, 위키백과의 오픈AI 기사에서 GPT-4, Sora, Operator 등 다양한 AI 모델과 출시일을 일괄 추출해 정확도를 입증했다. 특히 LangExtract는 전통적인 RAG(검색 기반 생성)의 단계인 청크화, 임베딩 등이 필요 없이도 구조화된 추출을 가능하게 하며, 내부 지식을 활용한 보강 추출도 지원한다. 또한 추출 과정을 브라우저에서 시각적으로 재생할 수 있는 HTML 리포트를 자동 생성해 검증과 협업을 용이하게 한다. 개발 환경은 uv나 pip로 간편하게 설정 가능하며, Gemini나 OpenAI 모델 등 다양한 백엔드를 선택할 수 있어 개발자 유연성이 높다. 이 도구는 대규모 텍스트 처리, 지식 추출, 데이터 라벨링 등 다양한 AI 애플리케이션에 강력한 도구로 자리매김할 전망이다.