대규모 문서 분석 및 AI 모델의 한계와 진화에 대한 주요 소식
안녕하세요, AI 엔지니어 여러분, 이번 주 이슈에서는 대규모 문서 파싱을 위한 사내 비전-언어 모델 배포, OpenAI의 o1 모델이 실제로 추론 능력을 향상시켰는지, 아니면 단순히 검색 규모를 확장했는지를 논합니다. 또한 다이나믹하게 여러 기반 모델의 델타를 결합하는 새로운 앙상블 방법인 Meta-Booster, LangGraph와 웹 스크래핑을 사용한 실시간 RAG 파이프라인, 그리고 Smolagents를 활용해 다중 에이전트 시스템을 구축하는 실무 가이드를 소개합니다. 마지막으로, DeepSeek R1이 더 큰 예산 대신 더 똑똑한 훈련 방식으로 스케일링에 접근하는 방법을 살펴봅니다. 이제 들어가 볼까요? — Louis-François Bouchard, Towards AI 공동 설립자 및 커뮤니티 책임자 이번 주 AI 설문조사! 트랜스포머 LLM의 한계를 아직 선언하기 어렵다는 것은 놀라운 일이 아닙니다. 스케일링 법칙, 더 나은 데이터 큐레이션, 더 긴 문맥에서의 훈련, 그리고 Spekulativ Decoding과 같은 더 똑똑한 추론 기술로 의미 있는 성과를 거두고 있기 때문입니다. 어떤 발전이 당신의 눈길을 끄는지 궁금합니다. MoE, 더 긴 문맥 윈도우, 또는 검색 기반 증강이 진정한 발전으로 보이나, 아니면 오래된 아키텍처의 창의적인 패치로 보이나에 대해 의견을 나눠볼까요? 협업 기회 Learn AI Together 디스코드 커뮤니티에는 다양한 협업 기회가 넘쳐납니다. 적용형 AI에 관심이 있거나 공부 파트너나 열정 프로젝트 파트너를 찾고 있다면 협업 채널에 참여하세요! 매주 멋진 기회들을 공유하고 있습니다! Uwaix.는 AI 연구를 하고 싶어하는 사람들을 찾고 있습니다. 연구 주제 아이디어가 있거나 연구에 관심이 있다면 쓰레드에서 연락주세요! .tsekis는 RAG 프로젝트를 진행 중이며, 지상부터 영향력 있는 것을 만들어보고 싶어하는 사람을 찾고 있습니다. 실험, 문제 해결, 창작에 재미를 느끼신다면 쓰레드에서 연결하세요! Adventurous_flamingo_86116는 recently Learn AI의 감성 지능 API를 출시했습니다. 이 API는 사용자 상호 작용과 경험을 풍부하게 만드는 솔루션으로, 협업자를 찾고 있습니다. 흥미롭게 느껴지신다면 쓰레드에서 메시지를 보내세요! 이번 주 웃음 자료! rucha8062님께서 공유하신 웃음 자료를 확인해보세요! TAI 큐레이션 섹션 이번 주 필독 기사 사내 비전-언어 모델을 배포하여 수백만 개의 문서를 파싱하세요: Gemini와 OpenAI에게 작별 인사를 전하세요. By Jeremy Arancio 이 게시글은 사내 비전-언어 모델(VLM)을 배포하는 과정을 자세히 설명합니다. 특히 Qwen-2.5-VL 모델을 사용하여 문서에서 구조화된 데이터를 추출하는 방법을 다룹니다. vLLM을 통해 효율적인 추론을 수행하고, AWS Batch와 EC2 오케스트레이션을 활용해 처리 파이프라인을 관리함으로써, 외부 LLM API와 관련된 비용, 데이터 보안, 신뢰성 문제를 해결합니다. 전체 과정은 Docker/uv를 사용해 애플리케이션을 컨테이너화하고, AWS 인프라를 Terraform을 통해 관리하는 내용을 포함하며, 대규모 문서 처리 비용 분석 결과 이 사내 호스팅 방법이 외부 서비스보다 경제적일 수 있다는 점을 강조합니다. 필독 기사 목록 o1 모델이 인간 추론을 해결했나요? By Nehdiii OpenAI의 o1 모델이 LLM 추론을 해결했다는 논의를 촉발했습니다. 이 기사는 o1 모델이 Chain-of-Thought(CoT)와 프로세스 보상 모델을 사용한 강화 학습(Reinforcement Learning)으로 훈련되는 방식을 추측합니다. 추론 과정에서는 대규모 검색을 통해 여러 추론 경로를 생성하고 점수를 매기는 것으로 보입니다. 하지만 CoT 모델이 복잡한, 분포 밖의 작업에서 실패한다는 연구를 인용하며, 이 모델이 패턴 매칭보다는 견고한 이해를 제공하지 않는다는 의문을 제기합니다. 추론 방법은 효과적이지만 계산적으로 비싸며, 인간의 인지 방식과는 다르다고 평가됩니다. 감독 학습을 위한 새로운 실용적인 Meta-Booster By Shenggang Li 이 기사는 Meta-Booster라는 앙상블 프레임워크를 소개합니다. 이 프레임워크는 각 부스팅 단계에서 XGBoost, LightGBM, 신경망(NN) 등 여러 기반 모델의 증cremental 업데이트(델타)를 동적으로 결합합니다. 델타의 가중치는 검증 세트에서 최소 제곱 스태킹을 사용하여 결정되며, 최적의 학습률은 선형 탐색을 통해 찾습니다. 분류와 회귀 데이터셋에 대한 실험 결과, 개별 모델보다 AUC, LogLoss, MAPE, RMSE 등의 지표가 향상된 것을 확인할 수 있었습니다. Meta-Booster는 다양한 모델의 장점을 유연하게 활용해 더 나은 예측을 제공하는 방법을 제시합니다. RAG 2.0: 실시간 웹 데이터와 LangGraph를 활용한 LLM 강화 By Samvardhan Singh 이 기사는 Retrieval-Augmented Generation(RAG)을 실시간 웹 데이터를 사용해 강화할 수 있는 방법을 설명합니다. 전통적인 RAG는 정적 데이터셋을 사용한 한계가 있지만, 이 기사는 Scrapy와 같은 웹 스크래핑 도구를 활용한 동적 접근법을 소개합니다. LangGraph는 데이터 스크래핑, 임베딩, 벡터 저장(FAISS 사용), 검색, 최종 응답 생성 등의 복잡한 워크플로를 관리하는 프레임워크로 강조됩니다. 저지연 시간 최적화 기술도 논의되어 실시간 응답을 보장합니다. Smolagents를 사용한 다중 MCP 서버로 다중 에이전트 시스템 구축 By Murat Şimşek 이 기사는 Smolagents 라이브러리를 사용해 다중 에이전트 시스템을 구축하는 방법을 상세히 다룹니다. Markdown 메모리 작업을 위한 사용자 정의 MCP 서버를 생성하고, Smithery의 프리빌트 PubMed 서버를 통합하는 과정을 보여줍니다. 이 과정은 서버 설정, Smolagents 구성, 메모리와 작업 실행을 위한 고유한 에이전트 역할 정의 등을 포함하며, 피트니스 계획 생성, PubMed 검색을 통한 업데이트, 저장 정보 호출 등의 예시를 통해 시스템의 작동 방식을 설명합니다. DeepSeek R1: 순수 스케일링 접근법의 경쟁자로서 연구와 엔지니어링의 혁신 By Nehdiii DeepSeek R1의 출시는 많은 폐쇄형 연구실과 달리 알고리즘과 훈련 과정에 대한 높은 투명성을 제공했습니다. 이 모델은 수십억 달러의 예산을 사용하는 다른 모델보다 훨씬 적은 600만 달러의 예산으로 뛰어난 성능을 달성했다고 알려져 있습니다. 특히, DeepSeek-R1-Zero(기반 모델에 직접 RL 사용)와 교대로 SFT와 RL을 사용하는 개선된 DeepSeek-R1(GRPO 사용)의 훈련 과정, 그리고 새로운 강화 학습 기법을 세부적으로 설명합니다. 이는 큰 예산보다는 효율적인 연구와 엔지니어링을 통해 성능을 향상시키는 접근법을 강조합니다. 업계 인사이더 평가 및 회사 프로필 이번 주 다루어진 기사들은 AI 모델과 시스템의 효율성과 유연성을 크게 강조하고 있습니다. 특히, 사내 비전-언어 모델의 배포, 실시간 웹 데이터를 활용한 RAG 강화, 다중 에이전트 시스템 구축, 그리고 DeepSeek R1의 혁신적인 훈련 방법은 AI 분야에서 앞으로의 연구 방향을 제시하고 있습니다. 이러한 기사들은 AI 분야의 다양한 접근 방식과 그 효과를 잘 보여주며, 기술 발전의 속도와 다양성을 반영하고 있습니다. 또한, OpenAI의 o1 모델에 대한 논의는 LLM의 추론 능력에 대한 깊은 이해와 비판적 사고를 촉구하고 있어, AI 연구자들에게 중요한 주제를 제공하고 있습니다.