ACL 2024에 선정되었습니다! 저장대학교, 최초의 해양 언어 모델 OceanGPT 출시로 수중 체현 지능 실현

대규모 언어 모델(LLM)을 포함한 AI 도구는 점차 과학적 패러다임을 바꾸고 있습니다.Nature는 이를 2024년에 주목할 만한 과학적 사건 중 하나로 선정했습니다.텍스트 데이터 마이닝 분야의 핵심 도구로서,대규모 언어 모델은 엄청난 양의 텍스트 데이터에서 주요 과학적 정보, 패턴 및 추세를 추출할 수 있습니다.이를 통해 다양한 학문 분야에 대한 이해가 깊어지고, 과학적 연구 과정, 의사 결정, 복잡한 문제 해결에 대한 강력한 지원과 통찰력이 제공됩니다.
예를 들어,생물의학,Microsoft는 PubMed 데이터베이스에 있는 수백만 건의 관련 과학 논문을 바탕으로 BioGPT 언어 모델을 훈련시켰습니다. 이 모델은 전문 용어, 유전자 이름, 단백질 서열과 같은 복잡한 개념을 이해하는 데 효과적입니다. 비전문 모델과 비교했을 때,BioGPT는 생물학적 질문에 대한 답변을 빠르고 정확하게 생성할 수 있습니다.텍스트 마이닝, 실험 보고서 작성, 분자 설계, 문헌 검토 작성 등의 작업을 완료합니다.
비슷하게,해양과학 분야에서는대규모 언어 모델을 사용하여 엄청난 양의 해양 과학 텍스트 데이터를 분석하고 해양 특성, 변화하는 패턴, 자원 개발 및 활용과 관련된 이론과 방법을 이해하는 것은 지구 기후 조절, 기상 패턴 형성, 생물 다양성 유지, 인류의 미래 경제 발전에 매우 중요합니다.
그러나 다차원, 다규모의 해양 데이터는 규모가 매우 크고 유형이 다양하기 때문에 기존 데이터 처리 방법으로는 처리하기 어렵습니다. 동시에 해양 과학은 여러 분야와 학문을 포괄하며, 각 분야는 고유한 데이터 속성과 패턴을 가지고 있어 LLM에서는 보다 풍부한 전문 지식을 갖추어야 합니다.그러나 현재 주류를 이루는 LLM은 여전히 해양학자의 특정 요구를 충족시키지 못하고 있습니다.
이와 관련하여,저장대학교 컴퓨터과학기술학원의 장닝위와 천화준이 이끄는 팀은 해양 분야에서 최초의 대규모 언어 모델인 OceanGPT를 제안했습니다.이 모델은 다양한 해양 과학 과제에 뛰어난 성과를 보이며, 해양학자의 지시에 따른 질문에 답할 수 있습니다. OceanGPT는 해양학 벤치마크 OCEANBENCH의 평가를 통해 해양 과학 업무에 대한 높은 지식 전문성을 입증했을 뿐만 아니라, 해양 공학 분야에서의 사전 구현된 정보 역량도 확보했습니다.
OceanGPT 프로젝트 주소:
또한 해양 데이터 획득의 어려움을 완화하기 위해,연구진은 또한 다중 에이전트 협업을 기반으로 하는 해양 과학 교육 생성 프레임워크인 DoInstruct를 제안했습니다.이들 중 각 에이전트는 특정 분야(예: 과학 및 연구, 자원 및 개발, 생태 및 환경 등)의 전문가로 간주되며 해당 분야에서 데이터를 생성하는 역할을 담당합니다.
이 연구의 제목은 "OceanGPT: 해양 과학 과제를 위한 대규모 언어 모델"입니다.최근 자연어 처리 분야의 최고 학회인 ACL 2024(CCF-A 학회)의 주요 학회 논문으로 채택되었습니다.
연구 하이라이트:
* 기존의 오픈소스 대규모 언어 모델과 비교했을 때, 해양 분야를 위한 대규모 언어 모델인 OceanGPT는 더욱 전문적인 해양 작업을 처리할 수 있습니다.
* 해양 과학 교육 생성 프레임워크 DoInstruct는 매우 유연하며 다양한 과학 분야(예: 천문학)에 최적화 및 적용될 수 있습니다.

서류 주소:
https://arxiv.org/abs/2310.02031
오픈소스 프로젝트인 "awesome-ai4s"는 100개가 넘는 AI4S 논문 해석을 모아 방대한 데이터 세트와 도구를 제공합니다.
https://github.com/hyperai/awesome-ai4s
데이터 세트: 67,633개의 해양 과학 논문을 기반으로 한 고품질 데이터
연구진은 최근 몇 년간 해양 과학 분야에서 67,633건의 논문을 수집하여 원본 코퍼스로 사용했습니다.또한 우리는 LLM이 해양 분야 발전의 역사를 이해하는 데 도움이 되는 역사적으로 중요한 문서를 몇 가지 선정했습니다. 다양성을 보장하기 위해 기사는 다양한 출처에서 나왔으며, 다양한 연구 관점과 방법을 다루고 있습니다.
데이터 품질과 일관성을 보장하려면연구자들은 정규 표현식을 사용하여 그래픽, 표, 머리글, 바닥글, 페이지 번호, URL 및 참조를 필터링했습니다. 불필요한 공백, 줄 바꿈 및 기타 텍스트가 아닌 문자를 제거합니다. 특수 문자, 이모티콘, 깨진 문자를 바꾸거나 삭제합니다. 처리된 문서에는 해양 물리학, 해양 화학, 해양 생물학, 지질학, 수문학 등 해양 과학의 다양한 분야가 포함됩니다.
그 다음에,연구원들은 해시 알고리즘을 사용하여 데이터 중복을 제거했습니다.이를 통해 모델 사전 학습 중 과잉적합 위험을 줄이고 일반화 능력을 향상시킬 수 있습니다.
해양과학 자료는 여러 분야와 주제로 구성되어 있으므로 각 주제마다 고유한 데이터 특성과 패턴이 있습니다. 이러한 데이터를 효과적으로 시뮬레이션하고 얻기 위해서는연구자들은 DoInstruct라는 도메인 명령어 생성 프레임워크를 제안했습니다.
*해양 주제: 해양학자의 전문 지식을 바탕으로 해양 과학 데이터는 과학 및 연구, 자원 및 개발, 생태 및 환경, 기술 및 공학, 생명, 문화 및 기타라는 5가지 비교적 독립적인 해양 주제로 수동으로 구분됩니다.
고품질/전문성/다양성을 갖춘 DoInstruct는 해양 교육 데이터를 생성할 수 있습니다.
도메인 명령어 생성 프레임워크인 DoInstruct는 다중 에이전트 협업을 기반으로 하며, 해양 데이터 생성을 효과적으로 실현할 수 있습니다.

위 그림에서 보듯이 DoInstruct 프레임워크에서는연구자들은 세 가지 에이전트 역할을 설계했습니다.생성기로서의 진화하는 에이전트, 문헌 추출기 및 검사기로서의 미세 조정된 에이전트. 각 에이전트는 특정 분야(주제)의 전문가로 간주되며 해당 데이터를 생성할 책임이 있습니다.
발전기로서의 진화하는 에이전트
시드 데이터 세트를 구축하기 위해 연구진은 해양 과학에 대한 풍부한 배경 지식을 가진 수십 명의 주석자를 고용했습니다. 각 주석자는 여러 주제를 담당했으며 각 해양 주제에 대한 대표적인 예를 직접 작성했습니다.
그런 다음 연구자들은 대규모 언어 모델을 사용하여 기존 데이터를 모방하고 많은 수의 유사한 샘플을 생성했으며, 모든 샘플은 주석 작성자가 수동으로 확인했습니다. 최종 시드 지침 데이터 세트에는 5개의 주요 범주, 500개 이상의 하위 범주 및 10,000개 이상의 데이터 샘플이 포함됩니다.

연구진은 시드 지시 데이터 세트를 얻은 후, 여기에서 샘플을 선택하고 Agent(gpt-3.5-turbo)를 호출하여 선택된 샘플을 진화시켰습니다.
왼쪽 그림에서 보듯이, 구체적으로는 종자 샘플에 대한 배경 지식을 보완하고 확장하고, 종자 데이터에 포함된 지식 포인트에 대한 정교한 분석, 강화 및 개선을 여러 차례의 반복을 통해 진행함으로써 연구자는 기존 종자 데이터 세트를 빠르게 확장하고 정보의 폭과 깊이를 확장할 수 있습니다.
문헌 추출기로서의 Fine-Tuned Agent

연구자들은 전문가가 주석을 단 코퍼스를 수집하고 BM25 알고리즘을 사용하여 더 큰 Ocean Corpus에서 고품질 문장을 검색한 후, 두 가지 모두 고품질 후보 샘플로 간주했습니다. 동시에 연구진은 시드 명령 데이터 세트를 사용하여 gpt-3.5-turbo를 미세 조정했으며 미세 조정된 에이전트를 방대한 해양 자료에서 고품질 텍스트를 추출할 수 있는 문서 추출기로 간주했습니다.
데이터 품질을 보장하기 위한 감사 에이전트: 규칙 제약 조건을 갖춘 검사자 역할의 에이전트

생성된 명령어의 수가 많을 경우, 연구자들은 문법, 의미론, 해양 분야의 기본 정의 등을 규칙 제약 조건으로 사용하고, 프롬프트를 통해 에이전트를 구축하고, 생성된 해양 명령어 데이터의 품질을 높이기 위해 데이터를 필터링했습니다.
데이터 품질을 더욱 보장하기 위해 연구진은 생성된 지침 데이터 세트에서 10% 샘플을 무작위로 선택하고 훈련된 도메인 전문가 자원봉사자들에게 이 샘플에 잠재적인 오류가 있는지 확인해 달라고 요청했습니다. 최종 데이터의 IAA(주석자 간 일치도) 점수는 0.82로 연구 목적을 충족했습니다.
아래 그림과 같이,DoInstruct 프레임워크는 여러 에이전트를 사용하여 해양 과학 데이터 세트를 빠르게 구축할 수 있으며 150,000개 이상의 명령어(데이터 진화, 데이터 추출)로 확장할 수 있습니다. 더불어 데이터의 전문성과 정확성도 보장됩니다.

아래 그림에서 보듯이, 연구자들은 DoInstruct의 데이터 생성 효과를 지식 품질, 전문성, 다양성의 관점에서 측정했습니다.

진화하는 생성기 에이전트가 해양 데이터의 풍부함을 효과적으로 향상시킬 수 있음을 알 수 있습니다. 추출 에이전트는 콘텐츠의 전문성을 향상시킬 수 있고, 검사 에이전트는 생성된 데이터의 품질을 향상시킬 수 있습니다. 요약하자면, 해양 지휘권 생성에는 다중 에이전트 협업이 효과적입니다.
LLaMA-2를 기반으로 OceanGPT는 해양 작업에서 더 나은 성능을 발휘합니다.
연구진은 지침 데이터를 얻은 후 6개의 Nvidia A800 GPU를 사용하여 LLaMA-2를 기반으로 7일 동안 OceanGPT를 사전 훈련했습니다.

연구진은 사전 학습된 모델 OceanGPT를 얻은 후 LoRA 방법을 사용하여 모델을 미세 조정했습니다. 연구진은 대규모 언어 모델 OceanGPT의 해양학 작업 역량을 평가하기 위해 OceanGPT와 비교하기 위해 LLaMA-2(Llama-2-7b-chat-hf), Vicuna-1.5, ChatGLM2-6B의 세 가지 모델을 선택했습니다.
비교를 하기 전에 연구자들은 OCEANBENCH라는 벤치마크 테스트를 설계했습니다. 아래 그림과 같이 벤치마크에는 분석, 판단 등 해양 관련 업무 15개가 포함되어 있습니다.

아래 그림에서 볼 수 있듯이, 연구자들은 해양 분야의 15개 하위 작업에 대해 작업 수준에서 OceanGPT의 성능을 3개의 기준 모델과 비교했습니다.결과에 따르면 OceanGPT는 자동 평가와 인간 평가 모두에서 다른 모델보다 더 나은 성능을 보였습니다.

위 그림에서 보듯이 연구진은 OCEANBENCH 해양과학임무에서 OceanGPT 모델의 평가 결과를 보여주었고,OceanGPT는 대부분의 작업에서 다른 기준 언어 모델보다 우수한 성능을 보입니다.

핵 오염부터 수중 로봇까지, 해양 분야에서 OceanGPT의 이중 승리
연구자들은 OceanGPT의 해양 분야 적용 가능성을 입증하기 위해 해양 과학과 해양 공학의 관점에서 OceanGPT를 테스트했습니다.
방사성핵종 연구를 위한 새로운 도구: OceanGPT는 더 나은 전문 지식 심도를 제공합니다.
해양 과학 분야에서 연구진은 해양 환경의 핵 오염에 초점을 맞추었고 이 임무에서 OceanGPT와 Vicuna-7b-1.5의 성능을 비교했습니다.

위 그림에서 보듯이 OceanGPT는 방사성핵종 연구 내용을 설명할 때 더 높은 수준의 지식을 보여주었습니다. 이 책은 구조가 명확하고 잘 구성되어 있을 뿐만 아니라 실험 설계, 데이터 분석, 위험 평가, 취급 지침 등 방사성 핵종 연구의 모든 측면을 다루고 있습니다.
이와 대조적으로, 비쿠냐-7b-1.5는 명확하게 표현되고 논리적이기는 하지만, 방사성 핵종과 관련된 더 깊고 구체적인 내용이 부족합니다.
요약하자면, OceanGPT는 지식 전문성, 품질, 풍부함 측면에서 장점이 있습니다.
지능형 해양 엔지니어링: OceanGPT, 수중 로봇의 정밀 제어 달성
해양 공학은 해상 작업의 지속 가능성과 안전성에 매우 중요합니다. OceanGPT가 외부 세계와 상호 작용할 수 있도록 연구진은 로봇 코드 데이터를 합성하고 이러한 기계 코드 명령을 훈련 데이터에 통합하여 코드나 콘솔 명령을 통해 모델의 기능을 평가했습니다.

위 그림에서 볼 수 있듯이 OceanGPT는 코드나 콘솔 명령을 통해 수중 로봇에 지침을 내려 수중 로봇이 인간의 지시에 따라 복잡한 작업을 수행할 수 있도록 합니다. 이는 OceanGPT가 예비적인 구현된 지능 역량을 획득했음을 보여주며, 고급 해양 모델이 복잡한 로봇 제어 및 계획 작업을 수행할 수 있는 길을 열어줍니다.
OceanGPT가 다시 "진화"하고 해양 과학이 지능 시대를 열었습니다.
저장대학의 장닝위, 천화준 교수가 이끄는 연구팀은 비진, 쉐이다, 오우이신, 지다슝, 정궈저우 등을 포함하여 해양 분야에서 최초의 대규모 언어 모델인 OceanGPT를 성공적으로 구축했습니다. 이는 해양 분야의 지능적 프로세스에서 중요한 단계를 의미합니다.OceanGPT는 해양 분야에서 중요한 이정표가 되었습니다.
하지만 OceanGPT의 개발은 거기서 끝나지 않았습니다. 연구의 심화와 기술의 향상으로OceanGPT는 새로운 라운드의 최적화 및 업그레이드를 시작했습니다.
저장대학교 지식엔진연구실 ZJUKG의 최근 보고서에 따르면, 논문의 첫 번째 저자인 비 전(Bi Zhen)은 OceanGPT에서 일련의 주요 진전을 발표했습니다.
* 먼저, OceanGPT-14B와 OceanGPT-2B의 두 가지 새로운 버전을 공식 출시합니다.
* 둘째, 중국어와 영어의 효율적인 상호작용을 실현하기 위해 Qwen2 중국어 기반 OceanGPT를 추가하였습니다.
* 동시에, 팀은 해양 과학 연구자들에게 귀중한 리소스 지원을 제공하기 위해 20K 규모의 해양 모델 교육 데이터 세트인 OceanInstruct를 오픈 소스로 공개했습니다.
OceanInstruct 데이터 세트 다운로드 주소:
* 마지막으로, OceanGPT-V의 멀티모달 버전이 출시되었습니다. 이 버전은 소나 데이터 및 과학적 이미지와 같은 멀티모달 해양 정보의 처리를 지원할 뿐만 아니라 OceanGPT-V의 온라인 데모를 제공하여 해양 과학 탐사에 대한 새로운 관점과 가능성을 열어줍니다. 이 모델은 곧 오픈 소스로 공개될 예정이라고 합니다.
업데이트 후 모델 성능의 변화를 분석하기 위해,연구진은 OceanGPT-14B를 예로 들어, 아래 그림과 같이 "동중국해 해저 케이블 건설 계획을 작성해 주십시오"라는 중국어 질문을 던졌습니다.

연구 결과에 따르면 OceanGPT에서 생성된 콘텐츠는 더 풍부하고, 더 많은 수준을 포괄하며, 해양 과학 지식을 이해하고 생성하는 능력이 더 뛰어납니다.
동시에, OceanGPT의 영어 생성 기능을 검증하기 위해 연구진은 아래 그림과 같이 "동중국해의 해저 지형과 지형적 특징을 설명해 주십시오"라는 영어 입력을 제공했습니다.

연구 결과에 따르면 OceanGPT에서 생성된 설명은 세부성, 포괄성, 전문성 및 지역 구분 측면에서 비교적 우수하며, 해저 지형과 지형에 대한 보다 정확하고 심층적인 정보를 제공할 수 있습니다.
또한 비진은 아래 그림과 같이 OceanGPT의 개발 계획도 제시했습니다.

2024년 8월~12월 사이로 예상되며,OceanGPT-V+의 이중 언어 및 다중 모드 버전이 출시될 예정입니다.그들은 대규모 코퍼스를 기반으로 더 큰 모델(예: 30B 및 70B)을 사용하여 OceanGPT를 계속 훈련하고, 새로운 데이터와 새로운 작업을 추가하여 OceanGPT를 유지 관리하여 해양 과학의 더 알려지지 않은 세계를 탐험할 것입니다.
OceanGPT가 더 많은 놀라움과 획기적인 발견을 선보이며 해양 과학 연구의 새로운 장을 열기를 기대합니다!
참고문헌:
https://blog.csdn.net/gitblog_00055/article/details/138176998
https://mp.weixin.qq.com/s/TZuVvZfr1DsRGUXsxc3cGQ
행동 촉구
HyperAI(hyper.ai)는 데이터 과학 분야에서 중국 최대의 검색 엔진입니다. 이 회사는 오랫동안 AI for Science의 최신 연구 결과에 집중해 왔으며, 최고 저널에 실린 100편 이상의 학술 논문을 해석해 왔습니다.
과학을 위한 AI에 대한 연구와 탐구를 진행하는 연구 그룹과 팀은 최신 연구 결과를 공유하고, 심층적인 해석 논문을 기고하고, Meet AI4S 라이브 방송 칼럼에 참여하기 위해 저희에게 연락해 주시기 바랍니다. AI4S를 홍보할 수 있는 더 많은 방법을 함께 탐색해 보세요!