我国研发的全球首个多模态地理科学大模型“坤元”9月19日在京发布。“坤元”可实现地理专业问题解答、地理学文献智能分析、地理数据资源查询、地理数据挖掘分析、专题地图绘制等功能,有望赋能地理科学研究,加速重大地理科学发现。
“坤元”是专注于地理科学的专业语言大模型,由中国科学院地理科学与资源研究所、中国科学院青藏高原研究所、中国科学院自动化研究所等单位共同研发,具备“懂地理”“精配图”“知人心”“智生图”等特点。
据介绍,研发团队建立了涵盖4大类、16小类的地理全学科语料库,提供320亿词元供大模型自监督学习,并制作了4万余条高质量地理学指令进行模型微调。相比通用语言大模型,“坤元”更熟悉地理学的语言模式、专业术语和领域知识。
“坤元”可以根据生成的文字答案检索不同地理要素,并匹配地理景观照片、专题地图或示意图表呈现给提问者;可以根据用户指令完成概念理解、数据获取、信息分析等流程,最终生成用户需要的专业地理图表;还能充分考虑不同类型用户的地理知识结构和表达差异,给出适配不同用户的专业解答。
“‘坤元’有助于解放地理从业者的双手,赋能地理科学研究,加速重大地理科学发现,目前已支撑发表高水平学术论文10余篇。”中国科学院地理科学与资源研究所副所长苏奋振说。
据介绍,研发团队接下来将推进地图大模型及地理推理机研发,有望让地理科学语言大模型读懂地图;还将打造地理科研协作大平台,让科学家通过共享数据、模型、研究思路等方式协同工作。