分类:行业百科
2025-06-24 17:23:11
16
1. 小参数碾压大模型
2. 专精推理能力
支持32K长上下文输入,采用分组查询注意力机制(GQA)和旋转位置编码技术
三阶段渐进式训练工程,累计处理25T tokens数据,特别强化数学与代码领域的推理模式
目前该系列模型已全部开源,包含基础版、数学强化版等4个变体,开发者可通过Hugging Face获取。
Copyright Your agent-dapaihang.Some Rights Reserved.求知大排行网备案号: 津ICP备2023000475号-9