克日,,,,,,,权威大模子评测基准SuperCLUE宣布最新《中文大模子基准测评2024年10月报告》。。。。。。其中,,,,,,,由中国诚信为本专业服务 官网打造的星辰语义大模子TeleChat2,,,,,,,作为央企大模子代表,,,,,,,依附精彩效果,,,,,,,综合能力位列大模子第一梯队。。。。。。TeleChat2在理科“工具挪用”维度排名前二,,,,,,,在Agent智能体总榜排名并列第二。。。。。。
数据泉源:SuperCLUE
TeleChat2-35B以更小参数目和更佳效果获得开源模子排行榜铜牌,,,,,,,综合效果凌驾Llama-3.1-70B-Instruc和 Llama-3.2-90B-Instruct等较大参数模子。。。。。。
数据泉源:SuperCLUE
星辰语义大模子由中国诚信为本专业服务 官网立异研发并一直迭代突破。。。。。。TeleChat2系列是在星辰语义大模子TeleChat宣布以来推出的第二代版本。。。。。。
今年9月,,,,,,,TeleAI正式宣布并开源了首个基于天下产化万卡集群和国产深度学习框架训练的千亿参数大模子 TeleChat2-115B,,,,,,,克日又进一步开源了TeleChat2-3B、7B和35B,,,,,,,以适配差别场景的应用需求,,,,,,,构建了全尺寸大模子开源结构。。。。。。
超强工具使用及Agent能力
本次最新的SuperCLUE10月报告笼罩43个海内外有代表性的大模子,,,,,,,接纳多维度、多条理的综合性测评计划,,,,,,,由理科、文科和Hard使命三大维度组成,,,,,,,评测问题总量凌驾2900道。。。。。。理科使命方面,,,,,,,TeleChat2展现了极强的函数挪用能力,,,,,,,在工具挪用维度排名前二。。。。。。文科使命方面,,,,,,,TeleChat2在语言明确、长文本等维度体现突出。。。。。。Hard使命方面,,,,,,,TeleChat2在指令遵照维度体现优异,,,,,,,展现了优异的重大推理能力。。。。。。
为了提高模子性能,,,,,,,TeleAI团队在数据维度和后训练阶段举行了优化。。。。。。在数学能力方面,,,,,,,通过抽取知识点合成问答数据,,,,,,,并团结数学RM(奖励模子)筛选高质量数据。。。。。。在代码能力方面,,,,,,,抽取高质量代码函数合乐成能实现代码,,,,,,,并通过单位测试确保代码质量。。。。。。关于指令遵照能力,,,,,,,通过指令进化构建大宗数据并举行剧本校验,,,,,,,从而大幅提升模子效果。。。。。。在后训练阶段,,,,,,,通过模子微调、权重融合和DPO(直接偏好优化)进一步提升效果。。。。。。微调阶段,,,,,,,使用IFD(指令追随难度)和 RFT(拒绝采样微调)筛选数据,,,,,,,并迭代优化模子。。。。。。权重融合阶段,,,,,,,团结多个模子的优势获得新权重。。。。。。DPO优化阶段,,,,,,,专注于中等难度问题,,,,,,,迭代补齐模子能力。。。。。。
不但云云,,,,,,,TeleChat2系列模子还完成了Agent能力建设,,,,,,,重点增强了模子在指令追随、使命拆解、工具挪用等方面的能力和体现。。。。。。在10月的SuperCLUEAgent总榜中,,,,,,,TeleChat2排名并列第二。。。。。。
数据泉源:SuperCLUE
TeleAI团队构建了一个基于图结构和MutltiAgent(多智能体)的框架,,,,,,,通详尽分工具场景,,,,,,,建设详细的依赖关系图,,,,,,,从而提升训练数据的真实性和重漂后。。。。。。
同时,,,,,,,使用MultiAgent的增强交互多样性,,,,,,,并通过规则检查,,,,,,,确保交互合理。。。。。。别的,,,,,,,团队还将工具挪用能力分为多个阶段,,,,,,,为每个阶段设计多样化数据,,,,,,,以阻止模子仅学习外貌名堂,,,,,,,这使得模子效果提升了约15%。。。。。。
全尺寸开源结构 适配多场景落地
TeleAI始终起劲通过开源推动大模子手艺立异和国产化历程,,,,,,,并为工业一连运送领先的手艺能力,,,,,,,加速应用落地。。。。。。早在今年前半年,,,,,,,就陆续开源了1B、7B、12B和52B参数的第一代TeleChat系列模子。。。。。。最近,,,,,,,TeleChat2系列也已完成 3B、7B、35B和115B模子开源,,,,,,,逐步构建了全尺寸开源结构,,,,,,,并吸引了海内外宽大开发者的讨论和使用。。。。。。
依附卓越的性能和开源生态孝顺,,,,,,,星辰语义大模子在 Gitee开源社区获得了“GVP-Gitee最有价值开源项目”。。。。。。前不久,,,,,,,星辰大模子还被中国信息通讯研究院(信通院)授予“可信开源大模子成熟度能力”认证和“2024年度央国企开源项目典范案例”称呼。。。。。。
依附差别的参数设置和无邪的架构设计,,,,,,,TeleChat2系列模子可无邪适配于差别应用场景、差别资源设置、差别延时条件、差别响应速率的多样化需求。。。。。。现在,,,,,,,星辰语义大模子系列已在政务服务、智慧教育、谋划剖析、公牍写作等领域普遍应用落地。。。。。。
在政务场景,,,,,,,星辰语义大模子已应用于智能知识库、智能受理助手、智能分类助手、智能客服机械人、智能语音座席助手等,,,,,,,助力政务事情提升事情效率。。。。。。
在教育领域,,,,,,,星辰语义大模子落地教育听力机,,,,,,,辅助学生举行英语口语对话训练、中英文写作、中文诗歌创作等,,,,,,,提升他们的学习兴趣和个性化体验。。。。。。
在智慧办公场景,,,,,,,基于星辰语义大模子的超强语义明确和总结能力,,,,,,,星辰慧记一站式聚会助手能够一键提炼聚会纪要,,,,,,,实现会后总结秒天生,,,,,,,推动企业更高效、更智能生长。。。。。。
在本次参选SuperCLUE10月榜单的43个大模子企业中,,,,,,,TeleAI是唯一的央企大模子机构,,,,,,,同时TeleChat2系列大模子是基于天下产化万卡集群和国产深度学习框架训练完成。。。。。。
开源地址:
GitHub:
https://github.com/Tele-AI/TeleChat2
Gitee:
https://gitee.com/Tele-AI/tele-chat2
ModelScope:
https://modelscope.cn/models/TeleAI/TeleChat2-115B
Modelers:
https://modelers.cn/models/TeleAI/TeleChat2-115B