加入收藏 | 设为首页 | 会员中心 | 我要投稿 驾考网 (https://www.jiakaowang.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 动态 > 正文

阿里云发布了改进后的通义千问 2.0 ,以此来提高与 GPT - 4 的性能竞争

发布时间:2023-11-02 09:58:57 所属栏目:动态 来源:
导读:阿里云首席技术官周靖人在2023年杭州云栖大会中推出了一份全新的项目——名为大模型通用百科全书的千亿级别版本 2.0 。根据来自十个专业评估的数据显示,通义千问 2.0 在整体表现上超过了 GPT -3.5 ,并且
阿里云首席技术官周靖人在2023年杭州云栖大会中推出了一份全新的项目——名为大模型通用百科全书的千亿级别版本 2.0 。根据来自十个专业评估的数据显示,通义千问 2.0 在整体表现上超过了 GPT -3.5 ,并且正迅速逼近 GPT - 4 。

在MMLU、C-Eval、GSM8K、HumanEval、MATH等10个主流Benchmark测评集上,通义千问2.0的得分整体超越Meta的Llama-2-70B,相比OpenAI的Chat-3.5是九胜一负,相比GPT-4则是四胜六负,与GPT-4的差距进一步缩小。

据悉,过去6个月,通义千问2.0在性能上取得巨大飞跃,相比4月发布的1.0版本,通义千问2.0在复杂指令理解、文学创作、通用数学、知识记忆、幻觉抵御等能力上均有显著提升。目前,通义千问的综合性能已经超过GPT-3.5,加速追赶GPT-4。

在数学推理、代码理解等领域,通义千问2.0进步明显。在推理基准测试GSM8K中,通义千问排名第二,展示了强大的计算和逻辑推理能力;在HumanEval测试中,通义千问得分紧跟GPT-4和GPT-3.5,该测试主要衡量大模型理解和执行代码片段的能力,这一能力是大模型应用于编程辅助、自动代码修复等场景的基础。测试结果显示,在gpt-4和gpt-3.5中,有超过80%的代码片段可以执行,而在gpt-4中,只有不到20%的代码片段可以执行。这意味着,如果你想要获得一个好的开发环境,你需要花费大量的时间和精力去学习,而不是直接购买一个好的开发工具。

(编辑:驾考网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章