当前位置:首页 > 外汇资讯 > 正文内容

阿里史上最大规模开源发布,超GPT-4o 、Llama-3.1!

激石外汇2024-09-19 12:01:02外汇资讯88

激石Pepperstone(http://www.paraat.net/)报道:

今天凌晨,阿里巴巴官宣了史上最大规模的开源发布,推出了基础模型Qwen2.5、专用于编码Qwen2.5-Coder和数学的Qwen2.5-Math。

这三大类模型一共有10多个版本,包括0.5B、1.5B、3B、7B、14B、32B和72B,适用于个人、企业以及移动端、PC等不同人群不同业务场景的模型。

如果不想进行繁琐的部署,阿里还开放了旗舰模型Qwen-Plus 和 Qwen-Turbo的API,帮助你快速开发或集成生成式AI功能。

开源地址:https://huggingface.co/collections/Qwen/qwen25-66e81a666513e518adb90d9e

Github:https://github.com/QwenLM/Qwen2.5?tab=readme-ov-file

在线demo:https://huggingface.co/spaces/Qwen/Qwen2.5

API地址:https://help.aliyun.com/zh/model-studio/developer-reference/what-is-qwen-llm

下面「AIGC开放社区」详细为大家介绍这些模型的性能特点以及测试结果。

Qwen2.5系列性能测试

本次阿里开源的最大版本指令微调模型Qwen2.5-72B在MMLU-Pro

MMLU-redux、GPQA、MATH、GSM8K、HumanEval、MBPP等全球知名基准测试平台的测试结果显示。

虽然Qwen2.5只有720亿参数,但在多个基准测试中击败了Meta拥有4050亿参数的最新开源Llama-3.1指令微调模型;全面超过了Mistral最新开源的Large-V2指令微调模型,成为目前最强大参数的开源模型之一。

即便是没有进行指令微调的基础模型,其性能同样超过Llama-3-405B。

阿里开放API的旗舰模型Qwen-Plus,其性能可以媲美闭源模型GPT4-o 和Claude-3.5-Sonnet。

此外,Qwen2.5系列首次引入了140 亿和320亿两种新参数模型,Qwen2.5-14B 和 Qwen2.5-32B。

指令微调模型的性能则超过了谷歌的Gemma2-27B、微软的Phi-3.5-MoE-Instruct,与闭源模型GPT-4o mini相比,只有三项测试略低其他基准测试全部超过

自阿里发布CodeQwen1.5 以来,吸引了大量用户通过该模型完成各种编程任务,包括调试、回答编程相关的问题以及提供代码建议。

本次发布的Qwen2.5-Coder-7B指令微调版本,在众多测试基准中,击败了那些知名且有较大参数的模型。

前不久阿里首次发布了数学模型Qwen2-Math,本次发布的Qwen2.5-Math 在更大规模的高质量数学数据上进行了预训练,包括由 Qwen2-Math 生成的合成数据。同时增加了对中文的支持,并通过CoT、PoT和 TIR的能力来加强其推理能力。

其中,Qwen2.5-Math-72B的整体性能超越了Qwen2-Math-72B指令微调和著名闭源模型GPT4-o。

其实从上面这些测试数据不难看出,即便是参数很小的模型,在质量数据和架构的帮助下,同样可以击败高参数模型,这在能耗和环境部署方面拥有相当大的优势。而阿里本次发布的Qwen2.5系列将小参数模型的性能发挥到了极致。

Qwen2.5系列简单介绍

Qwen2.5系列支持中文、英文、法文、西班牙文、葡萄牙文、德文、意大利文、俄文、日文等超过29种主流语言。与 Qwen2类似,Qwen2.5语言模型支持高达 128K tokens,并能生成最多 8K tokens的内容。

与Qwen-2相比,Qwen2.5系列的预训练数据大幅度增长达到了惊人的18万亿tokens,超过了Meta最新开源Llama-3.1的15万亿,成为目前训练数据最多的开源模型。

知识能力显著增强,Qwen2.5在 MMLU 基准测试中,与 Qwen2-7/72B 相比从70.3提高到74.2,从84.2提高到86.1 。Qwen2.5 在 GPQA/MMLU-Pro/MMLU-redux/ARC-c 基准测试上也有显着改进。

Qwen2.5能够生成更符合人类偏好的响应,与Qwen2-72B-Instruct相比,Qwen2.5-72B-Instruct的Arena-Hard分数从48.1显着提高到81.2 ,MT-Bench分数从9.12提高到9.35 。

数学能力获得增强,在融合了Qwen2-math的技术后,Qwen2.5的数学能力也得到了快速提升。在MATH基准上,Qwen2.5-7B/72B-Instruct的得分从Qwen2-7B/72B-Instruct的52.9/69.0提高到75.5/83.1。

此外,Qwen2.5在指令跟踪、生成长文本(从1k增加到超过8K标记)、理解结构化数据(例如表格)以及生成结构化输出(尤其是JSON)方面实现了显着改进。同时对系统提示的多样性更具弹性,增强了聊天机器人的角色扮演实施和条件设置。         

扫描二维码推送至手机访问。

版权声明:本文由激石Pepperstone发布,如需转载请注明出处。

本文链接:http://www.paraat.net/news/3614.html

分享给朋友:

“阿里史上最大规模开源发布,超GPT-4o 、Llama-3.1!” 的相关文章

港股继续反弹 科技股涨幅居前 阿里巴巴涨超4%

港股继续反弹 科技股涨幅居前 阿里巴巴涨超4%

激石Pepperstone(http://www.paraat.net/)报道:6月24日周五,隔夜美股收高,热门中概股多数收涨,今日港股高开,恒指开涨0.83%,恒生科技指数开涨1.47%。 随后,恒指涨幅扩大至超1%,恒生科技指数涨超2%。盘面上,科技股普涨,新能源汽车股涨跌互现,教育股持续走低...

又是这个国家!通胀高达191%,央行“暴力”加息到200%,还要发金币

又是这个国家!通胀高达191%,央行“暴力”加息到200%,还要发金币

激石Pepperstone(http://www.paraat.net/)报道:据央视正点财经报道,当地时间周一(6月28日),津巴布韦储备银行(央行)宣布将本国基准利率提升至创纪录的200%,同时津政府正式将美元重新引入作为法定货币,以平抑三位数的通胀以及稳定汇率。 图片来源:央视正点财经栏目...

“互换通”来啦!便利境外投资者参与境内人民币利率互换市场

激石Pepperstone(http://www.paraat.net/)报道:一、“互换通”指境内外投资者通过香港与内地基础设施机构连接,参与两个金融衍生品市场的机制安排。初期先开通“北向通”,即香港及其他国家和地区的境外投资者(以下简称境外投资者)经由香港与内地基础设施机构之间在交易、清算、结算...

“雪糕刺客”钟薛高:花最多的钱,吃最多的胶?

激石Pepperstone(http://www.paraat.net/)报道:“网红”从来都是一把双刃剑,捧的时候,把你抬得有多高,踩的时候,就把你骂得有多惨。 钟薛高不融化的话题持续发酵,一直把公司架在火上烤。 尽管,钟薛高添加卡拉胶等增稠剂符合国家标准,但在普遍存在“添加剂恐惧症”的背景之下,...

美国6月非农薪资增幅强劲,衰退预期可以歇歇了?

激石Pepperstone(http://www.paraat.net/)报道:美国劳工部周五发布的报告显示,6月非农就业增长小幅放缓,劳动参与率下降,但薪资大幅增长,凸显美国劳动力市场仍然保持强劲,消减了近期市场对经济衰退的一些担忧。 华尔街见闻此前文章提及,野村证券等华尔街机构早已指出,美国经济...

卡塔尔完成史上最大液化天然气项目股东招募,五大欧美巨头组团

卡塔尔完成史上最大液化天然气项目股东招募,五大欧美巨头组团

激石Pepperstone(http://www.paraat.net/)报道:卡塔尔国有能源公司(QatarEnergy)近日宣布,选择壳牌(Shell)成为其巨型北油气田东部项目的合作伙伴。至此,这一液化天然气行业史上最大规模单一项目的国际合作伙伴招募圆满落幕,五大欧美能源巨头组成的豪华阵容拿下...