一个小站的自留地
通义千问 Qwen2 系列模型开源 中国时间 6 月 7 日 0 点,通义千问宣布 Qwen2 系列模型开源,包括 0.5B、1.5B、7B、57B-A14B (使用 Apache 2.0 协议)和 72B (使用 Qianwen License 协议)等多个版本。 技术参数方面,Qwen2 系列模型在各个尺寸都使用了 GQA (Generalized Query Attention),并且除了中英文外,还使用了其他 27 种语言的训练数据。具体上下文处理能力如下: · 72B 和 7B 版本可处理…
阿里通义发布 Qwen2.5 系列开源大模型

2024 年 9 月 19 日,阿里巴巴通义实验室正式发布了全新的 Qwen2.5 大模型系列,标志着全球开源大模型领域的又一次重大突破。据量子位报道,Qwen2.5 凭借其强大的性能和创新特性,在多个任务上超越了 Meta 的 Llama3-405B,成为目前开源大模型中的佼佼者。

本次发布的基础模型包括:
• Qwen2.5:0.5B、1.5B、3B、7B、14B、32B 和 72B
• Qwen2.5-Coder:1.5B、7B 和 32B(即将推出)
• Qwen2.5-Math:1.5B、7B 和 72B

Qwen2.5 系列不仅在参数灵活性上有所突破,还在多个任务上展现出卓越表现。据量子位报道,Qwen2.5-32B 的性能已经超过了上一代的 Qwen2-72B,而 Qwen2.5-14B 则胜过了 Qwen2-57B-A14B。

此外,本次发布的多个模型支持最大 128K 的上下文长度,这使得它们在长文本生成和结构化数据处理(如表格理解与生成 JSON 输出)等任务中具备显著优势。
 
 
Back to Top