起于小站,终于生活。
现实之外,一个普通人的思考。

博客地址:ygxz.in
讨论组:https://t.me/+a5Clq4jLuJc4YWQ9
一个小站的自留地
通义千问 Qwen2 系列模型开源 中国时间 6 月 7 日 0 点,通义千问宣布 Qwen2 系列模型开源,包括 0.5B、1.5B、7B、57B-A14B (使用 Apache 2.0 协议)和 72B (使用 Qianwen License 协议)等多个版本。 技术参数方面,Qwen2 系列模型在各个尺寸都使用了 GQA (Generalized Query Attention),并且除了中英文外,还使用了其他 27 种语言的训练数据。具体上下文处理能力如下: · 72B 和 7B 版本可处理…
阿里通义发布 Qwen2.5 系列开源大模型

2024 年 9 月 19 日,阿里巴巴通义实验室正式发布了全新的 Qwen2.5 大模型系列,标志着全球开源大模型领域的又一次重大突破。据量子位报道,Qwen2.5 凭借其强大的性能和创新特性,在多个任务上超越了 Meta 的 Llama3-405B,成为目前开源大模型中的佼佼者。

本次发布的基础模型包括:
• Qwen2.5:0.5B、1.5B、3B、7B、14B、32B 和 72B
• Qwen2.5-Coder:1.5B、7B 和 32B(即将推出)
• Qwen2.5-Math:1.5B、7B 和 72B

Qwen2.5 系列不仅在参数灵活性上有所突破,还在多个任务上展现出卓越表现。据量子位报道,Qwen2.5-32B 的性能已经超过了上一代的 Qwen2-72B,而 Qwen2.5-14B 则胜过了 Qwen2-57B-A14B。

此外,本次发布的多个模型支持最大 128K 的上下文长度,这使得它们在长文本生成和结构化数据处理(如表格理解与生成 JSON 输出)等任务中具备显著优势。
一个小站的自留地
DeepSeek 旗下最新旗舰模型 DeepSeek-V2.5-0905 宣布开源。这一模型有望成为最强开源模型的有力竞争者。 DeepSeek-V2.5 (236B) 现已开源到了 HuggingFace:https://huggingface.co/deepseek-ai/DeepSeek-V2.5 DeepSeek-V2.5 不仅保留了原有 Chat 模型的通用对话能力和 Coder 模型的强大代码处理能力,还更好地对齐了人类偏好。 此外,DeepSeek-V2.5 在写作任务、指令跟随等多个…
DeepSeek-V2.5 领跑国内大模型:刷新多项国产记录

DeepSeek-AI 团队于 9 月初发布并开源了全新模型 DeepSeek-V2.5,近日在 LMSYS 组织的全球大模型竞技场(ChatBotArena)中表现出色,刷新了国产模型的多项历史纪录。

在最新公布的 ChatBotArena 排名中,DeepSeek-V2.5 位列国内大模型第一,成功超越 Yi-Large-Preview、Qwen-Plus-0828 和 GLM-4-0520 等国内最强闭源模型,并在 8 个单项能力上均领跑国内模型。这一成绩标志着 DeepSeek-V2.5 成为目前国内开源模型中的佼佼者。

在 ChatBotArena 的分项排名中,DeepSeek-V2.5 在多个维度上取得了国产模型历史最佳成绩:

- 难问题(Hard Prompt):世界第二(国内历史最佳)
- 代码(Code):世界第二(国内历史最佳)
- 数学(Math):世界第三(国内历史最佳)

DeepSeek
#停机维护 #计划

接上游服务商通知,一个小站的亚洲区域后端服务器将于 10月4日-6日 进行设备维护,期间可能造成某时段长达4-8小时的间歇停机。

一个小站的博客将在此期间不可用。
一个小站的API商店在此期间将不可用。
一个小站的公益服务、网盘分发等服务将维持正常运行。

本站仍未得到服务商关于此次维护的确切时间窗口。
#Update #OpenAI

OpenAI 现已提高了 o1-preview 和 o1-mini 在 ChatGPT 订阅中的配额:

- o1-preview:每周 50 次
- o1-mini:每日 50 次

API 调用频率也相应提升:

- o1-preview:100 RPM
- o1-mini:250 RPM

但 API 仍然限制到 Tier 5。
Back to Top