Qwen2.5 编程者：最优秀的编程 LLM

免费替代GPT-4o用于编程

就在上个月，阿里巴巴发布了泉2.5版供一般用途，确实击败了一些主要竞争者。现在，专门的编码版本，泉2.5 编码师也发布了，并且大获成功！

如前所述，它已经在一些编码基准测试中击败了一些主要参与者，其中最好的部分是GPT-4o。

它是开源的，因此可以免费使用。

特点

型号变种：QWEN2.5编码器系列包括具有0.5B、1.5B、3B、7B、14B和即将推出的32B参数的型号。重点是主要集中在7B变种上，该变种已经经过指令调整，以提高编码任务的性能。
训练数据：这些模型已在一个庞大的数据集上进行了预训练，其中包含超过5.5万亿令牌。该数据集包括多样化的源代码，文本代码对齐数据以及生成的合成数据，以改善模型的健壮性和多功能性。
体系结构：QWEN2.5 编码器采用了一个经过增强的变压器体系结构，配备了多种先进技术：

RoPE（旋转位置嵌入）：提高模型理解令牌位置的能力。

SwiGLU激活函数：结合了ReLU和GLU激活函数的优点，以获取更好的性能。

RMSNorm：一种帮助稳定训练的归一化技术。

注意机制：利用自定义的注意机制，具有独立的查询和键/值头部，以改进上下文处理。

性能改进

QWEN2.5编码器在多个方面相比CodeQwen1.5显示出显著的改进：

代码生成：增强功能，可生成符合语法规则和上下文相关的代码片段，支持多种编程语言。
代码推理：提高了理解和推理代码逻辑的能力，使其对复杂编码任务更加有效。
代码修复：更擅长识别和纠正现有代码中的错误。

基准测试

正如前面提到的，它在各种主要基准测试中击败了GPT-4o（并非全部）。但是鉴于它是免费提供的，它具有重大优势。

辅助基准：QWEN2.5-Coder-32B 在辅助基准测试中得分为73.7，与GPT-4o的表现相当，表明在代码修复任务中与该模型不相上下。
Livebench 编程类别：在各种编程评估中，QWEN2.5 已被注意到在特定编程任务中优于 GPT-4o，展示了其在生成和推理代码方面的实力。
MdEval 基准测试：QWEN2.5-Coder-32B 得分为 75.2，高于 GPT-4o 在代码修复任务中的表现。
McEval基准测试：QWEN2.5编码器取得了65.9分的成绩，展示了在多种编程语言中表现出色，特别是在Haskell和Racket等语言中。
Livebench编码类别：QWEN2.5在这个类别内的特定编码任务中被注意到比GPT-4o的表现更好。
代码生成基准测试：QWEN2.5-Coder-32B-Instruct模型在各种编码基准测试中取得了最先进的性能，表明其具有与GPT-4o直接竞争的全面能力。

如何使用 Qwen2.5 编码器？

许多方式

拥抱面

查看7B变体的模型详情。下面的代码片段应该可以工作（您可能需要一个HuggingFace Read令牌）。

# Load model directly
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-Coder-7B")
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2.5-Coder-7B")