Qwen2.5 编程者:最优秀的编程 LLM
免费替代GPT-4o用于编程
就在上个月,阿里巴巴发布了泉2.5版供一般用途,确实击败了一些主要竞争者。现在,专门的编码版本,泉2.5 编码师也发布了,并且大获成功!
如前所述,它已经在一些编码基准测试中击败了一些主要参与者,其中最好的部分是GPT-4o。
它是开源的,因此可以免费使用。
特点
- 型号变种:QWEN2.5编码器系列包括具有0.5B、1.5B、3B、7B、14B和即将推出的32B参数的型号。重点是主要集中在7B变种上,该变种已经经过指令调整,以提高编码任务的性能。
- 训练数据:这些模型已在一个庞大的数据集上进行了预训练,其中包含超过5.5万亿令牌。该数据集包括多样化的源代码,文本代码对齐数据以及生成的合成数据,以改善模型的健壮性和多功能性。
- 体系结构:QWEN2.5 编码器采用了一个经过增强的变压器体系结构,配备了多种先进技术:
RoPE(旋转位置嵌入):提高模型理解令牌位置的能力。
SwiGLU激活函数:结合了ReLU和GLU激活函数的优点,以获取更好的性能。
RMSNorm:一种帮助稳定训练的归一化技术。
注意机制:利用自定义的注意机制,具有独立的查询和键/值头部,以改进上下文处理。
性能改进
QWEN2.5编码器在多个方面相比CodeQwen1.5显示出显著的改进:
- 代码生成:增强功能,可生成符合语法规则和上下文相关的代码片段,支持多种编程语言。
- 代码推理:提高了理解和推理代码逻辑的能力,使其对复杂编码任务更加有效。
- 代码修复:更擅长识别和纠正现有代码中的错误。
基准测试
正如前面提到的,它在各种主要基准测试中击败了GPT-4o(并非全部)。但是鉴于它是免费提供的,它具有重大优势。
- 辅助基准:QWEN2.5-Coder-32B 在辅助基准测试中得分为73.7,与GPT-4o的表现相当,表明在代码修复任务中与该模型不相上下。
- Livebench 编程类别:在各种编程评估中,QWEN2.5 已被注意到在特定编程任务中优于 GPT-4o,展示了其在生成和推理代码方面的实力。
- MdEval 基准测试:QWEN2.5-Coder-32B 得分为 75.2,高于 GPT-4o 在代码修复任务中的表现。
- McEval基准测试:QWEN2.5编码器取得了65.9分的成绩,展示了在多种编程语言中表现出色,特别是在Haskell和Racket等语言中。
- Livebench编码类别:QWEN2.5在这个类别内的特定编码任务中被注意到比GPT-4o的表现更好。
- 代码生成基准测试:QWEN2.5-Coder-32B-Instruct模型在各种编码基准测试中取得了最先进的性能,表明其具有与GPT-4o直接竞争的全面能力。
如何使用 Qwen2.5 编码器?
许多方式
拥抱面
查看7B变体的模型详情。下面的代码片段应该可以工作(您可能需要一个HuggingFace Read令牌)。
# Load model directly
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-Coder-7B")
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2.5-Coder-7B")
奥拉玛
不带任何代码的本地使用,Ollama是最佳选择,该模型可供使用。
下载Ollama
运行
ollama run ollama run qwen2.5-coder
拥抱面部空间
HuggingFace Spaces也有一个UI托管,您可以直接进入并尝试模型。
总的来说,Qwen2.5 Coder标志着编码重点的大型语言模型领域迈出了重要的一步。凭借其出色的性能、开源可访问性和先进的架构改进,它将自己定位为针对其他领先模型(如GPT-4o)的强劲竞争对手。
无论您是想生成代码、理解复杂的编程问题,还是调试现有代码,Qwen2.5 Coder都提供了一个多功能且强大的工具集——完全免费使用。假设您是一名开发者或人工智能爱好者。在这种情况下,这个模型一定值得探索,而且它在Hugging Face和Ollama等平台上可用,更容易集成到您的项目中。