Qwen2.5模型适配
Qwen2.5模型适配
特性说明
orch服务增加对Qwen2.5模型的适配,适配后,通过配置,可用Qwen2.5模型进行chat对话,代码补全,提示词。
操作指引
新增模型类型 用途说明
-
completion_qwen_chat
用途:适用于提供对话能力的模型
适用模型:qwen2.5-14b、qwen2.5-72b-instruct、Qwen2.5_Coder_32B_Instruct
-
codecompletion_qwen_coder
用途:适用于提供代码补全能力的模型
适用模型:qwen2.5-14b、qwen2.5-72b-instruct、Qwen2.5_Coder_32B_Instruct
-
completion_qwen_completion
用途:适用于对完成模式提示词进行解释的模型
适用模型:qwen2.5-14b、qwen2.5-72b-instruct、Qwen2.5_Coder_32B_Instruct
配置模型适配器
-
新增模型适配器时的参数说明:
1.1 模型适配器参数说明
参数名称 |
示例数据 |
取值范围 |
说明 |
模型标识 |
Qwen2.5_72B_Chat_Saas |
任意字符串 |
模型唯一标识 |
模型名称 |
Qwen2.5 72B Saas |
任意字符串 |
模型对外展示的名称 |
模型关键字 |
Chat |
Chat/Completion |
标记模型是对话能力还是补全能力 |
模型版本 |
2.5 |
任意字符串 |
部署模型的版本 |
模型类型 |
completion_qwen_chat |
模型类型列表数据 |
参照 新增模型类型用途说明 |
状态 |
有效 |
有效/无效 |
模型是否可用 |
访问范围 |
公开 |
公开/部门 |
模型设置访问权限 |
模型参数 |
{“repetition_penalty”:1, “temperature”:0.2, “max_tokens”:800, “top_p”:0.95, “token_limit”:8192, “token_limit_safebuffer”:200} |
JSON格式 |
详见 1.2 模型参数说明,模型的默认参数配置。 |
配置项 |
{ “API_KEY”: “sk-123456”, “ServiceEndPoint”: “”, “ApiVersion”: “”, “deploymentName”:“qwen2.5-14b”} |
JSON格式 |
详见 1.3 配置项参数说明,模型的基本信息配置 |
1.2 模型参数说明
参数名称 |
默认取值 |
取值范围 |
说明 |
temperature |
0.2 |
[0, 2) |
用于控制模型回复的随机性和多样性。 |
max_tokens |
800 |
小于模型输出最大长度 |
指定模型可生成的最大token个数。 |
presence_penalty |
0 |
[-2.0, 2.0] |
用于控制模型生成时整个序列中的重复度。 |
top_p |
0.95 |
(0,1.0) |
生成过程中的核采样方法概率阈值。 |
token_limit |
10240 |
与模型相关 |
配置最大token数,一般与模型相关。 |
token_limit_safebuffer |
200 |
200 |
token最大安全缓冲区。 |
stop |
- |
- |
stop参数用于实现内容生成过程的精确控制,在模型生成的内容即将包含指定的字符串或token_id时自动停止。 |
1.3 配置项参数说明
参数名称 |
示例数据 |
说明 |
API_KEY |
sk-123456 |
apikey,用于访问接口的权限验证。 |
ServiceEndPoint |
https://ip:port/compatible-mode/v1/chat/completions |
模型请求地址 |
API_TYPE |
TGI |
N卡环境默认为VLLM,昇腾为TGI,不配置默认为VLLM。 |
ApiVersion |
- |
VLLM |
deploymentName |
qwen2.5-14b |
模型名称 |
-
新增对话模型。
需要在模型适配器中增加Qwen2.5_14B_Chat(N卡环境)/Qwen2.5_32B_Chat_TGI(昇腾环境)/Qwen2.5_72B_Chat_Saas(SaaS版)模型,并确保模型类型指定为:completion_qwen_chat
-
新增代码补全模型。
需要在模型适配器中增加Qwen2.5_14B_Coder(N卡)/Qwen2.5_32B_Coder_TGI(昇腾)模型,并确保模型类型指定为:codecompletion_qwen_coder
-
新增提示词推理模型。
需要在模型适配器中增加Qwen2.5_14B_Completion(N卡)/Qwen2.5_32B_Completion_TGI(昇腾)模型,并确保模型类型指定为:completion_qwen_completion
配置 全局配置-模型
-
配置全局配置-模型
点击系统管理/参数设置 菜单,找到全局配置-模型
-
chat对话配置Qwen2.5
点击修改,在 “chat_model_types”:配置内容增加"completion_qwen_chat" 。此时在对话时的对话模型选择时就可以选择Qwen2.5模型进行对话。
-
代码补全配置Qwen2.5
点击修改, “code_completion_model_types”:配置内容修改为"codecompletion_qwen_coder" 。此时使用SmartCode插件进行代码补全时,就会使用Qwen2.5来完成。
-
提示词配置Qwen2.5
- 点击修改, “task_method_completion_model_type”:配置内容修改为"completion_qwen_completion" 。此时使用完成模式的提示词时,就会使用Qwen2.5 模型来完成。
- 点击修改, “task_method_completion_model_type”:配置内容修改为"completion_qwen_completion" 。此时使用完成模式的提示词时,就会使用Qwen2.5模型来完成。