模型的推理和运用

本文共计 3158 个字,预计阅读时长 11 分钟

在近期的技术更新中,我们针对大模型聊天逻辑进行了重要优化。此前,由于采用了模拟流处理,导致系统在响应过程中出现明显卡顿。为了解决这一问题,我们已将系统架构切换为真实流处理,这一变更显著提升了处理速度,性能提升超过一倍,极大改善了用户体验。

具体就是 禁用 PHP 输出缓冲 禁用 Nginx 缓冲 保证流输出。

// 设置响应头 header('Content-Type: text/event-stream'); header('Cache-Control: no-cache'); header('Connection: keep-alive'); header('X-Accel-Buffering: no'); // 禁用 Nginx 缓冲 // 禁用 PHP 输出缓冲 if (ob_get_level()) ob_end_clean(); @ini_set('output_buffering', 0); @ini_set('implicit_flush', 1); for ($i = 0; $i < ob_get_level(); $i++) { ob_end_flush(); } ob_implicit_flush(1);

再用函数判断。

// 检查是否请求流式响应 if (isset($input['stream']) && $input['stream']) { // 流式响应 header('Content-Type: text/event-stream'); header('Cache-Control: no-cache'); header('Connection: keep-alive'); header('X-Accel-Buffering: no'); // 禁用输出缓冲 if (ob_get_level()) ob_end_clean(); @ini_set('output_buffering', 0); @ini_set('implicit_flush', 1); for ($i = 0; $i < ob_get_level(); $i++) { ob_end_flush(); } ob_implicit_flush(1); // 流式发送到AI API sendToChatAPIStream($input['messages'], $model); } else { // 非流式响应 $response = sendToChatAPI($input['messages'], $model); echo json_encode([ 'success' => true, 'content' => $response['choices'][0]['message']['content'] ]); } } catch (Exception $e) { http_response_code(500); echo json_encode([ 'success' => false, 'error' => $e->getMessage() ]); } }

实时输出内容,保证消息处理的流畅性。

{"id":"0195508f43f2f1e236b3cdb56932ad60","object":"chat.completion.chunk","created":1740813321,"model":"Qwen/Qwen2.5-7B-Instruct","choices":[{"index":0,"delta":{"content":"兴趣","reasoning_content":null},"finish_reason":null,"content_filter_results":{"hate":{"filtered":false},"self_harm":{"filtered":false},"sexual":{"filtered":false},"violence":{"filtered":false}}}],"system_fingerprint":"","usage":{"prompt_tokens":51,"completion_tokens":161,"total_tokens":212}}

在鸢栀助手也有更新。

此前的算法升级使算力和语言处理能力提升了约58.4%,在人际交往方面表现出显著的优化。与此同时,系统在文本审核方面采用了平衡策略:对于违禁内容保持相对宽松的处理方式,但始终确保不越界。以下是具体的文本审核方案表。

pornographic_adult0~100分,分数越高置信度越高疑似色情内容
sexual_terms0~100分,分数越高置信度越高疑似性健康内容
sexual_suggestive0~100分,分数越高置信度越高疑似低俗内容
political_figure0~100分,分数越高置信度越高疑似政治人物
political_entity0~100分,分数越高置信度越高疑似政治实体
political_n0~100分,分数越高置信度越高疑似敏感政治内容
political_p0~100分,分数越高置信度越高疑似涉政禁宣人物
political_a0~100分,分数越高置信度越高涉政专项升级保障
violent_extremist0~100分,分数越高置信度越高疑似极端组织
violent_incidents0~100分,分数越高置信度越高疑似极端主义内容
violent_weapons0~100分,分数越高置信度越高疑似武器弹药
contraband_drug0~100分,分数越高置信度越高疑似毒品相关
contraband_gambling0~100分,分数越高置信度越高疑似赌博相关
contraband_act0~100分,分数越高置信度越高疑似违禁行为
contraband_entity0~100分,分数越高置信度越高疑似违禁工具
inappropriate_discrimination0~100分,分数越高置信度越高疑似偏见歧视内容
inappropriate_ethics0~100分,分数越高置信度越高疑似不良价值观内容
inappropriate_profanity0~100分,分数越高置信度越高疑似攻击辱骂内容
inappropriate_oral0~100分,分数越高置信度越高疑似低俗口头语内容
inappropriate_superstition0~100分,分数越高置信度越高疑似封建迷信内容
inappropriate_nonsense0~100分,分数越高置信度越高疑似无意义灌水内容
pt_to_sites0~100分,分数越高置信度越高疑似站外引流
pt_by_recruitment0~100分,分数越高置信度越高疑似网赚兼职广告
pt_to_contact0~100分,分数越高置信度越高疑似引流广告号
religion_b0~100分,分数越高置信度越高疑似涉及佛教
religion_t0~100分,分数越高置信度越高疑似涉及道教
religion_c0~100分,分数越高置信度越高疑似涉及基督教
religion_i0~100分,分数越高置信度越高疑似涉及伊斯兰教
religion_h0~100分,分数越高置信度越高疑似涉及印度教
customized0~100分,分数越高置信度越高命中自定义词库

在pornographic_adult的管控程度较低,political_figure 和一些宗教方面管控较为严格。

测试敏感内容(political)
敏感内容测试(pornographic)

以下是模型综合评分和算力统计图和表格:

参数前算力 (%)后算力 (%)增长率 (%)稳定性 (%)
计算精度4681.476.9698.2
训练效率5288.770.5797.5
推理速度4179.293.1796.8
资源利用率4883.573.9697.9

折线图:

柱装统计图: