技术方案

2026年4月26日
分类于技术方案, vLLM, Arc B580, OpenClaw, 本地 Agent

方案｜在 Intel 双 Arc B580 上使用 vLLM v0.19.1 + FP8 驱动 Gemma-4-E4B-it 为 OpenClaw 提供本地 Token 服务实战

近年来，本地大模型部署越来越受到重视，尤其是希望保护隐私、降低延迟并实现真正自主 Agent 的用户。Gemma-4-E4B-it 作为 Google 推出的高效 4B 参数模型，在 tool calling、指令遵循和多轮对话方面表现优秀，非常适合作为 OpenClaw 这类开源 AI Agent 的后端大脑。

2026年3月30日
分类于技术方案, vLLM, Arc B580, OpenClaw, 本地 Agent

方案｜2026 养虾最强平民方案！Dual Arc B580 + vLLM 跑通 Qwen3-14B，OpenClaw 本地部署完整教程

2026 年 3 月，AI 圈最火的黑话不再是“Prompt”，而是“养虾”。

每天打开朋友圈、X（Twitter）、知乎、V2EX，你都会刷到有人在炫耀：“我的虾今天又帮我写完了一周的周报”“我的虾凌晨 3 点自动刷完了行业资讯，还给我整理成 Notion 表格”“养了三只虾同时干活，爽到飞起”……

“养虾”，其实就是用 OpenClaw 这个爆火的开源 AI Agent 框架，在本地或服务器上部署一个（或一群）自主工作的智能体。它能调用工具、读写文件、多轮规划、长期记忆，甚至跨应用帮你完成复杂任务。和单纯聊天的大模型不同，养虾追求的是真正的“数字劳动力”——24 小时不睡觉、永不摸鱼、零 token 焦虑。

但问题来了：想把虾养得又大又壮，你需要一个足够强、足够便宜、又足够本地的推理后端。

云端 API？动辄几毛钱一次，养几天就心疼；大厂闭源模型？隐私泄露风险高，还随时可能限流。NVIDIA 高端卡？两张能跑 14B 模型的卡轻松上万，普通开发者看了直摇头。

于是，越来越多平民玩家把目光投向了 Intel Arc B580。

单张 B580 仅 12GB GDDR6 显存，双卡组成 Dual Arc B580 就能提供约 24GB 有效 VRAM，总成本通常只需 4000-5500 元左右（视渠道而定）。配合 vLLM 在 Intel XPU 上的优秀支持，以及阿里最新开源的 Qwen3-14B 模型，这套组合突然成了 2026 年最强“平民养虾方案”之一。

我花了整整两周时间，从硬件组装、驱动安装、vLLM XPU 编译部署，到 OpenClaw 完整集成，一步步踩坑、调优，最终让两张 B580 稳定驱动 Qwen3-14B，为 OpenClaw 提供高吞吐的本地推理后端。

这篇文章就是我整个过程的完整复盘：从零开始，到让你的虾真正“活”过来。全程干货、可复现，附带所有关键命令、参数优化建议和真实性能数据。

无论你是想省钱跑 Agent、追求数据隐私，还是单纯想在养虾大军里用性价比方案卷赢别人，这套 Dual Arc B580 + vLLM + Qwen3-14B + OpenClaw 方案，都值得你认真看完。

准备好你的机器，我们一起把龙虾养肥吧！

2025年11月6日
分类于技术方案, Devpi, Pytorch, XPU, 零成本

生产运维黑科技：零成本搭建 Devpi 私有 Pypi 镜像服务，PyTorch XPU 加速全攻略

想象一下：团队正在部署一个 PyTorch XPU 项目，兴冲冲地运行 pip install torch --index-url https://download.pytorch.org/whl/xpu，结果却卡在下载，进度条慢得让人抓狂。几小时后，安装终于完成，但第二天另一个同事重复同样流程，又是漫长等待。更糟的是，内网带宽有限，频繁从外网（如 https://download.pytorch.org/whl/xpu）拉取大体积 XPU 包，简直是效率杀手。你是否也遇到过这种“依赖地狱”？这正是我们今天要解决的痛点！

2025年10月19日
分类于技术方案, OpenVINO, Model Server, EdgeX, 零代码

方案｜100% 开源边缘智能引擎：OpenVINO 与 EdgeX Foundry 完美结合，零代码即插即用实践（GitHub开源）

在边缘计算的浪潮中，人工智能（AI）推理从云端向边缘设备的迁移已成为趋势，带来更低的延迟、更高的隐私保护和更优的资源效率。Intel 的 OpenVINO™ 工具包及其 Model Server (OVMS)，结合 EdgeX Foundry 的开源框架，提供了一个强大的边缘智能引擎。我们公司自豪地贡献了 GitHub 开源仓库 edgexfoundry-holding/device-ai-openvino-ovms，展示如何通过零代码、即插即用的方式，在 Intel CPU、GPU 和 NPU 上实现高效边缘 AI 推理。这一仓库是我们对开源社区的承诺，旨在推动边缘智能的广泛应用。

技术分享｜The Next Generation Internet of Things 下一代物联网曾经描述过：远端和物联网智能设备：遥远的、偏远的或网络资源匮乏的地方将是边缘计算的用武之地，不仅是减少了数据传输的时间和效率问题，还解决了现场智能设备的数据处理问题。

2025年10月17日
分类于技术方案, YOLO, TritonServer, 登临, KS20

方案｜登临 KS20 GPGPU 优化巅峰之作：YOLOv8n 与 Triton Server 在海光/曙光边缘计算设备上的终极性能调教（5倍性能）

国产AI加速的瓶颈破解之道，从后处理迁移到生产余量规划

概要介绍：本文基于项目经验，系统阐述 YOLOv8n 在登临 KS20 上的优化策略，焦点包括 Triton 调度改进、gRPC 通信优化和 Prometheus 指标收集。结合搜索到的最佳实践和代码示例，分析G PU/CPU 利用率提升路径，帮助您避免常见坑点。展望未来 INT8 量化潜力，提供完整 Helm Chart 和测试方案，助力高效 AI 部署。