V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
V2EX  ›  gcod  ›  全部回复第 1 页 / 共 15 页
回复总数  299
1  2  3  4  5  6  7  8  9  10 ... 15  
@KaiWuBOSS 4B 果然也不行...

PS C:\Windows\system32> irm https://raw.githubusercontent.com/val1813/kaiwu/main/install.ps1 | iex
Kaiwu Installer
===============

Detected: windows/amd64
Fetching latest release...
Latest version: v0.1.6
Downloading https://github.com/val1813/kaiwu/releases/download/v0.1.6/kaiwu-windows-amd64.zip...

Kaiwu installed successfully!

Kaiwu v0.1.6

Get started:
kaiwu run Qwen3-30B-A3B

Note: restart your terminal for PATH changes to take effect.
PS C:\Windows\system32> kaiwu run Qwen3-4B

██╗ ██╗ █████╗ ██╗██╗ ██╗██╗ ██╗
██║ ██╔╝██╔══██╗██║██║ ██║██║ ██║
█████╔╝ ███████║██║██║ █╗ ██║██║ ██║
██╔═██╗ ██╔══██║██║██║███╗██║██║ ██║
██║ ██╗██║ ██║██║╚███╔███╔╝╚██████╔╝
╚═╝ ╚═╝╚═╝ ╚═╝╚═╝ ╚══╝╚══╝ ╚═════╝
本地大模型部署器 vv0.1.6 · llama.cpp b8864
by llmbbs.ai · 本地 AI 技术社区

[1/6] Probing hardware...
GPU: NVIDIA GeForce GTX 1660 Ti (SM75, 6144 MB VRAM, 288 GB/s)
RAM: 31 GB DDR4
OS: windows amd64

[2/6] Selecting configuration...
Model: Qwen3-4B (dense, 4B)
Quant: q5-k-m (2.8 GB)
Mode: full_gpu
Accel: Flash Attention

[3/6] Checking files...
Using bundled iso3 binary: llama-server-cuda.exe
Binary: llama-server-cuda.exe [cached]
Model: Qwen3-4B-Q5_K_M.gguf [cached]

[4/6] Preflight check...
llama-server 不支持 iso3 ,回退到 q8_0/q4_0
✓ VRAM sufficient

[5/6] Warmup benchmark...
Probe 1: ctx=8K ... OOM
Probe 2: ctx=4K ... OOM
⚠️ Warmup failed: all ctx probes failed (tried down to 4K)
Using default parameters

[6/6] Starting server...
Waiting for llama-server to be ready (port 11434)...
⚠️ 显存不足,降低上下文至 4K 重试...
Waiting for llama-server to be ready (port 11434)...
Error: failed to start llama-server: 连续 2 次启动失败,即使最小上下文(4K)也无法运行

NVIDIA GeForce GTX 1660 Ti: 6144 MB VRAM
模型 Qwen3-4B: ~2867 MB
KV cache (4K, q4_0): ~112 MB
预估总需: ~4003 MB

建议:
1. 运行 kaiwu run qwen3-4b --reset 重新探测参数
2. 模型较小但仍 OOM ,可能是参数配置问题,请升级到最新版本

Usage:
kaiwu run <model> [flags]

Flags:
--bench Run benchmark after starting
--ctx-size int 手动指定上下文大小( 0=自动)
--fast Skip warmup, use cached profile
-h, --help help for run
--llama-server string 使用自定义 llama-server 二进制(完整路径)
--reset 清除缓存,重新 warmup 探测最优参数

PS C:\Windows\system32> kaiwu run qwen3-4b --reset

██╗ ██╗ █████╗ ██╗██╗ ██╗██╗ ██╗
██║ ██╔╝██╔══██╗██║██║ ██║██║ ██║
█████╔╝ ███████║██║██║ █╗ ██║██║ ██║
██╔═██╗ ██╔══██║██║██║███╗██║██║ ██║
██║ ██╗██║ ██║██║╚███╔███╔╝╚██████╔╝
╚═╝ ╚═╝╚═╝ ╚═╝╚═╝ ╚══╝╚══╝ ╚═════╝
本地大模型部署器 vv0.1.6 · llama.cpp b8864
by llmbbs.ai · 本地 AI 技术社区

[1/6] Probing hardware...
GPU: NVIDIA GeForce GTX 1660 Ti (SM75, 6144 MB VRAM, 288 GB/s)
RAM: 31 GB DDR4
OS: windows amd64

[2/6] Selecting configuration...
Model: Qwen3-4B (dense, 4B)
Quant: q5-k-m (2.8 GB)
Mode: full_gpu
Accel: Flash Attention

[3/6] Checking files...
Using bundled iso3 binary: llama-server-cuda.exe
Binary: llama-server-cuda.exe [cached]
Model: Qwen3-4B-Q5_K_M.gguf [cached]

[4/6] Preflight check...
llama-server 不支持 iso3 ,回退到 q8_0/q4_0
✓ VRAM sufficient

[5/6] Warmup benchmark...
已清除缓存,重新探测
Probe 1: ctx=8K ... OOM
Probe 2: ctx=4K ... OOM
⚠️ Warmup failed: all ctx probes failed (tried down to 4K)
Using default parameters

[6/6] Starting server...
Waiting for llama-server to be ready (port 11434)...
⚠️ 显存不足,降低上下文至 4K 重试...
Waiting for llama-server to be ready (port 11434)...
Error: failed to start llama-server: 连续 2 次启动失败,即使最小上下文(4K)也无法运行

NVIDIA GeForce GTX 1660 Ti: 6144 MB VRAM
模型 Qwen3-4B: ~2867 MB
KV cache (4K, q4_0): ~112 MB
预估总需: ~4003 MB

建议:
1. 运行 kaiwu run qwen3-4b --reset 重新探测参数
2. 模型较小但仍 OOM ,可能是参数配置问题,请升级到最新版本

Usage:
kaiwu run <model> [flags]

Flags:
--bench Run benchmark after starting
--ctx-size int 手动指定上下文大小( 0=自动)
--fast Skip warmup, use cached profile
-h, --help help for run
--llama-server string 使用自定义 llama-server 二进制(完整路径)
--reset 清除缓存,重新 warmup 探测最优参数
PS C:\Windows\system32> kaiwu run Qwen3-1.7B --ctx-size 2048

██╗ ██╗ █████╗ ██╗██╗ ██╗██╗ ██╗
██║ ██╔╝██╔══██╗██║██║ ██║██║ ██║
█████╔╝ ███████║██║██║ █╗ ██║██║ ██║
██╔═██╗ ██╔══██║██║██║███╗██║██║ ██║
██║ ██╗██║ ██║██║╚███╔███╔╝╚██████╔╝
╚═╝ ╚═╝╚═╝ ╚═╝╚═╝ ╚══╝╚══╝ ╚═════╝
本地大模型部署器 vv0.1.4 · llama.cpp b8864
by llmbbs.ai · 本地 AI 技术社区

[1/6] Probing hardware...
GPU: NVIDIA GeForce GTX 1660 Ti (SM75, 6144 MB VRAM, 0 GB/s)
RAM: 31 GB DDR4
OS: windows amd64

[2/6] Selecting configuration...
Model: Qwen3-1.7B (dense, 2B)
Quant: q5-k-m (1.2 GB)
Mode: full_gpu
Accel: Flash Attention

[3/6] Checking files...
Using bundled iso3 binary: llama-server-cuda.exe
Binary: llama-server-cuda.exe [cached]
Model: Qwen3-1.7B-Q5_K_M.gguf [cached]

[4/6] Preflight check...
llama-server 不支持 iso3 (或首次 JIT 编译超时),回退到 q8_0/q4_0
✓ VRAM sufficient

[5/6] Warmup benchmark...
用户指定 ctx=2048 ,跳过缓存
User override: ctx=2K ... ⚠️ Warmup failed: user-specified ctx=2K failed to start (OOM?)
Using default parameters

[6/6] Starting server...
Waiting for llama-server to be ready (port 11434)...
⚠️ 显存不足,降低上下文至 4K 重试...
Waiting for llama-server to be ready (port 11434)...
Error: failed to start llama-server: 连续 2 次启动失败,即使最小上下文(4K)也无法运行

NVIDIA GeForce GTX 1660 Ti: 6144 MB VRAM
模型 Qwen3-1.7B: ~1228 MB
KV cache (4K, q4_0): ~112 MB
预估总需: ~2364 MB

建议:
1. 选择更小的量化 (Q2_K)
2. 选择更小的模型
3. 使用 MoE offload 模型( experts 放 CPU RAM )
Usage:
kaiwu run <model> [flags]

Flags:
--bench Run benchmark after starting
--ctx-size int 手动指定上下文大小( 0=自动)
--fast Skip warmup, use cached profile
-h, --help help for run
--llama-server string 使用自定义 llama-server 二进制(完整路径)
--reset 清除缓存,重新 warmup 探测最优参数



7 年前的老机子了 1660 Ti😮‍💨
方案本质是通过跳过 DDNS 域名回源、直接更新 CDN 源站 IP 来减少解析延迟和故障点,同时巧妙利用 ESA 免费支持 IPv4/IPv6 双栈访问。把 DDNS 、IPv6 动态监测和 CDN 配置自动化打包成 D-NET 工具,确实大幅简化了运维,很有实用创意
2025 年 8 月 29 日
回复了 dsd2077 创建的主题 程序员 在生产环境服务器中使用 AI,你怎么看?
前提一定一定是你要知道你在做什么,而不是无脑的根据 AI 的答复来操作,有时候 AI 幻觉很致命.
电信的话便宜点儿,租的话,千兆大概 360 一年~
2025 年 5 月 7 日
回复了 YaNanGe 创建的主题 宽带症候群 坐标河南,求推荐便宜的联通宽带
河南哪里呀
2025 年 1 月 7 日
回复了 giffgaffman 创建的主题 推广 T 楼:送 10 张全新未激活的英国 giffgaff 卡
碰碰运气,重在参与 0.0
你图片多么,如果个人博客类的小站可以用我图床,小打小闹也运行 6.7 年了,
当然了,你如果图片很多且流量很大就算了,推荐自建,不要白嫖别人的了.
2024 年 11 月 1 日
回复了 jqknono 创建的主题 DNS 某厂商防止 DNS 拦截的大聪明手段
没拿到解析记录就会尝试重新获取,返回个假地址给他就好了
2024 年 9 月 2 日
回复了 duolaamengv2 创建的主题 宽带症候群 上海移动 IP 直接访问 302 跳反诈?
冒昧问一句,你们的用户是不是在江苏..
2024 年 8 月 10 日
回复了 monkey110 创建的主题 Android 安卓手机有没有好用的备份相册的方案?
好奇怪的需求,备份的意义是什么
用图床
2024 年 8 月 5 日
回复了 Nazz 创建的主题 Go 编程语言 感动, 这位粉丝给 gws 源码几乎每一行都写了注释 !
冷知识
github.dev 其实是由 GitHub 官方推出的 /手动狗头
说白了就是一个一个 web 版的 VsCode ,可以浏览器在线编辑提交 GitHub 仓库内的文件
2023 年 11 月 23 日
回复了 pipixiarwksb 创建的主题 API 有没有免费翻译的 api,输入文本直接翻译成中文
忘记回复 不支持 markdown 了。。
重新编辑如下:

腾讯翻译君(每月前 500 万字之内免费) https://cloud.tencent.com/product/tmt
火山引擎机器翻译 (每月前 200 万字之内免费) https://www.volcengine.com/product/machine-translation
微软 Azure 翻译(每月前 200 万字之内免费) https://learn.microsoft.com/zh-cn/azure/cognitive-services/translator/text-translation-overview
阿里云机器翻译(每月前 100 万字之内免费) https://www.aliyun.com/product/ai/alimt
百度翻译(个人实名认证后每月前 100 万字之内免费) https://fanyi-api.baidu.com/
2023 年 11 月 23 日
回复了 pipixiarwksb 创建的主题 API 有没有免费翻译的 api,输入文本直接翻译成中文
[![]( https://wx1.vv1234.cn/2023/02/18/24463f08356b7bcf.png)]( https://wx1.vv1234.cn/2023/02/18/24463f08356b7bcf.png)
有啊,大厂一般不是都有赠送免费额度的,个人使用足够了

* 腾讯翻译君(每月前 500 万字之内免费) [ https://cloud.tencent.com/product/tmt]( https://cloud.tencent.com/product/tmt)
* 火山引擎机器翻译 (每月前 200 万字之内免费) [https://www.volcengine.com/product/machine-translation]( https://www.volcengine.com/product/machine-translation)
* 微软 Azure 翻译(每月前 200 万字之内免费) [https://learn.microsoft.com/zh-cn/azure/cognitive-services/translator/text-translation-overview]( https://learn.microsoft.com/zh-cn/azure/cognitive-services/translator/text-translation-overview)
* 阿里云机器翻译(每月前 100 万字之内免费) [https://www.aliyun.com/product/ai/alimt]( https://www.aliyun.com/product/ai/alimt)
* 百度翻译(个人实名认证后每月前 100 万字之内免费) [https://fanyi-api.baidu.com/]( https://fanyi-api.baidu.com/)
理论上是可以的,这不就跟玩 pt 做种让别人下载电影一样的道理嘛,qb 生成一个种子文件,然后让别人下载就是
没懂,给自己网站做加速,跟迅雷又有什么关系呢
2023 年 11 月 15 日
回复了 fuchish112 创建的主题 生活 工抵车位,购买有什么风险?
手续齐全即可
1  2  3  4  5  6  7  8  9  10 ... 15  
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   890 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 55ms · UTC 21:00 · PVG 05:00 · LAX 14:00 · JFK 17:00
♥ Do have faith in what you're doing.