V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
V2EX  ›  kennylam777  ›  全部回复第 1 页 / 共 51 页
回复总数  1010
1  2  3  4  5  6  7  8  9  10 ... 51  
2 天前
回复了 bihui 创建的主题 程序员 你们用啥 ai 编程工具可以当生产力?
@phinex 本來我就一堆 microservices, 有時候需求變動要幾個組件一起改
2 天前
回复了 bihui 创建的主题 程序员 你们用啥 ai 编程工具可以当生产力?
@justd 看看這個 https://opencode.ai/docs/agents/#model

示例中的 agent 就叫做'cheap-model', 你可以改成其他名字
```json
{
"agent": {
"cheap-model": {
"model": "anthropic/claude-haiku-4-20250514"
}
}
}
```

我是直接在 main agent 中 用 GPT 5.5, plan 的時候要它 "cheap-model"的 sub-agent 去實作及跑 smoke-test

反正有免費的 model, 你可以先用免費的試試這種配置, 到能用的時候再接入 Codex subscription, provider 選 OpenAI 就可以
https://opencode.ai/docs/providers/#openai
2 天前
回复了 bihui 创建的主题 程序员 你们用啥 ai 编程工具可以当生产力?
OpenCode 已經很不錯吧, 我配 Codex 的 subscription, GPT5.5 還挺能打, 要幹重活的話, 用多個 sub-agents 配 Deepseek 去跑吧, 然後讓主 agent 的 GPT 5.5 驗收就成
2 天前
回复了 kennylam777 创建的主题 OpenAI Codex 又要重置啦
我的重置了, 比預定早了一天, 算小賺一點

OpenCode 能用 Codex subscriptions 真的很佛心, 先用 GPT5.5 計劃好, 再用其他便宜的模型跑 subagents 去實作及 smoke-test 成功為止, 這樣的分配還真的省下不少 Codex usage
3 天前
回复了 TuTouPower 创建的主题 程序员 写了个代理薅 MiMo Code 免费模型的羊毛
想買 MiMo token plan Lite 但不知道小米模型甚麼樣, 總算能免注冊先試用了
4 天前
回复了 lezhou 创建的主题 OpenAI 有人用过 antigravity 2.0 了吗? 说说
模型還不錯, 但 harness 很拉, 無論是 agy (CLI)還是 IDE 還是 Agent, 都很容易改錯 file, 然後不管你有沒有 git commit 都給你來一個 git restore

但 Pro 3.1 的 quota 還算可以, 總體來說我用它來幹粗活的

如果多次也修不好, 我試過用 pi.dev + Qwen3.6 27B(本地)也比它好

當然 Codex 是吊打 AG 的, quota 也不少, 只是我 Codex 也常用滿了, 才需要用 AG 及本地 LLM 分擔一下
6 天前
回复了 nc 创建的主题 Java Java 确实是内存高效的
我也不想用 JVM ,但 ElasticSearch 真的香,好像暫時還沒取代品?
雖然我還有在用 Python, 但 production 的東西我都轉向用 Go 了, 畢竟 compile time 能擋很多東西, strong type 讓 LLM 也能清楚理解數據結構

React 及 Python 的 project, 我都要用 strict type check 及 ruff 及 pyright 一類先檢查再讓 LLM 去宣告做完, 還真的能擋不少低級錯誤
9 天前
回复了 Livid 创建的主题 Local LLM DiffusionGemma
@BingoXuan Nemotron Nano 還真的不太行, Ultra 出來了好像也不太有性價比, 550B 等級的中國模型比它強。

btw, MTP 在 Coding agent 上加速效果挺明顯的, 我想是算 diff 一類能搬字過紙的任務上猜得到就能過, Gemma 4 31B Q4 在 5090 我試過能跑到最高 90tps, 反而 Qwen 3.6 27B 我都沒仔細看過最高 tps

但真的要快的話, 把 Qwen 3.6 35B 灌下去, tokens 嘩啦嘩啦就跑一堆出來還算爽的, max tps 過 130, 簡單任務也算能用
9 天前
回复了 Livid 创建的主题 Local LLM DiffusionGemma
@commoccoom 我單張 RTX5090, Q3.6 27B Q5_K_XL 用以上配置能跑 context 102400, 56tps

另外我還有兩張 RTX3090 的 NVLink 能跑 Gemma 4 31B Q8, F16 K/V, ctx 51200, 55-60tps, 但現在要買 3090 及它的 NVLink 應該不容易。

聽說有人在淘寶魔改了 V100 能插 PCIe 及多卡 NVLink, 但這種魔改的東西除非你對 inference 很有經驗, 否則不建議用。也有些人用舊款 AMD MI50 32GB 去組多卡, 但好像 llama.cpp 沒直接支援要用改版的, 也不太建議用。

RTX6000 Pro 的 96GB VRAM 及超大 bandwidth 肯定是單卡最強的民用產品

32GB 的新品好像還有 Intel Arc Pro B70, 比 RTX5090 便宜不少, 但這個 llama.cpp 的支援可能不完整, vllm 倒是有 Intel 自己的版本有維護能配 Qwen 3.5
9 天前
回复了 Livid 创建的主题 Local LLM DiffusionGemma
@BingoXuan 我是 Codex 及 Antigravity 雙持的, 都是 USD20 等級的套餐, 但自從我本地有 Qwen 3.6 27B (Q5_K_XL Weights, Q8 K/V, MTP)後, 有一次我兩家的 agent 都跑到 debug 一半沒了 quota 很焦慮。

還好之前有練過用本地跑 VSCode Copilo 及 Claude Code, 拿 Qwen 3.6 27B 給我上還真的能把事情做好。

這時候我就深深感受到這東西會減少人們對 Subscriptions 及 API 的依賴, 很佛心但也會影響利潤吧。
9 天前
回复了 Livid 创建的主题 Local LLM DiffusionGemma
@BingoXuan Gemma 4 這次很給力吧, reddit 上不少人都同意文字類答案比 Qwen 3.6 好, Qwen 3.6 是英語及中文很強, 但 Gemma 4 的廣東話及繁體字比 Qwen 3.6 強超多, Gemma 4 31B 在 agentic coding 用廣東話對答如流, Qwen 3.6 就會用簡體中文標準漢語回應, 也有一些 benchmark 說 Gemma 4 31B 比 Qwen3.6 27B 在 coding planing 更細密。

Qwen 3.6 是絶代的話就慘了, Google 不會放更好的模型出來, 畢竟 Qwen 還是很能打我也是 Gemma 4 及 Qwen 3.6 兩個模型都有在用。

@Livid 怪不得會選 26B A4B MoE, memory bandwidth 擺在那 TPS 是壓力, 反而我好奇的是 Qwen 3.6 35B A3B 的簡中應該也很強, 速度更快, 選用 Gemma 4 26B A4B 的選因是?
9 天前
回复了 Livid 创建的主题 Local LLM DiffusionGemma
不過我記得第一個實作 Diffusion Language Model 的是這個 HKU 團隊, 那時他們家的 Sudoku 的解題特別強。
https://github.com/HKUNLP/DiffuLLaMA

玩過 DiffuLLaMA Demo 很有趣, Diffsuion 文字輸出是先把句子長度固定, 然後內容再走出來, 先畫靶再射箭的感覺, 不是 Autoregressive 的書寫次序, 但那時字(token)蹦出來後就不會再動。

這次 DiffusionGemma 更有趣的是內容還會在 render 過程中變動, 我倒期待 Llama-Server 的實作出來是如何的, 如果 Sudoku 強的話可能龍蝦一類 vision+computer use 的用途會有驚喜?
9 天前
回复了 Livid 创建的主题 Local LLM DiffusionGemma
@coefu 我倒希望 Qwen 繼續開源跟 Gemma 一拼, Google 沒對手的話就不會放新模型了

正如以前用 RTX 5090 都沒有一個本地模型能 agentic coding, 大部分都倒在了第一個 failed tool call 上, 倒是 Qwen 3.5 27B 出來後才算有一個能用
對呀本來就 11 號重號, 原本是 6 號的
不就是把 Claude Code/Antigravity/Qwen 等等改成名人的名稱, 又是一個 "Hey I vibecoded a groundbreaking blah blah"的貼

現實很美好, 但用起來要先解決 Codex/AGY 能不能讓你的 program 包起來用的基本問題, 不然就引發 claude code -p 事件了
近日在 reddit 不少人也投訴 Antigravity 產生無限循環, 我猜 Google 可能在擠算力給 Gemini 3.5 Pro, 然後在 Flash/Pro 打開了 Weight quantization 或在 KV 玩起了像 TurboQuant 的新花樣
11 天前
回复了 kakalulin 创建的主题 Local LLM mac mini 跑本地模型,需要什么配置?
暫時單機能跑智力過關的只有 Gemma 4 31B 或 Qwen 3.6 27B, 能做輕量開發, 我用 RTX 5090 跑這兩個 ctx 能達到 1024000 才算可以, 起碼跑 Claude Code 或 Github Copilot 還不算太易滿 context, MTP 能 90tps

Hermes Agent 的話, 以上兩個都未必能達到滿意水準, 還要用 Mac 跑 10B 以上的 Dense 速度感人。

Gemma 4 26B/Qwen3.6 35B MoE 就不用想了, 太弱, 處理簡單 coding 任務時還好, 但 MoE 的小 expert 才 3B/4B, Q4 後會更高機會 tool call 錯, 對 agentic operations 是大傷
13 天前
回复了 Cheez 创建的主题 程序员 阿里的 Qwen3.7-Max 比我想象中差
@bowser1701 通常都跟模型有關, 長 context 是一種能力, Qwen 的收費版才有 1m context support, 但在 1m 觸發 compact 前就死循環那是長 context 能力不足了。

雖然我在本地用 Qwen 3.6 27B/35B 都只限在 256k 甚至是 200k, 不太會死循環, 但如果把 Weight 或 KV 壓成 4bit/Q4 就更容易會出現類似錯誤。

雖然在 inference 時的確能調 repeat penalty 去減少重覆回應, 但我測過能力弱的模型, 要死循環時你如何調也救不回來。
1  2  3  4  5  6  7  8  9  10 ... 51  
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   819 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 30ms · UTC 20:34 · PVG 04:34 · LAX 13:34 · JFK 16:34
♥ Do have faith in what you're doing.