syferie's recent timeline updates
syferie

syferie

V2EX member #759705, joined on 2025-07-28 00:04:19 +08:00
PRO
PRO member
syferie's recent replies
Feb 7
Replied to a topic by jsxyzb 程序员 AI 生成 PPT 方案请教
@youyouzi 不是,都是自己处理的。上面说的原理应该挺清晰的。
Feb 1
Replied to a topic by jsxyzb 程序员 AI 生成 PPT 方案请教
@youyouzi 可以参考我这里的开源思路,核心利用了 Gemini 的视觉思维能力去识别图片中的文字位置和内容样式,生成遮罩。
然后利用纯色填充+渐变填充来实现移除文字。
移除之后将上面识别到的文字与样式放置到对应位置,组装为一个完整 PPT ,从而达到可编辑文字的 PPT 效果。

核心还是考虑到作为一个桌面端应用,尽量轻量化,原先是 OCR+Inpaint 的思路,但是依赖外部需要部署的服务,过于繁琐了,现在的话下载即用。
Feb 1
Replied to a topic by jsxyzb 程序员 AI 生成 PPT 方案请教
我前段时间设计了一个方案,先利用 NanoBananaPro 来生成 PPT 图片,效果与 banana-slides 类似。
之后实现可编辑,核心思路是利用了 Gemini 的视觉思维能力去识别图片中的文字位置和内容样式,从而生成遮罩。
然后利用纯色填充+渐变填充来实现移除文字。
移除之后将上面识别到的文字与样式放置到对应位置,组装为一个完整 PPT ,从而达到可编辑文字的 PPT 效果。

https://github.com/MoonWeSif/NextCreator
Jan 26
Replied to a topic by tramm 浏览器 有什么推荐的浏览器?
Mac 上现在用 Dia ,也是 Arc 团队做的,自带的 AI 搜索感觉效果挺不错,主要还免费。
它都送那么多了,这就是绝活。
老板会纠结你用什么写的吗,不是能出活就行。你会用 AI 一个人能顶两个人的工作量那才是老板想要的。
新增:
1. veo3.1 视频模型,有配套视频站点可供使用。
2. gemini-3-pro-image-preview-url ,我们将返回的图片上传到图床后返回图片的 Url 链接,无需自行处理 base64 图片数据,对于本地带宽的要求更低。支持原生格式调用。
Jan 12
Replied to a topic by ethusdt 程序员 常用的大模型 api 都用哪些模型?
现在用 Gemini 比较多,日常简单点的 Gemini3Flash ,复杂点的 Gemini3Pro 。虽然两个都是推理,但是 3Flash 一般只需要两三秒。跟其他非思考模型相差不大。3Pro 推理开最大也只是二三十秒,并不用等很久。

GPT 科研能力比较强,读论文搞科研的话就是 GPT 官网用 5.2 Thinking 。

写代码就直接上 ClaudeCode 了。

其实现在哪家的旗舰模型都是推理模型。
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5692 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 14ms · UTC 02:09 · PVG 10:09 · LAX 19:09 · JFK 22:09
♥ Do have faith in what you're doing.