xingjia
V2EX  ›  问与答

如何批量爬取公众号的历史文章并且输出 MD 格式?

  •  
  •   xingjia · Aug 24, 2025 · 1711 views
    This topic created in 271 days ago, the information mentioned may be changed or developed.

    我在电脑里积累了上千篇我写的原创文章,有 md pdf 和 html 格式,大概上百万字的内容,部分文档还有图片。(通过 github 工具下载了公众号的历史文章)

    我的需求是想做一个最懂自己的心理咨询师,于是希望 AI 可以阅读我这个文件夹里的所有内容,充分了解我是谁,我做了哪些事,还有我的一些思考等等,然后和我互动,成为我的心理咨询师和助理,给我一个明确的步骤,告诉我如何实现我的想法

    把这件事慢慢在解决,目前测试了 Claude Code ,和 Gemini CLI 还有 Qwen ,回过头发现有个 Bug ,只是通过命令行的方式让 AI 去读文件似乎压根没有向量化,不知道我这个理解对不对。

    提一个需求,有没有工具可以方便的抓取一个人的公众号所有历史文章,并且生成.md 格式的文件,包括评论区的内容呢,之前买过一个工具,需要登录自己的微信,估计爬取太密集,直接给封了,求助下各位,感谢

    2 replies    2025-08-24 22:31:57 +08:00
    Solix
        1
    Solix  
       Aug 24, 2025 via iPhone
    dify 就解决了
    xingjia
        2
    xingjia  
    OP
       Aug 24, 2025
    @gaobh 我去搜下 感谢
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3219 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 54ms · UTC 03:30 · PVG 11:30 · LAX 20:30 · JFK 23:30
    ♥ Do have faith in what you're doing.