BirlGoy
V2EX  ›  OpenAI

理解 chatpdf.com 的代码原理

  •  3
     
  •   BirlGoy · Mar 6, 2023 · 14487 views
    This topic created in 1171 days ago, the information mentioned may be changed or developed.

    理解 chatpdf.com 的代码原理

    背景: 周末有个 chatgpt 比较火的应用 chatpdf.com 。主要功能是上传一个 pdf ,就能跨语言地和这个 pdf 对话(如果这个 pdf 是中文,可以用英文提问;反之也可)。根据这个 pdf 的内容回答你的问题。 这个应用很惊艳,打开了新世界的大门。

    这个应用有很大的想象空间:
    • 比如说这个 pdf 是国家的法律,那就可以问所有法律相关的问题。
    • 如果这是图书馆里面的每一本书,那就可以对所有书对话。 ...

    这个应用太优秀,有人在 twitter 上问作者用了什么原理,作者很大度,把大概原理说了一下。我自己挺好奇,第二天在一篇文章里看到有人开源了类似 产品 把代码下载看来一下,总结一下原理,我自己不是机器学习出身,可能谬以千里。

    0 、openai 的 Embedding 接口

    问了一下 chatgpt:

        me:  openai 的 embedding 是什么?
    chatgpt: OpenAI 的 embedding 是一种将自然语言文本转换为向量表示的技术。
    

    1 、文本切割

    将文本切割成一小部分,调用 openai 的 embedding 接口,返回这段文本的 embedding 的向量数据。存储这些数据,并且保存好对应关系。

    2 、用户提问

    将用户提的问题,调用 openai 的 embedding 接口,返回问题的向量数据。

    3 、搜索向量

    计算相似度。用问题的向量,在之前切割的所有向量数据里,计算和问题向量相似度最高的几个文本(余弦定理)。

    4 、调用 chatgpt

    准备特殊的 prompt ,里面带上切割的文本内容,加上问题的 prompt 。

    例子中的 prompt 是这样的:

    const res = await fetch("https://api.openai.com/v1/chat/completions", {
        headers: {
          "Content-Type": "application/json",
          Authorization: `Bearer ${apiKey}`
        },
        method: "POST",
        body: JSON.stringify({
          model: OpenAIModel.DAVINCI_TURBO,
          messages: [
            {
              role: "system",
              content: "You are a helpful assistant that accurately answers queries using Paul Graham's essays. Use the text provided to form your answer, but avoid copying word-for-word from the essays. Try to use your own words when possible. Keep your answer under 5 sentences. Be accurate, helpful, concise, and clear."
            },
            {
              role: "user",
              content: prompt
            }
          ],
          max_tokens: 150,
          temperature: 0.0,
          stream: true
        })
      });
    

    以上就是这个应用的背后大概的原理。目前最大的限制是 chatgpt 接口的限制 4096 个 token 。我相信后面 openai 肯定会调整。

    以上就是胡乱记录一下,如果有问题,欢迎纠正。

    35 replies    2023-04-23 16:09:00 +08:00
    proxytoworld
        1
    proxytoworld  
       Mar 6, 2023
    这东西好像是用来绕过 token 限制的
    tool2d
        2
    tool2d  
       Mar 7, 2023
    这网站牛逼的,我随手上传了一篇语文教学参考资料。

    AI 竟然能按照这个主题,严格贴合内容展开和聊天。

    还能写一段段的小作文,厉害。
    DevRoss
        3
    DevRoss  
       Mar 7, 2023 via iPhone
    确实是这样
    106npo
        4
    106npo  
       Mar 7, 2023 via Android   ❤️ 7
    没什么问题,我们的客服系统也是这么实现的 https://loli.xing.moe/ChatGPT_as_customer_service/
    ktqFDx9m2Bvfq3y4
        6
    ktqFDx9m2Bvfq3y4  
       Mar 7, 2023
    不知道什么时候会有支持大量数据的方案。比如用于某个销售网站的产品导购,售前售后咨询。
    rocmax
        7
    rocmax  
       Mar 7, 2023 via Android
    @Chad0000 现在就可以 finetune 模型,但是考虑到一来价格贵,二来如果知识库内容经常更新的话每次都重训练一遍也不现实。
    tomari
        8
    tomari  
       Mar 7, 2023
    可惜没法看到 pdf 里面的图片
    justin2018
        9
    justin2018  
       Mar 7, 2023
    这个厉害呀~ 问的问题基本上是对的

    节约了翻书的时间了
    vazo
        10
    vazo  
       Mar 7, 2023
    这个和视频字幕总结插件的思路差不多,都可以总结输入内容,只不过他这个还可以就内容互动问答,明显更胜一筹.
    SmiteChow
        11
    SmiteChow  
       Mar 7, 2023
    不错,有了领域限定,花样变少了,预期更相符了。
    locoz
        12
    locoz  
       Mar 7, 2023   ❤️ 1
    试了一下,对于高度定制化的内容,这种处理方式还是不太行,因为不一定能匹配到对应的原文,自然也就会导致 AI 要么猜内容、要么说不知道。

    如果是常规的知识类书籍,由于数据很可能已经被学习过了,这种方式就相当于做了一个预先输入、限定回答范围的过程,能使回答内容更精准些,但回答的内容其实不一定是来自于 PDF 内。

    所以:
    @proxytoworld #1
    实际并没有办法真正意义上地绕过 token 限制。

    @tool2d #2
    @justin2018 #9
    实际只是相关内容已经被学习过了。
    linksNoFound
        13
    linksNoFound  
       Mar 7, 2023
    缺陷就是老在应用崩溃的路上
    Scirocco
        14
    Scirocco  
       Mar 7, 2023
    感觉读论文水平还是不够
    tf2
        15
    tf2  
       Mar 7, 2023
    那种双栏 pdf 是怎么解析的?
    BirlGoy
        16
    BirlGoy  
    OP
       Mar 7, 2023
    @locoz #12 chatgpt 没有问题,关键是喂给他的参考内容太少,最多 4096 个 token ,要是真个文档,效果肯定不一样。
    还有一个办法,先让 gpt 回答一次,根据答案去搜索 embedding ,再把这些内容参考交给 gpt 回答一次。瞎想,没试过实际效果。
    vToExer
        17
    vToExer  
       Mar 7, 2023 via Android
    能识别公式里的符号吗?读论文经常遇到符号不懂的情况
    locoz
        18
    locoz  
       Mar 7, 2023   ❤️ 1
    @BirlGoy #16 不不不,不是喂给它的参考内容太少,而是「文本转向量并匹配」这部分操作的匹配并不一定准确、完整。我当然知道 ChatGPT 本身没有问题,这方面用途我已经用了挺久了,只不过之前都是部分段落内容输入,而不是完整内容输入。

    “先让 gpt 回答一次,根据答案去搜索 embedding ,再把这些内容参考交给 gpt 回答一次”
    这种方式就我目前给的文件来说,没啥用...因为第一步的匹配操作就已经没有匹配到正确位置了,ChatGPT 也没法做出正确的描述,更别提后续基于这问问题了。
    dayeye2006199
        19
    dayeye2006199  
       Mar 7, 2023
    听说 openai 的 embedding 模型质量一般.
    BirlGoy
        20
    BirlGoy  
    OP
       Mar 7, 2023
    @locoz #18 感谢。 你说的观点是对的。search 过程丢失了太多信息。

    这样看来,目前只能扩大 4096token 的限制。
    locoz
        21
    locoz  
       Mar 7, 2023
    @BirlGoy #20 是的,关键还是这个 token 数限制,而且长文很难饶过这个限制,无论是简化还是分段都容易出问题。只能看 openai 愿不愿意给定制用户提升限制了,能提升或许还能做相关的操作。
    ersic
        22
    ersic  
       Mar 7, 2023
    @BirlGoy 不是可以训练属于自己的模型吗,喂给他语料再提问不行吗
    tool2d
        24
    tool2d  
       Mar 7, 2023
    3.5 的 api 可以做到无限 token ,但是这个 API 还不支持 embed 模型,就挺无奈的。
    locoz
        25
    locoz  
       Mar 7, 2023
    @tool2d #24 我看文档是都有 token 数限制,不知道你说的无限 token 是怎么做到的?
    BirlGoy
        26
    BirlGoy  
    OP
       Mar 7, 2023
    @ersic #7 回答了这个问题。 能满足,更新麻烦。
    tool2d
        27
    tool2d  
       Mar 7, 2023
    @locoz https://platform.openai.com/docs/api-reference/chat/create#chat/create-max_tokens

    写着"max_tokens Defaults to inf", inf 在我的理解中,就是无上限吧。
    locoz
        28
    locoz  
       Mar 7, 2023
    @tool2d #27 回答的最大长度,跟输入的最大长度,应该是两个不同的概念?我这边之前测试 API 是存在 4096 token 的输入限制的。现在的关键问题其实是输入的最大长度。
    locoz
        29
    locoz  
       Mar 7, 2023
    @tool2d #27 输入的最大长度应该是这篇文档中提到的: https://platform.openai.com/docs/models/moderation
    tool2d
        30
    tool2d  
       Mar 7, 2023 via Android
    @locoz 你说得对,确实一个是输入,另一个是输出,虽然都叫 token 。
    106npo
        31
    106npo  
       Mar 8, 2023
    @tool2d Inf 即使用模型的最大 tokens 再减掉输入的 tokens 文档下面就写着
    @locoz 4096 是输入加输出的限制 max_tokens 的说明以及 https://platform.openai.com/docs/guides/chat/managing-tokens 中提到了,文档中举例如果你在输入时用掉了 4090 个 tokens,那返回就只有 6 tokens 可用了
    statumer
        32
    statumer  
       Mar 9, 2023
    @locoz #21 这个不是被 openai 限制的,是 transformer 模型的固有缺陷。
    gr3yman
        33
    gr3yman  
       Mar 10, 2023
    @BirlGoy 作者在 twitter 上的回复在那里?请贴出来看看

    前二天根据 chatpdf 网站上的描述,问过 chatGPT ,回复是要实现这个描述,需要执行以下步骤:

    1. 对 PDF 进行分析以创建每个段落的语义索引。这可以通过使用自然语言处理技术(如词向量表示法和文本分类器)来实现。
    2. 当用户提出一个问题时,将查询该问题并从语义索引中检索相关段落。
    3. 检索到的相关段落将被送往 ChatGPT API 进行进一步处理,并生成最终的答案。

    总的来说,这个过程需要将 PDF 转换成可搜索的形式,并使用 NLP 技术来确定哪些段落与用户的查询相关。

    试了试类似的实现,在英文上确实有点作用。但对中文就不行了
    MannyGPT
        34
    MannyGPT  
       Mar 21, 2023 via Android
    gpt4 出来之后,有没有调用 gpt4 接口的 chatpdf 应用或者类似的
    zhengkk
        35
    zhengkk  
       Apr 23, 2023
    按照同样的原理,是否也可以把 txt 、doc 等文件投喂后定向输出。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5409 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 606ms · UTC 06:48 · PVG 14:48 · LAX 23:48 · JFK 02:48
    ♥ Do have faith in what you're doing.