对比了一下ChatPDF 和 ChatDoc，以及自己写的一个对PDF向量化之后，利用ope

程序员赤小豆 发表于 2023-3-26 21:49:56

对比了一下ChatPDF 和 ChatDoc，以及自己写的一个对PDF向量化之后，利用openai的模型来query的例子，差别蛮大的。ChatPDF足够灵活，能够回答不限于当前PDF的内容，能够对用户在阅读pdf过程中遇到的各种问题进行解答，拥有chatgpt的“聒噪”感。ChatDoc和ChatPDF比
非会员试读19%,加入社区后可阅读全文

晓峰发表于 2023-3-26 22:19:49

www.chatspdf.cn国内中文版，可以去试试效果

龙啸云 发表于 2023-3-26 23:34:33

个人猜测原因：1）prompt可能需要优化；2）搜索结果embedding质量需要评估

牛皮马甲 发表于 2023-3-27 11:50:52

我在想一个问题chat之所以能够对bing进行加成的，是因为他背后的语义了解用户输入一个问题以后，人工智能能够理解它背后的需求。但是你现在向量化以后，用户的需求通过你向量化相似度计算后在数据库里面进行搜寻，但是如果计算相似度有用的话，人工智能的意义其实就不大了，相似度的局限性正是人工智能要去弥补的。所以目前这种向量的话，大文本，然后提供相似文本快的方式更多的是无奈之举，因为你提供最相似的文本块，仅仅是向量上的相似，而并不一定是用户他希望了解的。特别是在文本足够长的情况下。

程序员赤小豆 发表于 2023-3-27 12:27:00

这个是目前为了给chatgpt额外的数据的一种方案，因为目前chatgpt的数据不一定覆盖全网的内容

幸运石 发表于 2023-3-28 00:44:48

需要尽可能压缩信息量，在有限的token限制上，携带更多上下文给ChatGPT，再就是向量化的知识切片优化这个不好处理，向量关联出来的内容依然产出API的限制长度，内容丢失就不精准了

页: [1]

富裕者联盟社区's Archiver

对比了一下ChatPDF 和 ChatDoc，以及自己写的一个对PDF向量化之后，利用ope