对比了一下ChatPDF 和 ChatDoc,以及自己写的一个对PDF向量化之后,利用ope
对比了一下ChatPDF 和 ChatDoc,以及自己写的一个对PDF向量化之后,利用openai的模型来query的例子,差别蛮大的。ChatPDF足够灵活,能够回答不限于当前PDF的内容,能够对用户在阅读pdf过程中遇到的各种问题进行解答,拥有chatgpt的“聒噪”感。ChatDoc和ChatPDF比非会员试读19%,加入社区后可阅读全文 www.chatspdf.cn国内中文版,可以去试试效果 个人猜测原因:1)prompt可能需要优化;2)搜索结果embedding质量需要评估 我在想一个问题chat之所以能够对bing进行加成的,是因为他背后的语义了解用户输入一个问题以后,人工智能能够理解它背后的需求。但是你现在向量化以后,用户的需求通过你向量化相似度计算后在数据库里面进行搜寻,但是如果计算相似度有用的话,人工智能的意义其实就不大了,相似度的局限性正是人工智能要去弥补的。所以目前这种向量的话,大文本,然后提供相似文本快的方式更多的是无奈之举,因为你提供最相似的文本块,仅仅是向量上的相似,而并不一定是用户他希望了解的。特别是在文本足够长的情况下。 这个是目前为了给chatgpt额外的数据的一种方案,因为目前chatgpt的数据不一定覆盖全网的内容 需要尽可能压缩信息量,在有限的token限制上,携带更多上下文给ChatGPT,再就是向量化的知识切片优化这个不好处理,向量关联出来的内容依然产出API的限制长度,内容丢失就不精准了
页:
[1]