chatpdf采用的是embedding方案,谁知道下面2个问题是怎么解决的? 1.搜索准
chatpdf采用的是embedding方案,谁知道下面2个问题是怎么解决的?1.搜索准确性/完备性:上传一个很多页的pdf。在提问时,chatpdf会先搜索出3页,作为背景信息提非会员试读19%,加入社区后可阅读全文 好像只能这样,不然就需要GPT学过这些内容 我们必须先做一个前提就是这类的工具必须是通用的适用更多的场景,那么所有的处理原则是做一个不错(not false) 的方案
1/ 不确定
2/ 可以减少一些,就是组装的少一些,但是组装的少,内容回复效果就差 ebedding会先向量化,嵌入位置和关联性信息,分成很多chunk,提问时也会把问题向量化,再对比找到关联性的chunk一起提交openai api,我觉得内容不会遗漏,但的确会消耗多一些tokens。 如果不想消耗tokens,试试fine-tines方式微调个模型出来,一次性消耗,有定制的模型,后面再提问就只是问题的tokens了,跟embedding实测对比下? 这个方案可以理解成:针对每个pdf喂一遍模型,没法避免 请问有没有什么书籍或者学习网站可以0-1学习您提到的这些内容的(小白请教) 有些问题会有遗漏,比如上传一个50页的文档,问:这个文档有多少页?它就不知道了。 fine tuning的单价很贵
页:
[1]