会员服务
default sy_dh
在线客服
chatpdf采用的是embedding方案,谁知道下面2个问题是怎么解决的? 1.搜索准 - AI副业赚钱 - 富裕者联盟社区 - Affiliate营销圈

8回答

0收藏

chatpdf采用的是embedding方案,谁知道下面2个问题是怎么解决的? 1.搜索准

AI副业赚钱 AI副业赚钱 351 人阅读 | 8 人回复 | 2023-04-02

chatpdf采用的是embedding方案,谁知道下面2个问题是怎么解决的?
1.搜索准确性/完备性:上传一个很多页的pdf。在提问时,chatpdf会先搜索出3页,作为背景信息提交给openai api。这三页

加入社区,可阅读全站10w+资源

 非会员试读19%,加入社区后可阅读全文 

分享到:
回复

使用道具 举报

回答|共 8 个

侠客张

发表于 2023-4-2 20:28:25 | 显示全部楼层

好像只能这样,不然就需要GPT学过这些内容
回复

使用道具 举报

大铭

发表于 2023-4-2 20:58:47 | 显示全部楼层

我们必须先做一个前提就是这类的工具必须是通用的适用更多的场景,那么所有的处理原则是做一个不错(not false) 的方案 1/ 不确定 2/ 可以减少一些,就是组装的少一些,但是组装的少,内容回复效果就差
回复

使用道具 举报

风间幻想

发表于 2023-4-2 22:24:04 | 显示全部楼层

ebedding会先向量化,嵌入位置和关联性信息,分成很多chunk,提问时也会把问题向量化,再对比找到关联性的chunk一起提交openai api,我觉得内容不会遗漏,但的确会消耗多一些tokens。
回复

使用道具 举报

风间幻想

发表于 2023-4-2 22:26:27 | 显示全部楼层

如果不想消耗tokens,试试fine-tines方式微调个模型出来,一次性消耗,有定制的模型,后面再提问就只是问题的tokens了,跟embedding实测对比下?
回复

使用道具 举报

BaeBae

发表于 2023-4-3 10:39:41 | 显示全部楼层

这个方案可以理解成:针对每个pdf喂一遍模型,没法避免
回复

使用道具 举报

王劼

发表于 2023-4-3 16:03:10 | 显示全部楼层

请问有没有什么书籍或者学习网站可以0-1学习您提到的这些内容的(小白请教)
回复

使用道具 举报

xingqing

发表于 2023-4-3 18:34:10 | 显示全部楼层

有些问题会有遗漏,比如上传一个50页的文档,问:这个文档有多少页?它就不知道了。
回复

使用道具 举报

ttyml

发表于 2023-4-3 18:35:03 | 显示全部楼层

fine tuning的单价很贵
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭