会员服务
default sy_dh
在线客服
实现pdf转ChatGPT训练语料的过程和问题。 1、pdf用OCR转文字 2、循环截取一 - AI副业赚钱 - 富裕者联盟社区 - Affiliate营销圈

2回答

0收藏

实现pdf转ChatGPT训练语料的过程和问题。 1、pdf用OCR转文字 2、循环截取一

AI副业赚钱 AI副业赚钱 206 人阅读 | 2 人回复 | 2023-03-21

实现pdf转ChatGPT训练语料的过程和问题。
1、pdf用OCR转文字
2、循环截取一段文字,让chatgpt给这段文字设计几个问题
3、让chatgpt根据这段文字回答上面的问题
这样就可以把pdf批量转化成可用fine-tuning的json语料。
问题出在循环截取文字上,由于每次发送token的数量限制,很容易出现截断文字的时候,把一个完整的内容截成两段,造成




加入社区,可阅读全站10w+资源

 非会员试读19%,加入社区后可阅读全文 

分享到:
回复

使用道具 举报

回答|共 2 个

roger

发表于 2023-3-21 23:54:33 | 显示全部楼层

数量限制可以分词替换或者压缩
回复

使用道具 举报

coco

发表于 2023-3-22 00:01:13 | 显示全部楼层

中文分词失真太大。。。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭