coco 发表于 2023-3-21 13:59:13

实现pdf转ChatGPT训练语料的过程和问题。 1、pdf用OCR转文字 2、循环截取一

实现pdf转ChatGPT训练语料的过程和问题。1、pdf用OCR转文字2、循环截取一段文字,让chatgpt给这段文字设计几个问题3、让chatgpt根据这段文字回答上面的问题这样就可以把pdf批量转化成可用fine-tuning的json语料。问题出在循环截取文字上,由于每次发送token的数量限制,很容易出现截断文字的时候,把一个完整的内容截
非会员试读19%,加入社区后可阅读全文

roger 发表于 2023-3-21 23:54:33

数量限制可以分词替换或者压缩

coco 发表于 2023-3-22 00:01:13

中文分词失真太大。。。
页: [1]
查看完整版本: 实现pdf转ChatGPT训练语料的过程和问题。 1、pdf用OCR转文字 2、循环截取一