实现pdf转ChatGPT训练语料的过程和问题。 1、pdf用OCR转文字 2、循环截取一
实现pdf转ChatGPT训练语料的过程和问题。1、pdf用OCR转文字2、循环截取一段文字,让chatgpt给这段文字设计几个问题3、让chatgpt根据这段文字回答上面的问题这样就可以把pdf批量转化成可用fine-tuning的json语料。问题出在循环截取文字上,由于每次发送token的数量限制,很容易出现截断文字的时候,把一个完整的内容截非会员试读19%,加入社区后可阅读全文 数量限制可以分词替换或者压缩 中文分词失真太大。。。
页:
[1]