ALer 发表于 2023-4-3 19:54:57

模型微调-tokens讨论 关于openai公司的模型微调文档(官网链接): 可供

模型微调-tokens讨论关于openai公司的模型微调文档(官网链接):https%3A%2F%2Fplatform.openai.com%2Fdocs%2Fguides%2Ffine-tunin... 可供微调的模型和成本:个人使用API是希望进行微调,得到一个投资专用的策略模型。在原有的计划,我是打算从头训练纯预测模型,和大型LLM训练的模式差不多,都需深度机器学习。(这里分享一个和GPT-4讨论得知的网站:Kaggle%3A+Your+Machine+Learning+and+Data+Science+Com... ...关于openai公司的模型微调文档(官网链接):微调 - OpenAI API可供微调的模型和成本:个人使用API是希望进行微调,得到一个投资专用的策略模型。在原有的计划,我是打算从头训练纯预测模型,和大型LLM训练的模式差不多,都需深度机器学习。(这里分享一个和GPT-4讨论得知的网站:Kaggle: Your Machine Learning and Data Science Community,可直接在上面进行机器学习训练,而无需有GPU,最长可运行6小时,一般小模型足够测试)主要考虑的都是成本问题,投资专用的预测模型头开始训练,或基于openai公司开发的模型进行微调。和GPT-4进行交流,大概知道手上的数据如果转换为训练数据,占用的token数量以下是讨论过程,如希望调用API进行微调,可供参与:GPT-4:微调定价分为两部分:训练和使用。训练:在对模型进行微调时,会根据训练费率对所使用的总tokens进行计费。需要注意的是,训练tokens的数量取决于您的训练数据集中的tokens数量以及您选择的训练epochs数量。默认的训练epochs数量为4。计算训练tokens的公式为:(训练文件中的tokens数量 * 训练epochs数量) = 总训练tokens使用:在完成微调后,您只需支付您实际使用的tokens。发送给微调模型的请求将按照使用费率计费。这两部分费用将结合您之前提供的各个模型的定价信息,帮助您了解在微调和使用这些模型时可能产生的成本。请注意在执行任务时遵循OpenAI的使用政策和指南。如果您在微调过程中遇到任何问题或疑问,请随时告诉我,我会尽力帮助您解决。aler:我现在要对模型进行微调,让模型变成一个期权交易策略专用模型。需要用到10年期权交易数据,原始数据文本大小为10Tb,我要用这么大的数据集,微调用的Ada模型,训练费用是多少?GPT-4:要计算微调费用,我们首先需要确定训练数据集中的tokens数量。然而,您提供的原始数据大小是10TB,我们需要将这个数据大小转换为tokens数量才能进行计算。假设您已经将原始数据处理为适合训练模型的格式。然后,您需要计算数据集中的tokens数量。一旦您得到数据集中的tokens数量,您可以使用之前提供的公式来计算训练费用:(训练文件中的tokens数量 * 训练epochs数量)= 总训练tokens由于Ada模型的训练费用是每1000个tokens $0.0004,我们可以使用以下公式计算费用:总训练费用 = 总训练tokens / 1000 * $0.0004请注意,处理如此大量的数据(10TB)可能会在计算资源和时间上带来挑战。在实际操作中,您可能需要考虑缩小数据集规模、使用更高级的模型或采用其他策略来提高训练效率。另外,如果您希望从头开始训练模型,而不是对预训练模型进行微调,您可能需要考虑其他训练方法和成本。在这种情况下,建议您查阅有关训练深度学习模型的文献以了解更多详细信息。aler:如果原始数据都是交易数据,则基本为数字,作为一个LLM模型,你们能够处理这样的数据吗?GPT-4:是的,作为一个大型语言模型,GPT系列模型可以处理数字和其他类型的交易数据。然而,为了让模型更好地理解和处理这些数据,您需要对数据进行适当的预处理。预处理可能包括以下步骤:数据清洗:确保数据没有错误、缺失值或其他不一致。数据格式化:将数据转换为模型能够理解的格式。例如,您可以将交易数据转换为具有结构化格式的文本,如CSV、JSON等。这样可以帮助模型更容易地解析数据。添加上下文信息:为了帮助模型更好地理解数据,您可以为数据添加一些上下文信息。例如,您可以在数据中包含一些描述性文本,如"股票代码:AAPL,交易日期:2021-09-01,开盘价:$150"等。在预处理数据后,您可以使用分词器将文本划分为tokens,然后输入到模型中进行训练或预测。请注意,处理大量数据可能会对计算资源和时间产生影响。在实际操作中,您可能需要考虑缩小数据集规模、使用更高级的模型或采用其他策略来提高训练效率。aler:如果这些转换为训练数据格式是怎样呈现的,可以转换一下格式吗?部分数据:ticker        earnDate        anncTod        ···········GPT-4:为了将这些数据转换为训练数据格式,您可以将它们转换为一个结构化的文本格式,例如JSON。这有助于模型更容易地解析和理解数据。以下是一个将您提供的数据转换为JSON格式的示例:jsonCopy code[{    "ticker": "A",    "earnDate": "2021/11/22",    "anncTod": 1630,},{    "ticker": "A",    "earnDate": "2021/8/17",    "anncTod": 1630,},...]在转换数据格式之后,您可以使用分词器将文本划分为tokens,然后输入到模型中进行训练或预测。请注意,处理大量数据可能会对计算资源和时间产生影响。在实际操作中,您可能需要考虑缩小数据集规模、使用更高级的模型或采用其他策略来提高训练效率。aler:你可以将分词器将以上文本划分为tokens呈现一下吗?GPT-4:我无法直接运行代码,但我可以给你一个使用Hugging Face的Tokenizer库来将JSON数据转换为tokens的示例代码。首先,确保已安装Hugging Face的Transformers库:bashCopy codepip install transformers然后,您可以使用以下代码示例将JSON数据转换为tokens:pythonCopy codefrom transformers import GPT2Tokenizerjson_data = [{    "ticker": "A",    "earnDate": "2021/11/22",    "anncTod": 1630,   },...]tokenizer = GPT2Tokenizer.from_pretrained("gpt2")# 将 JSON 数据转换为文本字符串text_data = "\n".join()# 使用分词器将文本转换为 tokenstokens = tokenizer.encode(text_data)print(tokens)这段代码将加载GPT-2的分词器,然后将JSON数据转换为文本字符串。接下来,它使用分词器将文本字符串编码为tokens。注意,这里使用的是GPT-2分词器,您可以根据需要替换为其他预训练模型的分词器。aler:以上代码可以在pycharm运行吗?还是说需要下载GPT-2分词器GPT-4:是的,以上代码可以在PyCharm或其他Python IDE中运行。在运行代码
非会员试读19%,加入社区后可阅读全文

自媒体人-店小二 发表于 2023-4-6 00:08:14

#求助 我有个问题我模型训练好,是基于Davinci模型下训练的微调模型,在playground是没问题,但我跑去gpt对话那边却没有办法,这种私有的模型要怎么设置让用户得以继续访问呢?

ALer 发表于 2023-4-6 00:13:14

我觉得这个问题应该去问GPT-4,取决于你的需求是把微调好的模型打包成一个端口给其他人用还是纯粹想在官网体现微调好的模型,是两个问题,都可以问GPT-4

自媒体人-店小二 发表于 2023-4-6 00:18:50

我问了3.5说要有自己服务器,忘记了去问问4,今晚太无奈了,发现训练好了但居然是私密的,太难了,今晚好多圈友估计被我揍

地铁馒头 发表于 2023-4-6 02:41:47

神经网络调参无规律可言的,整个是黑盒。
页: [1]
查看完整版本: 模型微调-tokens讨论 关于openai公司的模型微调文档(官网链接): 可供