推荐一下这期播客:大白话聊ChatGPT(Sarah & 王建硕) Sarah提的问题非常
推荐一下这期播客:大白话聊ChatGPT(Sarah & 王建硕)Sarah提的问题非常好,王建硕特别善于用简单的比喻让你明白复杂的道理。比如说关于Fine-Tuning和Embedding,王建硕是这么比喻的:“预训练就有点像你家里面请了一个阿姨,这个阿姨从保洁公司送到你家里面的时候,她其实已经经过预训练了。也就意味着保洁公司已经把如何打扫的这一些做家政的基础的工作,都已经帮你教完了,她已经学会了。所以阿姨来了以后,我不用教她怎么拖地,怎么干什么。甚至于在她进到保洁公司之前,她也经过她的小学老师预训练过汉语了。这样阿姨到我家里面来说,我需要对它进行 fine tune,就是微调,告诉它说我家里面什么地方,你怎么打扫什么东西,怎么摆放。其实可能有 2 个小时的微调,我就可以把阿姨调整到和我家里面的习惯一模一样了,所以这个成本就非常低。但是如果不是用预训练加微调这种模型,你给我一个空白的阿姨,不会讲话,不会讲中文,什么都不会,跟一个 2 岁的 1 岁的娃娃,或者像一个刚出生的宝宝给我。我要从教它这是苹果,那是橘子,教它汉语,直到教到它会有家政,基本上 15 年过去了,对吧。所以用这个例子,我觉得也是 ChatGPT,它帮你培训好了一个模型,这个通用模型包括基础的语言,它的所有的语言,我们现在所知道的它都会几十种语言。它会一些基础基本的逻辑和一些基本的事实。比如它知道苹果甜的,铅球就是重的,苹果是水果的一部分等等这些的知识它都是有的,但是它没有特定知识。比如你要问它我们公司的年假制度是什么,ChatGPT 肯定不知道。所以我需要把这个模型拿过来以后把我的员工手册灌给它,把我的公司产品介绍灌给它,所有的规章制度灌给它,它一下就可以用它的流利的汉语或者西班牙语或者土耳其语,把我的内容解释出来。所以这就是预训练加上微调的好处。所以这种模式不仅仅在 ChatGPT 领域,在很多的比如AI绘画等等这些领域,它都是一个被预训练好的模型,有的甚至都可以直接用了,有的阿姨可能我什么都不用跟她说,她可能就直接用了,也可以再加一些微调就可以了。”“embedding,就是 嵌入,就是 1536 维的向量的本地搜索等等。因为这个部分我们甚至都没有做微调,而仅仅是在本地建个数据库。相类比的话,就是阿姨来了,你就跟她讲了半天,其实她听进去了,你可以知道你改变了阿姨的脑结构里面的某一些的脑细胞的回路、神经元的连接,你稍微改了改,对吧?我把它叫做 Fine-Tuning。但是我甚至对阿姨有另外一种用法,来了以后,我也不让她改任何东西,甚至于她的神经元我一点都不改。只不过每个水壶旁边贴这个纸,上面写着水壶,应该怎么操作,而且它也不需要记住,因为记住就改变了。她不需要记住,她每次用水壶的时候就看了以后并且理解,操作完了以后就忘。其实我们现在用的是这种模式,把整个它所遇到的世界都贴满了这样的纸,而不需要去改变 1750 亿的参数中间的任何的参数。所以这两种方式都是可以做的。只不过我们现在暂时的选择的技术线路是用了到处贴纸的方式,而不是去改它的脑回路的这种方式。”还有它讲的怎么让ChatGPT能报时的例子也很好玩:“所以这里面也在这里透露一个天大的秘密。很多人都想不明白,为什么我们的机器人,你问它几点了?它说现在是晚上 8:29。别人说这不科学呀,一个 2021 年训练的数据不再更新的模型,怎么可能知道现在几点了?感觉跟变魔术一样。我现在把遮的这块布给它掀开,其实很简单,实际上我们给 ChatGPT 的 API 打过去的是这样的一句话,不是现在是几点了,而是现在是 20:29,请问现在是几点了?哈哈哈,OK,这就是一个我们的魔术……”还有关于为什么ChatGPT会胡说八道:“你知道 transformer 一个很重要的东西是,它的整个模型里面有两大非会员试读19%,加入社区后可阅读全文 #求助 我有个问题我模型训练好,是基于Davinci模型下训练的微调模型,在playground是没问题,但我跑去gpt对话那边却没有办法,这种私有的模型要怎么设置让用户得以继续访问呢?
页:
[1]