AI大模型时代的四种玩家 | 大模型系列知识分享(1)AI大
AI大模型时代的四种玩家 | 大模型系列知识分享(1)AI大模型时代的四种玩家 | 大模型系列知识分享(1)大模型发展得如火如荼,很多人对于里面的原理知识也很感兴趣。但是苦于对晦涩难懂的算法不理解。今天,就着在公司内部分享完之后的机会,分几天时间,把近期学习的一些心得体会也写下来分享给更多人,期望用浅显易懂的语言科普给读者朋友们。首先,今天咱们来谈谈,大模型目前有的四种玩家形态。第一种是训练一个基座大模型。目前像我们说OpenAI ChatGPT,谷歌的Gemini,还有Anthropic的Claude,马斯克搞的Grok,包括我们国内的百度、讯飞、商汤、阿里,腾讯、华为等等,他们都有自己的基座大模型。这个玩法的话一般要求必须得有大量的算力。通常训练一次基座大模型的成本都在几千万美元,所以这种一般的小厂是玩不起的。而且大厂基本上都是囤了不少的算力服务器,有自己的数据中心,那这个东西才可以做。你看像阿里、腾讯、华为,他们同时又去做自己的云服务。所以你可以看到他们囤了这些算力后,就准备好了基础来做基座大模型的训练,这也就是从头训练。然后这其中有些大厂,及一些研究机构,他们会开源一些大模型,这个开源大模型任何人都可以拿到,然后就可以在这个开源的基座大模型上做二次训练,训练出垂直领域的大模型。我们刚才说这个开源大模型的发布者其实也属于第一种玩家,第一种玩家他们做了训练之后,他会把这个东西开源出来。开源出来的话,但是目前绝大部分开源大模型,仅仅开源模型权重和推理代码,而训练数据、训练和评估代码这些是没有开源的,比如我们熟知的LLaMA,Qwen,ChatGLM等,最近才听说国外有个研究机构全部开源了,叫做OLMo模型,不过还比较小众。不过,即使是拿到仅仅有模型权重和推理代码的开源大模型,还是帮我们节省了大量的研究时间,接下来就是第二种玩家登场了。第二种玩家,拿到了这个代码、模型权重的话模型权重也可以理解为模型参数。然后就可以利用开源基座模型,通过喂特定领域的训练数据做模型的精调,这个工作量就是做二次训练,训练出一个垂直领域的大模型。垂直领域大模型可以做出很多垂直应用,比如在法律,政府客服、旅行规划、企业客服,电商导购,量化交易,教育,工厂的知识库等等领域。我们做这些垂直的大模型,就可以不用那么耗算力了,相对省钱不少。而且这些垂直领域大模型也可以做私有化的部署,保护数据安全。第三种玩家就是在基座大模型或者领域大模型上面再开发一些应用的APP。就比非会员试读20%,加入社区后可阅读全文
页:
[1]