“ChatGPT们”的淘金时代

作者:亿网科技  来源:亿网科技  发布时间:2023-04-04

39.png

言语(即读写才干)是人类最重要的创造,也是人类与其它物种的最大差异。言语使咱们把握了笼统推理,开展出了复杂思维,学会了与别人沟通交流。可以说,没有言语就不会有现代文明。

因而,未来几年大型言语模型(LLM)将极大地影响生成式AI的开展,ChatGPT的敏捷遍及便是很好的例子。此外,LLM还在多种场景得到运用,比方内容创建、代码生成、药物开发、翻译、搜索以及作业场所实用程序(例如会议转录和摘要)。

总归,生成式AI的最新进展标志着AI已然跨进新时代。AI如今不再只是研究课题,而是成为了帮助人们解决实践问题的实用工具,在各行各业发光发热。因而,企业必需求重视AI的影响力。

面临AI的开展,企业要当即行动起来,保持本身竞争力。长时间来看,未能与AI交融的公司将在这场竞争浪潮中日益落后,并逐渐消亡。对于企业来说,最要害的是要把控好AI的优势和本钱,采纳必要措施将AI归入开展规划。未来几年将会是商业开展的黄金时期,新式企业已如雨后春笋般呈现。

本文首要重视LLM,包含LLM和模型相关技术概述,以及它们在实践中的运用。期望本文可以帮助从业者了解怎么在事务中运用LLM,使职业潜在出资者全面了解这一范畴,作出更好的出资决议。虽然咱们提供的框架(例如各类AI公司的分类)适用于全部生成式AI,但这里还是以LLM示例为主。

(本文经授权后由OneFlow编译,译文转载请联系OneFlow获得授权。原文:https://aigeneration.substack.com/p/ais-next-frontier-building-and-investing)

1
从Transformer到ChatGPT

AI范畴常有开创性论文宣布,这些论文影响着职业的未来开展方向。LLM范畴中,“Attention Is All You Need”便是这样一篇论文。

这篇文章由谷歌团队于2017年宣布,在文中,他们提出了一种名为Transformer架构,简略来说,与当时的SOTA替代计划比较,Transformer架构具有高度并行性和核算功率,一起具有超高功能。

这意味着,采用Transformer架构的模型练习本钱更低、速度更快,生成的模型功能更好。在不影响功能的情况下,这种低本钱、高效的组合十分重要,它可以让咱们运用更多的数据,练习更大的模型。

受Transformer启发,在Transformer架构的根底上,各类知名LLM层出不穷,例如:生成式预练习Transformer(GPT)模型、BERT以及XLNet。

有关GPT(1.0)和BERT的论文最早可以追溯到2018年。次年(即2019年)宣布了第一篇关于XLNet的论文。尽管如此,直到2022年末,OpenAI推出ChatGPT后,LLM才进入群众视界,开端风行于研究界之外。

ChatGPT推出后,不到一周的时间里,就收成了超百万用户。这种遍及速度十分稀有,简直超越了以前全部的科技产品。台上十分钟,台下十年功,全部的打破性成就必然来自于废寝忘食的尽力。根据GPT-3.5的ChatGPT是LLM范畴多年以来的最重要的成就。实践上,ChatGPT的根底模型并不是最好的LLM,但却是现在最受欢迎的模型。

时间会证明全部。在咱们看来,ChatGPT最重要的是作为PoC(为观点提供证据),向国际展示LLM的才干。尽管ChatGPT发布初期十分火爆,但咱们不确定它能否成为主流LLM之一,在实践用例中获得广泛运用。原因如下:

1
根底模型vs专用模型

根底大型言语模型是在大量揭露文本、数据(例如,维基百科、新闻文章、Twitter、在线论坛等)进步行练习的。模型练习数据论题广泛,内容冗杂,并不针对特定范畴和使命,这类模型包含:GPT-3,Jurassic-1,Gopher和MT-NLG。

现在,虽然建立在根底AI模型(如ChatGPT)之上的运用程序十分流行,但咱们估计,专用于特定范畴或使命的模型才干发挥出LLM的真实价值。由于与相同模型巨细的根底模型比较,在专业范畴里,专用模型的表现一般来说更好。这意味着,咱们需求用更大的根底模型(这也意味着更高的推理本钱和更大的内存占用)才有或许在专业范畴完成与专业模型相同的功能。

专用模型比根底模型表现更好的原因之一与模型对齐有关,即LLM的输出与模型用户的方针和兴趣相对应的程度。更好的模型对齐意味着答案是正确且相关的,也便是说正确答复了模型恳求的问题。由于专用模型仅重视特定范畴或使命,因而与根底模型比较,专用范畴模型的对齐程度一般更高。

咱们有多种方法完成模型的专用化,其中之一便是运用专用范畴或使命的数据来练习根底模型。比方,一个根底模型可以很好地答复银行相关的一般问题,但是,如果你想要打造一个专门针对银行的谈天机器人,那么这个通用模型的功能水平就不太够用了。这时,咱们就可以运用银职业相关的数据集来练习这个模型,完成模型专业化。反过来,假如有一家银行想要在客服服务中运用谈天机器人,从而完成简略使命的自动化,此刻银行或许会在实践客户服务对话的专门数据进步一步练习这个专业模型。像这样练习今后,LLM就能学会特定银行依照必定方针的行事方法,究竟不同银行或许有不同的方针和指导方针。

由于专用模型针对的是特定使命,不触及其它不相关的范畴和使命,所以说,不需求用到很大的根底模型来进行进一步练习。运用更小的模型意味着更低的推理本钱和更小的内存占用,也便是说,比最大的可用模型小得多的根底模型或许会成为专用根底模型的首选。

2
LLM怎么改善?

为了更好地了解LLM的功能和局限性,咱们首先要了解该怎么改善它们。LLM的改善有三个首要驱动要素,别离是:体系结构改善、更大的模型、更多的练习数据。接下来咱们将对这三方面进行逐一介绍。

架构改善是要害,但很难获得打破

架构改善(例如2017年的Transformers架构)可以在不添加模型复杂度和练习数据量的情况下进步LLM功能。现在正在构建的大都SOTA功能LLM仍然是根据Transformer的网络架构(与2017年推出的架构十分相似)。尽管它具有已知的局限性(例如自注意导致的二次方时间和内存复杂性),但现在还没有广受认可的架构更新。话虽如此,人们一直在不断探究,企图改善架构,并为此推出了所谓的高效Transformers来消除已知局限。

对现有SOTA架构的渐进式改善(如高效Transformers)将逐年打破模型功能界限。此外,每隔一段时间,职业就会迎来打破性的架构改善(例如原始Transformer架构),这些改善代表着模型功能的跨越式进步。

与添加模型巨细和练习数据量比较,改善模型架构较为困难。模型架构改善遵循传统研发模式,需求斗胆立异,且无法保证结果,因而,LLM的此类功能改善最为棘手,一起也是架构渐进式进步与打破向社区发布和共享的标准。除了首先运用先进模型,这意味着这类进步不能作为长时间优势去与其它构建LLM的公司或对手竞争。例如,OpenAI的LLM是以Google Brain 2017年创造并揭露的Transformer为根底。

LLM改善经典做法:扩展模型规划

现在,为了进步LLM功能,人们将大部分精力放在了添加模型巨细上面。2020年,OpenAI宣布了一篇论文,提出了在添加模型尺寸与进步模型功能之间的扩展定律,论文的结论是:人们应该将大部分预算用于扩展模型规划。这篇论文直接推动了增大模型规划的浪潮。下图出自论文Machine Learning Model Sizes and the Parameter Gap,图中显现近年来言语模型巨细呈明显添加趋势。

2019年之前,大大都LLM的参数都在数亿级。2019年,OpenAI发布了有15亿参数的 GPT-2。2020年,谷歌和微软发布了T5和Turing NLG,别离包含110亿和170亿个参数。2020年年中,OpenAI发布了1750亿个参数的GPT-3。从那时起,大型模型开端连续呈现,例如AI21的Jurassic-1(1780亿个参数)、DeepMind的Gopher(2800亿个参数)、Nvidia和微软的MT-NLG(5300亿个参数)以及北京智源研究院的WuDao 2.0(1.75万亿个参数)。

LLM之所以可以经过添加模型规划来进步功能,是由于这样做能进步模型对复杂实际的建模才干。由于Transformer架构速度快、性价比高,一直是练习大型模型的首选。但是,在同等条件下,更大的模型也意味着更高的练习和推理本钱,一起也意味着更大的内存占用,也便是说,模型需求部署在更大的硬件上。因而,在预算和内存有限的情况下,盲目扩展模型规划并不是进步模型功能的最佳挑选。

大规划练习数据集的竞赛

一直以来,人们都低估了练习数据在模型功能进步方面的重要性,这种重要性包含质量和数量两方面。2022年DeepMind团队宣布了一篇论文(https://arxiv.org/pdf/2203.15556.pdf),文中对比了模型巨细和练习数据,终究结论是:大都言语模型明显练习不足。也便是说,在不添加模型巨细的情况下,在更大的数据集上练习模型将收获颇丰。

文中,DeepMind团队练习了一个相对较小的LLM,名为Chinchilla,这个模型只要700亿个参数,但却有1.4万亿个练习token。经过练习,Chinchilla模型的功能超越了比如GPT3、Gopher、Jurassic-1和MT-NLG等更大的言语模型,这些言语模型的参数都在1750亿-5300亿之间,但练习token却在2700亿-3000亿之间(请参见下表)。这表明为了进步模型功能,人们必将打响练习数据集之战。