AIGC从入门到实战：ChatGPT+Midjourney+Stable Diffusion+行业应用

上QQ阅读APP看书，第一时间看更新

第1章落霞与孤鹜齐飞：AIGC汹涌而来

1.1 涌现：人工智能的应用

1.1.1 基于大模型的人工智能应用的涌现和爆发

在远古的地球上发生了一个重要事件：寒武纪生命大爆发。那是指在5.4亿年前的寒武纪，新的生命形态大量出现的过程。

在那之前，地球上的生命形态相对单一，生命活动主要是单细胞微生物的简单代谢，缺乏多样性。

当海水的氧气水平略微超过某个阈值，生物便能够更高效地进行代谢，这个微小的变化对于地球生命的演化来说却具有深远的影响：氧气的增加促进了生物体的进化和分化，大量生物种类涌现，有机体的形态日益多样、结构越发复杂。涌现仅在一瞬之间——从混沌态中出现的多种多样的生物，构成了绚烂的生物世界，如图1-1所示。

图1-1

和寒武纪的生物进化近似的是，基于大模型的人工智能应用也是这样涌现的。

自2016年3月，DeepMind公司的AlphaGo战胜围棋世界冠军李世石后，人工智能一直在飞速发展，只是和寻常人的交集并不多，通常会在某个特定领域或项目中表现卓越。

而2016年后，在人工智能的自然语言处理领域，随着开源GPT版本的不断演进，Open AI公司在这个基础上持续研究，不断探索、引入新的技术路线，尤其在引入强化学习方法后，很好地提升了模型的效果。

Open AI在模型训练中，引入了人类专家。人类专家一方面能帮助ChatGPT撰写更符合人类习惯的回答，另一方面，也对生成的结果进行排名，实现模型的优化。

而且Open AI自成立之初，就致力于打造通用人工智能（Artificial General Intelligence，AGI），并坚定地持续投入研究。在这样的愿景下，Open AI吸引了一大批高水平的人才，心无旁骛地开展研发工作。当商用GPT大模型的训练参数到达1750亿个时，人工智能也在一瞬间爆发了。

ChatGPT很快便万众瞩目，影响力“破圈”，引发了大众的关注，激发了大众的热情和创造力，大家基于各自感兴趣的话题与ChatGPT“聊天”，或幽默搞笑、或严肃认真，“聊天记录”在朋友圈和媒体上屡屡“刷屏”。还有人用它写新闻、作诗、翻译、编写代码，引发了热议。

2023年1月25日，美国财经杂志《财富》给予了ChatGPT一段精彩的评价：在每一代人的时代里，总有一些创新产品，会突然从工程部门昏暗的地下室里、年轻书呆子们气味难闻的卧室里，或者孤僻的科技嗜好者的“藏身之处”诞生，最终发展成为广大人群，包括你的祖父母在内的各个年龄层人士都能熟练操作的日常用品。

2023年3月21日，在英伟达主办的2023年GTC（GPU Technology Conference，GPU技术大会）上，英伟达的首席执行官黄仁勋提出了“AI的iPhone时刻”的概念，表示以ChatGPT为代表的基于大模型的AI技术，和iPhone横空出世一样，已经到达了给行业带来革命性颠覆的时间点。

说到这里，想必大家会有疑问：什么叫大模型，人工智能大模型是什么？

人工智能大模型是支撑ChatGPT的基石。

之前，人工智能大多针对特定的场景应用进行训练，生成的模型难以迁移到其他场景，属于“小模型”的范畴。整个训练过程中，不仅手工调参工作量大，还需要给机器“投喂”海量的标注数据，这拉低了人工智能的研发效率，且成本较高。

大模型通常是在无标注的大数据集上，采用自监督学习的方法进行训练的。之后，在其他场景的应用中，开发者只需要对模型进行微调，或采用少量数据进行二次训练，就可以满足新应用场景的需要。

这意味着，对大模型的改进可以让所有的下游小模型受益，大幅扩展人工智能的适用场景，提升人工智能研发效率，因此大模型成为业界重点投入的方向，Open AI、谷歌、Meta、微软、百度、阿里巴巴、腾讯、华为等纷纷推出了自己的大模型。

特别是OpenAI GPT 3大模型，它在翻译、问答、内容生成等领域的不俗表现，让业界看到了实现通用人工智能的希望。

当前ChatGPT是基于GPT-3.5的，在GPT-3的基础之上进行了调优，能力进一步增强。

ChatGPT是AIGC （Artificial Intelligence Generated Content，人工智能生成内容）的代表性应用之一，我们可以将其理解为，ChatGPT主要实现人工智能的文生文（根据提示文字，利用大模型生成文字内容），而其他的AIGC工具则会不同程度地生成其他内容，譬如图片、音频、视频。

目前，在各大公司推出的AIGC产品中，ChatGPT遥遥领先并有望延续自己的优势。当然，AIGC产品也十分丰富，相关应用层出不穷，并日渐成熟，如表1-1所示。

表1-1　主要的AIGC产品

AIGC大潮出现的一大好处是，AI应用门槛迅速下降，它变成了所有人都能用，所有行业都能用的“技术工具”。用唐朝诗人刘禹锡的诗句来形容就是，旧时王谢堂前燕，飞入寻常百姓家。

1.1.2 人工智能应用大规模涌现的原因

大模型基础上的人工智能应用大规模涌现，有多方面原因。

首先，随着硬件技术的不断发展，计算能力得到了大幅提升，让训练更大、更复杂的模型成为可能。例如，图形处理器（Graphics Processing Unit，GPU）、张量处理器（Tensor Processing Unit，TPU）等专门为人工智能任务设计的硬件加速器，以及分布式计算等技术，都为大模型的训练提供了强有力的支持。

其次，数据的大量积累和开放十分有利于机器学习和深度学习模型的训练和优化。特别是互联网和移动设备等的广泛应用，产生了大量的结构化和非结构化数据，如图像、文本、语音等，丰富了机器学习和深度学习的语料库。

再次，新的算法和模型的涌现也推动了大模型的发展。例如，BERT、GPT等基于Transformer结构的预训练模型，在自然语言处理领域表现出色，得到了大规模应用。同时，强化学习、生成对抗网络（Generative Adversarial Network，GAN）、变分自编码器（Variational AutoEncoder，VAE）等新兴算法和模型也在更多的应用场景中发挥着作用。

最后，云计算、容器化、自动化运维等技术的发展，为人工智能的大规模部署提供了可靠的基础设施和运营支持。这些技术为企业和组织提供了便利，创造了经济效益，使得人工智能应用可以更加快速、有效地被部署和应用。

1.1.3 人工智能应用发展较快的领域

表1-2中列出的人工智能应用领域，在ChatGPT、Midjourney等为代表的大模型应用出现前后发展都比较快，未来发展速度会更快，但是具体应用内容有所差别。

表1-2　大模型应用出现前后人工智能应用示例

以上只是当前涌现的一部分人工智能应用，随着技术的不断发展和创新，未来还将涌现更多的人工智能应用。

第1章 落霞与孤鹜齐飞：AIGC汹涌而来

1.1 涌现：人工智能的应用

1.1.1 基于大模型的人工智能应用的涌现和爆发

1.1.2 人工智能应用大规模涌现的原因

1.1.3 人工智能应用发展较快的领域

第1章落霞与孤鹜齐飞：AIGC汹涌而来