你真的理解大语言模型么？

如今的行业和资本市场，最火的当属人工智能（AI）领域。2022年11月由OpenAI公司发布的chatGPT产品横空出世，顿时让大语言模型（LLM）火出了圈，知名的互联网公司相继跟进，国外google推出了Bard、微软推出了bing、AWS推出了Titan模型、还有开源的LLaMA模型；国内大模型的发展也如雨后春笋般相继崛起，百度的问心一言、阿里的通义千问、腾讯的混元助手、科大讯飞的星火、百川智能的baichuan大模型、华为的盘古大模型、智谱清言的ChatGLM大模型等。作为很多网络安全从业者，我们不能仅仅只听个热闹，要理解大模型产生的背景和基本原理，这样我们更会震撼大模型所带来的科技革命！

一、AI领域基本的概念和术语

大家经常在别人口中或者文章中提到人工智能（AI）、机器学习、深度学习、监督学习、无监督学习、大语言模型、生成式AI-AIGC等，通过下面的一张图可以比较清晰的认知他们之间的关系：

1713713023_66252f7ff37cd26aa9e06.png!small?1713713024702

人工智能即AI（artificial intelligence），又称机器智能，指由人制造出来的机器所表现出来的智能。他是以计算机科学为基础，融合了计算机、心理学、哲学等多学科的这么一个新兴学科，因此其难度和复杂度可想而知。我们用通俗的话解释，就是人工智能学科解决的是怎么让计算机拥有像“人”的知识和智慧（认知、理解、推理、判断、决策等等）

机器学习是人工智能下的一个子集，要让AI具备人的智慧，首先要做的事情要让机器去学习人类，就是刚出生的小孩子一样，天然是一张白纸，但是经过后期的学习逐步具备了知识和智慧，因此科学家们也采用了这种方式。举个通俗的例子，我给计算机看了10张小狗的照片，当我拿出第11张照片的时候他能够识别出来这是一只小狗而不是小猫小兔，这就是机器学习，说明机器已经初步具备了“人”的认知的能力。当然大家这里可能会有疑问，怎么给计算机看这10张照片那（毕竟它不是人，它就是个机器）？这里就又涉及到新的知识点，就是机器学习的步骤，一般机器学习分为五个步骤（数据采集、数据处理、特征工程、模型选择和模型评价），首先我们要有这10张图片的数据，然后对数据进行预处理，例如打上标签（金毛、拉布拉多、边牧等），然后到最重要的一步特征工程（我们要人工选取一些特征，例如狗的大小、颜色、眼睛、耳朵、腿、尾巴等），第四步选择模型，也就是下面要讲的一些模型算法，通过调整特征参数来使得输入-输出达到较高的准确水平，最后一步就是对模型评价，看效果怎么样，如果效果不好，可能就要换一个算法进行预测。

接下来就是要讲的机器学习算法，通常包括三种学习算法：监督学习算法、无监督学习算法和强化学习算法，也就是图中3个较大的圆圈。

1）监督学习算法是指有拿一些提前处理好的数据集来多模型进行预训练，例如10张照片，5张打上标是狗，另外5张是猫，那么对于模型而言有输入也有正确的输出，通过这些正确的数据集来训练模型，让模型提前知道哪些是猫哪些是狗。这就是监督学习算法（顾名思义，有人的监督参与，预训练数据集），监督学习主要解决2个问题：分类和回归。分类算法主要用来对事物进行分类，例如一堆猫、狗和兔子混合的院子里，通过分类算法可以使得他们分为3堆，猫一堆、狗一堆和兔子一堆。回归算法主要用于连续性预测，例如支付宝芝麻信用，它通过你的消费记录、借款记录、账户金额、投资理财金额、还款记录等来预测你的芝麻信用分。常见的监督学习算法包括神经网络、决策树、朴素贝叶斯、逻辑回归、线性回归等。

2）无监督学习算法相较于监督学习算法就是用没有经过处理的数据集来训练模型（有输入，但是没有对应的输出），相较于监督学习算法，就是数据集有么有人工的做标记，当给定一定的无标记的输入数据时，模型会根据算法（数学运算）进行自学习，基于人工选择的特征进行计算，常用的无监督学习算法是聚类算法、降维算法、概率密度算法、关联规则学习等。（例如，Apriori 算法进行市场篮子分析，以识别诸如消费者经常同时购买咖啡和牛奶的规则。）

3）强化学习算法是借鉴了人类社会活动中的奖惩机制，在算法实现中，加入了反馈网络，输入-输出表现好了，通过反馈网络加强该特征的权重，反之减少该特征的权重，最终在长时间的训练中，通过强化学习技术，让模型更加的符合“你”的口味。

讲到这里，大家会发现，机器学习的三种算法都有一个共性的问题，那就是都需要人工来进行特征提取，这对于小数据而言问题不大，人工基于经验做一些特征提取，但是随着数据量呈现几何级的增长，靠人工提取特征的维度、准确度、复杂度都大幅度的提升，这无疑对算法提出了巨大的挑战，因此深度学习技术应运而生。深度学习算法重点解决了人工智能学习中，自动化特征提取的问题。

深度学习是一种以人工神经网络为架构，对资料（数据、图像、音影等）进行表征学习的算法，所谓的“深度”指的就是多层的意思，具体如下图所示：输入层-隐藏层-输出层。具备3个以上隐藏层以上的神经网络都可以称之为深度学习算法。所以深度学习是神经网络技术（NN）下的一个子集。深度学习常用的算法有卷积神经网络（CNN）、长短期记忆网络（LSTM）、循环神经网络（RNN）、生成对抗网络（GAN）等。

# 数据安全 # 网络安全技术 # 技术分享 # 大数据安全 # 网络安全知识科普

已在FreeBuf发表 0 篇文章

本文为独立观点，未经允许不得转载，授权请联系FreeBuf客服小蜜蜂，微信：freebee2022

被以下专辑收录，发现更多精彩内容

+ 收入我的专辑

+ 加入我的收藏

展开更多