人工神经网络及其应用

yange大约 20 分钟人工智能人工智能

一、神经元与神经网络

前言

定义

人工神经网络（ANN）的核心是模拟人脑生物神经元的结构和工作原理，由大量简单的人工神经元通过广泛连接构成，是一种隐式的知识表示方法（知识存储在神经元之间的连接权值中，而非显式的规则/公式）。

1.1 生物神经元的结构

人脑由约 $10^{11}$ ~ $10^{14}$ 个神经细胞（神经元）组成，大脑皮层约140亿个、小脑皮层约1000亿个，每个神经元与1000~10000个其他神经元相连，形成复杂的网状结构。

生物神经元的核心组成（输入→处理→输出）

树突：神经元的输入端，接收其他神经元传递的信号；
细胞体：神经元的处理中心，对树突接收的信号进行整合计算；
轴突：神经元的输出端，将细胞体处理后的信号传递给其他神经元；
突触：神经元之间的连接节点，是信号传递的关键，突触的传递作用可增强/减弱（对应学习与遗忘）。

生物神经元的工作状态

神经元通过细胞膜电位判断是否传递信号，核心是阈值判断：

兴奋状态：细胞膜电位 > 动作电位阈值 → 产生神经冲动，向其他神经元传递信号；
抑制状态：细胞膜电位 < 动作电位阈值 → 不产生神经冲动，抑制信号传递。

1.2 神经元数学模型

1943年McCulloch和Pitts提出M-P模型，是第一个人工神经元数学模型，模拟生物神经元的输入、整合、阈值判断与输出。

公式：
$net = \sum_{i=1}^n w_i x_i - \theta$
$y = f(net)$

激活函数（阶跃函数）：
$f(net)=1$ ，当 $net \ge 0$
$f(net)=0$ ，当 $net < 0$

符号说明：

$x_1,x_2$ ：输入（天气、时间）
$w_1,w_2$ ：权重
$\theta$ ：阈值
$y$ ：输出（1出去散步，0不出去）

实例：是否出去散步 👈

设：

天气 $x_1$ ，好=1，不好=0
时间 $x_2$ ，合适=1，不合适=0
权重 $w_1=0.8，w_2=0.7$
阈值 $\theta=1$

计算：
$net = w_1 x_1 + w_2 x_2 - \theta$

例1：天气好、时间合适
$net=0.8×1+0.7×1-1=0.5 \ge 0$
$y=1$ → 出去散步

例2：天气好、时间不合适
$net=0.8×1+0.7×0-1=-0.2 < 0$
$y=0$ → 不出去

1.3 神经网络的核心拓扑结构

拓扑结构就是神经元的排列连接方式，主要分2类，重点记前馈型（最常用）：

1. 前馈型（前向型）神经网络

结构：神经元按「输入层→隐层（隐藏层）→输出层」分层排列，信号单向传播（只能从输入到输出），层间不反馈、层内不连接。
特点：结构简单、容易训练，日常用得最多。
典型：BP神经网络、卷积神经网络（后续重点学的）。

2. 反馈型神经网络

结构：神经元之间双向连接，信号可正向传、也可反向反馈（比如自身输出再当输入）。
特点：有记忆性，能稳定下来，适合做联想记忆、优化问题。
典型：Hopfield神经网络。

1.4 神经网络的工作方式（信息处理方式）

按神经元调整状态的同步性，分2种，简单理解为“同时动”和“逐个动”：

同步（并行）方式：同一时刻，所有神经元一起调整状态，处理信息快、效率高。
异步（串行）方式：同一时刻，只有1个神经元调整，其他不变，稳定性更强。

神经网络的学习说白了就是调整神经元之间的连接权值，让网络能 “记住” 输入和输出的关系，比如输入 “天气、时间”，能输出 “是否散步”，后续遇到新数据也能准确判断。

二、BP神经网络

前言

定义

1.时间线

1. BP（误差反向传播）神经网络

思想萌芽：1974年
Paul Werbos 在博士论文中首次提出反向传播思想，但未被学界重视。
正式系统提出并普及：1986年
Rumelhart、Hinton、Williams 在《Nature》正式发表 BP 算法，解决多层前馈网络权值训练问题，引发神经网络复兴。

2. Hopfield 神经网络

首次提出：1982年
美国物理学家 John J. Hopfield 发表论文，提出离散 Hopfield 模型（反馈型、联想记忆网络）。
完善与扩展：1984年
提出连续 Hopfield 模型，并给出电子线路实现方案。

2.BP神经网络

核心定位：BP神经网络（误差反向传播神经网络），是最常用的前馈型神经网络，核心作用是通过“误差反向传播”调整权值，实现输入与输出的精准映射，用于分类、预测等任务。

一、BP神经网络的结构

整体为“三层结构”（核心，可扩展多层隐层），信号从输入层→隐层→输出层，无反馈、无层内连接，对应前馈型网络的典型特点：

输入层：接收原始数据（比如“是否散步”案例中的天气、时间），是网络的“信息入口”，每个神经元对应一个输入特征。
隐藏层：核心“处理层”，接收输入层信号，通过加权、激活运算，将信息传递给输出层；可设置1层或多层，层数越多，处理复杂问题的能力越强。
输出层：网络的“结果出口”，输出处理后的结果（比如“出去散步”或“不出去”，分类任务的类别、预测任务的数值）。

补充：层与层之间的神经元通过“连接权值”传递信号，权值是可调整的（学习的核心就是调权值）。

二、BP算法（核心：误差反向传播，调权值减误差）

BP算法=“正向传播（算输出、找误差）+ 反向传播（调权值、减误差）”，两步循环，直到误差达到最小、网络稳定。

1. 正向传播（ forward propagation ）

简单说：从输入层到输出层，算“实际输出”，对比“期望输出”，找出误差。

输入层接收数据，通过权值传递到隐层；
隐层神经元对信号做“加权求和+激活运算”（用激活函数，比如Sigmoid，将输出限制在合理范围）；
隐层信号传递到输出层，同样做加权求和+激活运算，得到“实际输出”；
计算“实际输出”与“期望输出”的误差（比如平方误差，衡量偏差大小）。

2. 反向传播（ back propagation ）

简单说：从输出层到输入层，根据误差，反向调整每一层的连接权值，让下次的误差变小。

从输出层开始，计算误差对输出层权值的影响（梯度计算）；
误差逐层反向传递，依次计算隐层、输入层的权值调整量；
按照“权值调整规则”（基于Hebb规则扩展），更新所有连接权值；
重复“正向传播→反向传播”，直到误差达到预设值（网络收敛）。

3. 核心关键

激活函数 ：解决线性不可分问题（比如无法用一条直线区分两类数据），常用Sigmoid、ReLU；
权值更新 ：核心是“误差越大，权值调整幅度越大”，逐步逼近最优权值。

三、BP算法的实现

核心步骤

初始化：设置网络结构（输入层、隐层、输出层神经元数量），初始化连接权值（随机小数值）、激活函数、误差阈值；
正向传播：输入训练数据，计算各层输出，得到误差；
反向传播：计算误差梯度，逐层更新权值；
迭代训练：重复步骤2-3，直到误差小于预设阈值，停止训练；
测试验证：用未训练过的数据输入网络，看输出结果是否准确，验证网络效果。

四、BP神经网络的应用场景

核心：适合“输入→输出”的映射任务（分类、预测、拟合），应用广泛，典型场景：

分类任务：比如图像识别（识别猫/狗）、文本分类（垃圾邮件识别）、疾病诊断（根据症状判断是否患病）；
预测任务：比如房价预测（输入面积、地段，预测房价）、销量预测（输入往期销量，预测下期销量）、天气预测（输入气象数据，预测气温/降雨）；
拟合任务：比如数据拟合（根据已知数据，拟合出趋势曲线）、信号处理（过滤噪声，还原真实信号）。

三、Hopfield神经网络

前言

定义

BP 是前馈网络，擅长“输入→输出”的预测、分类，像一个会做题的学生。
Hopfield 是反馈网络，更像一个会回忆、联想、找最优解的大脑。
1982年，J.J.Hopfield提出，是最早、最经典的反馈型神经网络，核心能力是联想记忆和优化求解。

Hopfield 是一种单层、全连接、带反馈的神经网络，核心能力是联想记忆和优化求解。

你可以把它理解成：

给它一个模糊、残缺的图案 → 它能自动补全成清晰的
给它一个混乱的初始状态 → 它能慢慢稳定到一个最优结果
不靠 BP 反向传播，不靠梯度下降，靠自己迭代收敛

一、离散型 Hopfield 网络

1. 结构特点

神经元输出只有 0 或 1（也常用 -1 / 1）
每个神经元都和其他神经元相连
有反馈：输出会重新送回输入
没有明显的输入层、输出层

2. 工作方式

设定一组要“记住”的模式（比如数字 0~9）
用 Hebb 规则一次性算出连接权值
输入一个残缺、带噪声的模式
网络不断更新状态
最终稳定在一个最接近的“记忆模式”

3. 核心思想

网络有“能量”，每次更新都会让能量降低，直到能量最小，状态就稳定了。
就像小球从山坡滚到谷底，停在最低点不动。

二、连续型 Hopfield 网络

1. 和离散型的区别

离散型：输出只有 0/1 或 ±1，像开关
连续型：输出是 0~1 之间的连续值，更接近真实神经元

2. 特点

用连续的激活函数（如 Sigmoid）
状态平滑变化，不是跳变
更适合做优化问题，而不只是联想记忆
可以用电路模拟，是早期硬件实现神经网络的重要模型

3. 意义

连续型让 Hopfield 从“记忆网络”扩展到了优化计算网络，用途更广。

三、Hopfield（应用场景）

1. 联想记忆（最经典）

输入残缺图像 → 自动恢复完整图像
输入带噪声文字 → 自动识别干净文字
类似人类：看到半张脸就能认出是谁

四、Hopfield神经网络优缺点

优点

结构简单直观
全连接反馈结构，仿生思路清晰，容易理解和实现。
具有联想记忆能力👈
输入残缺、带噪声的模式，能自动恢复成完整记忆，类似人脑回忆。
不用 BP 反向传播
依靠 Hebb 规则一次性设置权值，训练简单、计算量小。
有稳定收敛性
依靠能量函数不断下降，最终一定能稳定到某个状态。
适合组合优化问题
可用于旅行商问题、路径规划等“找最优解”场景。
易于硬件实现👈
连续型 Hopfield 可用电路模拟，是早期神经网络硬件的重要基础。

缺点

记忆容量很小
能记住的模式数量有限，多了容易记混、出错。👈
容易陷入局部最优
能量函数可能卡在次低点，得不到全局最优解。
学习能力弱
权值一次性设定，无法像 BP 那样反复迭代、精细学习。
抗干扰能力有限
输入噪声过大时，会联想错误，无法正确恢复模式。
无法处理复杂高维数据👈
只能处理简单图像、字符，不适合大图、语音、文本等复杂任务。
无深层结构
只有单层网络，不能像深度学习那样逐层提取高级特征。
串行更新效率低
异步更新时收敛慢，同步更新又容易出现震荡不稳定。

总结

Hopfield 是反馈型神经网络，分离散型（记忆）和连续型（优化）。
靠能量函数收敛，不用 BP，不用梯度下降。
擅长联想记忆、模式恢复、组合优化。
优点是直观、仿生、可硬件实现；
缺点是容量小、易局部最优、能力有限，因此后来被BP、深度学习替代。
学它是为了理解：反馈、稳定性、能量函数、联想记忆这些核心思想。

2024 年诺贝尔物理学奖得主约翰·霍普菲尔德(JohnHopfield，左)和杰弗里·辛顿(Geoffrey Hinton，右)

四、卷积神经网络与深度学习

前言

定义

一、第一代神经网络：萌芽与基础（20世纪40–60年代）

1943 年：M-P 神经元模型
第一个人工神经元，奠定神经网络数学基础。
1944 年：Hebb 学习规则
神经网络“学习”的核心思想：一起激活，连接增强。
1958 年：感知机（Perceptron）
第一个可训练的单层神经网络，能做简单分类。
局限：只能解决线性可分问题，无法处理异或等简单非线性问题，导致第一次神经网络寒冬。

二、第二代神经网络：复兴与经典模型（20世纪80年代）

突破单层限制，出现多层网络与反馈网络，神经网络再次兴起。

1982 年：Hopfield 神经网络
- 反馈型网络
- 核心能力：联想记忆、组合优化
- 不用 BP，靠能量函数收敛
- 开创了反馈网络研究方向
1986 年：BP 神经网络（误差反向传播）
- 多层前馈网络
- 用误差反向传播训练权值
- 能解决非线性问题，是神经网络里程碑
- 成为后续深度学习的训练基础

局限：网络层数浅、易过拟合、训练慢，无特征提取能力，进入第二次低谷。

三、第三代神经网络：深度学习时代（2006 年至今）

那问题来了，为什么图像AI早早就崛起了，而会写字说话的AI却来的这么晚呢？

接下来揭开这个谜底，带你从CNN、RNN一路走到Transformer，看看AI到底怎么一步一步学会听懂人话的。👍

2.CNN

先来看一张照片，它本质就是像素的排列，但我们人眼为什么一看就知道这是猫啊？因为我们能抓住关键特征，比如说我看到尖耳朵、圆眼睛、毛茸茸啊。

那么AI就也学会了这一招，于是CNN卷积神经网络就诞生了。首先他像一个抓特征的猎人，用一个个的小探测器在图片上划来划去，这些小探测器的学名叫卷积核。比如有个探测器专门找边缘，有个探测器专门找眼睛，有个探测器专门去找毛发纹理。他每划到一个地方，就要打个分，比如说这里像耳朵吗？这里像眼睛吗？匹配度高的话呢，它就亮红灯，匹配度低呢它就灭灯。那这个过程就叫卷积 x，他用小窗口扫描全局，去抓局部特征。

卷积神经网络还有另外一个操作叫池化，简单说来就是压缩照片。比如我们把像素矩阵的四个格子缩小成一个，只保留那个最亮的值，这样呢图片变小了，计算也变快了，但关键信息还都还在。就这么2个步骤。

CNN的经典网络AlexNet在2012年的ImageNet大赛上，直接把错误率干到了15.3%，大家知道，这个错误率可是比我们人眼识别照片的错误率都还要低。手机里的美颜、扫码自动对焦，背后都是他在干活。

但是CNN有一个致命的问题:看不懂文字。为什么？

因为我们的文字它不是局部特征的组合，而是顺序决定意义。比如说我们看“我吃苹果”和“苹果吃我”，词一模一样，但顺序一换，意思天差地别。前面就是一个正常的剧情，后面就是一个科幻甚至恐怖的剧情。

CNN是不管顺序，他会把一个句子当做一个词袋子来处理，自然就傻了。于是专门为序列设计的RNN ，循环神经网络上场了。

3.RNN

循环神经网络RNN的核心思想特别像人一边读一边记笔记。

比如他看到“我吃苹果”，那就先读“我”哎就记下来，就主语是我；
再看到“吃”，结合前面的笔记，就知道是我在吃；
最后看到“苹果”，他就继续推我吃的对象是苹果。
那么这个笔记的学名叫隐藏状态。

RNN在处理文本时，它会按照词的顺序一个一个算，每处理一个词呢，就把这个词的信息存到隐藏状态里，下一个词的计算必须要用到这个隐藏状态。所以我们的RNN可以干摘要、翻译、写摘要、判断情感，早期NLP就全靠它。

但是RNN也有两个大毛病。第一太慢了，它必须一个词儿一个词儿算，不能并行计算。1000个字的文章，它必须得等前面999个词儿算完，才能推到第1000个，这扛不住大数据啊!!!

第二个特点就是记性差，这个太长的句子，它开头的信息传到结尾就忘了。比如这句话：“他昨天去超市买了牛奶，因为他孩子喜欢喝什么啊？”那他看到“喝”，等到要填的时候，他可能早就忘了孩子是谁，就填不出牛奶。

这个问题叫做长距离依赖问题，也就是说RNN，记不住前因，所以文本的AI就一直被卡在这里。

4.Transformer

直到2017年一个王炸出现，当年谷歌就甩出一篇论文《Attention is All You Need》，也是现在学大模型的一个奠基性的文章。那么他就提出了一个全新的架构Transformer ，直接解决了RNN的两大难题，还成了现在所有大语言模型的地基，相当于我们AI界的奠基石了。 666666

五、生成对抗网络及其应用

前言

定义

前面学的BP、CNN、RNN，都是“识别型”模型——给数据（图、文字），让模型分辨、预测；但人们需要模型能“创造”新数据（比如画一张不存在的猫、写一段连贯的文字），于是2014年Ian Goodfellow提出GAN，解决了“生成逼真数据”的核心需求，弥补了传统深度学习“只会看、不会造”的短板。

补充时间线：BP（1986）→ Hopfield（1982）→ CNN/RNN（深度学习基础）→ GAN（2014，生成式模型）→ Transformer（2017，更通用架构）

1.GAN 的核心原理

GAN 由 两个神经网络 组成，二者“互相对抗、互相学习”，最终达到一个平衡状态（纳什均衡），就像“造假者”和“警察”的博弈：

（1）生成器（Generator，G）—— 造假者

核心任务：生成“假数据”（比如假图像、假文字），努力模仿真实数据，争取让判别器认不出来。
结构基础：通常用 CNN（做图像生成，如DCGAN）、Transformer（做文字生成），本质是多层神经网络，靠 BP 算法调整权值。
通俗理解：就像一个学画画的人，一开始画得很假，慢慢模仿真实画作，越画越像。

（2）判别器（Discriminator，D）—— 警察

核心任务：分辨数据是“真的”还是“假的”（输入真实数据或生成器造的假数据），输出“是真”（接近1）或“是假”（接近0）的判断。
结构基础：也是多层神经网络（类似CNN分类器），同样靠 BP 算法训练，不断提升分辨能力。
通俗理解：就像一个文物鉴定师，一开始能轻松认出假货，慢慢被造假者的高超技艺难住，分辨越来越难。

2. 对抗训练的过程

初始化：生成器（G）和判别器（D）都是未训练的“新手”，G 生成的假数据很粗糙，D 能轻松分辨。
第一轮对抗：
- G 生成假数据，和真实数据一起交给 D 分辨；
- D 分辨后，通过 BP 算法调整自身权值，提升分辨能力（下次更难被骗）；
- 同时，D 会把“哪里假”的信号反馈给 G，G 也通过 BP 算法调整权值，让下次生成的假数据更逼真。
反复迭代：不断重复“G 造假 → D 分辨 → 两者都用 BP 优化”的过程，直到达到平衡。
最终状态：G 生成的假数据，D 再也分不出真假（D 输出概率接近0.5），此时 G 就学会了生成和真实数据几乎一样的内容。

3.GAN 的应用场景

核心：生成逼真的“假数据”，覆盖多个领域，比传统生成模型效果更好：

图像领域（最常用）：生成人脸、风景、动漫头像，图像修复（补全残缺图像）、图像风格转换（把照片变成油画）；
文本领域：生成短文、诗歌、对话（早期文本生成，后来被 Transformer 主导，但仍是基础）；
数据扩充：当真实训练数据不足时，用 GAN 生成假数据，辅助训练其他模型（比如用假医疗图像训练疾病诊断模型）；

4.GAN 的优缺点

优点

生成效果好：生成的图像、文字等非常逼真，接近真实数据；
不用手动标注大量数据：训练时只需真实数据，不用像 BP、CNN 那样标注“输入-期望输出”；
灵活性高：可结合 CNN、Transformer 等结构，适配不同生成任务；
创新能力强：能生成全新的、不存在的内容（比如从未见过的人脸）。

缺点

训练不稳定：容易出现“模式崩溃”（生成的内容千篇一律，比如只生成一种人脸）；
难以控制生成内容：原始 GAN 无法精准控制生成的细节（比如指定生成“戴眼镜的人脸”）；
训练难度高：需要调整大量参数，新手容易训练失败；
缺乏可解释性：无法说清“生成器为什么能生成这样的内容”，黑箱操作；
后来被 Transformer 部分替代：在文本生成、多模态生成（文生图）领域，Transformer 架构（如 GPT、 diffusion 模型）效果更好，成为主流。