AI大模型知识整理

CNN 卷积神经网络 使用卷积层来提取特征，通常包括池化层和全连接层。
RNN 递归神经网络 具有循环连接，能够处理序列数据。每个时间步的输出依赖于前一个时间步的状态。
Transformer 基于自注意力机制，使用编码器-解码器架构。没有循环结构，能够并行处理输入数据。

开源的深度学习框架，可以调用不同神经网络架构实现大模型

私有化数据，提供了可供检索的信息资源，可以是文档、图片等

利用知识库中的信息来增强生成模型的能力，以生成更准确的回答。通过embedding（存入和查询数据库）将知识库数据存储、检索、回答结合大模型返回结果

基于预训练模型（GPT、LLaMA、qwen 等）进行简单训练，学习特定数据

通常指的大模型都是基于文本生成文本，要想通过文本生成图片、图片生成文本等非文本数据转化称为多模态

模型迁移（模型学习模型），降低学习成本

减少模型参数，降低学习成本

减小精度，降低学习成本

部署后运行模型执行问答
工具有 ollama、ModelScope，集成多种大模型，可以方便的下载、运行，训练、部署等