AI大模型知识整理

AI大模型知识整理

神经网络架构

CNN 卷积神经网络 使用卷积层来提取特征,通常包括池化层和全连接层。
RNN 递归神经网络 具有循环连接,能够处理序列数据。每个时间步的输出依赖于前一个时间步的状态。
Transformer 基于自注意力机制,使用编码器-解码器架构。没有循环结构,能够并行处理输入数据。

PyTorch

开源的深度学习框架,可以调用不同神经网络架构实现大模型

知识库

私有化数据,提供了可供检索的信息资源,可以是文档、图片等

RAG(Retrieval-Augmented Generation)检索增强生成

利用知识库中的信息来增强生成模型的能力,以生成更准确的回答。通过embedding(存入和查询数据库)将知识库数据存储、检索、回答结合大模型返回结果

微调(Fine-Tuning)

基于预训练模型(GPT、LLaMA、qwen 等)进行简单训练,学习特定数据

多模态

通常指的大模型都是基于文本生成文本,要想通过文本生成图片、图片生成文本等非文本数据转化称为多模态

蒸馏

模型迁移(模型学习模型),降低学习成本

剪枝

减少模型参数,降低学习成本

量化

减小精度,降低学习成本

推理

部署后运行模型执行问答
工具有 ollama、ModelScope,集成多种大模型,可以方便的下载、运行,训练、部署等

参考

大白话讲讲现在的 AI 和一堆乱七八糟的东西都是啥-闪客
https://modelscope.cn/
https://ollama.com/
https://bailian.console.aliyun.com/