WPS 首页 > 未分类

wps的免费版下载的地址是什么

2025年03月19日

　　在大模型的微调过程中，**（低秩适配）** 参数设置是提升训练效率和性能的关键。通过减少需更新的参数量，LoRA 能够在维持模型性能的同时显著降低计算成本。

　　然而，并非唯一影响训练效果的因素。诸如学习率、批次大小以及优化器（如 AdamW）等参数同样在微调过程中起着至关重要的作用。

　　学习率决定了模型每次更新的幅度，批次大小则影响了每次训练中样本的处理量，而优化器则确保模型参数的平稳更新。了解并灵活调整这些训练参数，不仅能帮助你在微调过程中得心应手，更能快速提升训练效果。

　　本文将通过使用多轮对话数据集进行微调实验，帮助你深入了解微调的核心原理，并提供一套完整的操作指南。

　　在本教程中，你将学习到：

　　如何进行 LoRA 参数的设置，并掌握在不同任务中的应用。

　　训练过程中如何合理调整学习率、批次大小等关键参数，以优化模型性能。

　　多轮对话数据集的微调方法和原理，为你提供实践的基础。

　　本实验基于 transformers 和 ** 昇腾 AI 应用使能套件（openMind）** 均已实现本次微调，代码均可在 github 链接上查看。

　　通过本次实验，你不仅能够完成多轮对话数据的微调，还能掌握这些方 wps最新中文版的下载的入口是什么法，并将其迁移到其他微调实验中，独立进行高效的模型调优。

　　作者信息：情感机器研究员 - 李馨雨

　　邮箱：wind.340171@gmail.com

　　数据集：https://github.com/SmartFlowAI/EmoLLM/blob/main/datasets/data_pro.json

　　模型地址：https://modelers.cn/models/chenshaohon/官网最新版的wps下载的地方是什么-llm-7b-chat

　　代码地址：https://github.com/828Tina/最新的官网wps下载地方-llm-7B-chat-lora-ft

　　可视化工具 SwanLab 项目地址：https://swanlab.cn/@LiXinYu/官网最新版的wps下载的地方是什么-llm-7b-chat-finetune/overview

　　魔乐社区：https://modelers.cn/

　　多轮对话微调其实和单轮对话 (或者说指令数据) 差不多，在我看来其实类似于多个指令数据的组合，单轮对话数据处理的时候只需要处理输入和输出即可，训练的时候输入置为 - 100，输出不变，而多轮对话微调数据集以及标签

　　3.1 训练不充分

　　第一种方法是，只把最后一轮机器人的回复作为要学习的标签，其它地方作为语言模型概率预测的 condition，无需学习，赋值为 - 100，忽略这些地方的 loss。

　　这种方法由于没有对中间轮次机器人回复的信息进行学习，因此存在着严重的信息丢失，是非常不可取的。

　　3.2 训练不高效

　　第二种方法是，把一个多轮对话拆解，构造成多条样本，以便对机器人的每轮回复都能学习。

　　这种方法充分地利用了所有机器人的回复信息，但是非常低效，模型会有大量的重复计算。

　　3.3 wps中文最新版下载的入口合适的数据组合方式

　　第三种方法是，直接构造包括多轮对话中所有机器人回复内容的标签，充分地利用了所有机器人的回复信息，同时也不存在拆重复计算，非常高效。目前大部分微调框架用的都是这个组合方式。

　　我们为什么可以直接构造多轮对话样本？难道将第二轮和第三轮对话内容加入 inputs 中不会干扰模型对第一轮对话的学习吗？

　　答案是：不会。原因在于，作为一种语言模型，LLM（大语言模型）采用的是基于注意力机制的结构，其中的自注意力机制（Self-Attention）在处理输入时，具有天然的局部性约束。具体来说，LLM 在处理每一个输入时，使用掩码注意力（Masked Attention）来确保每个位置的预测只依赖于前面已经生成的内容，而不会提前 “看到” 后续的对话轮次。

　　也就是说，尽管输入数据中包含了多轮对话的信息，模型在进行每一轮对话的生成时，仅会关注当前回合的上下文，而不受后续轮次内容的影响。这样，第一轮的对话内容与后续轮次的对话并不会相互干扰，从而保持了学习的纯粹性。通过这种机制，模型能够有效地在多轮对话的框架下进行训练，同时保证每轮对话的独立性和准确性。

　　简而言之，LLM 能够通过其掩码机制在多轮对话中进行 “局部” 学习，每次生成的内容都仅与当前上下文相关，而不会受到其他轮次的干扰。

　　4.1 lora 参数

　　LoRA（Low-Rank Adaptation）是一种针对大型语言模型的微调技术，旨在降低微调过程中的计算和内存需求。其核心思想是通过引入低秩矩阵来近似原始模型的全秩矩阵，从而减少参数数量和计算复杂度。

　　在 LoRA 中，原始模型的全秩矩阵被分解为低秩矩阵的乘积。具体来说，对于一个全秩矩阵 W，LoRA 将其分解为两个低秩矩阵 A 和 B 的乘积，即 W ≈ A * B。其中，A 和 B 的秩远小于 W 的秩，从而显著减少了参数数量。

　　上图为 LoRA 的实现原理，其实现流程为：

　　在原始预训练语言模型旁边增加一个旁路，做降维再升维的操作来模拟内在秩；用随机高斯分布初始化 A，用零矩阵初始化 B，训练时固定预训练模型的参数，只训练矩阵中文版的wps的下载的网址在哪呢 A 与矩阵 B ；训练完成后，将 B 矩阵与 A 矩阵相乘后合并预训练模型参数作为微调后的模型参数。

　　公式表示为：

　　其中，W 是原始的权重矩阵，A 是一个尺寸为 dr 的矩阵，B 是一个尺寸为 rd' 的矩阵，r 是低秩矩阵的秩。通过这种分解，原始矩阵 W 的更新仅由 A 和 B 的乘积决定。进一步地，LoRA 引入了一个缩放因子 α，使得更新公式为：

　　那么在实际使用的时候，我们如何确定 lora 参数？这些参数的变化对实验结果产生什么影响？模型具体哪些部分参数需要使用 lora？等等这些问题，我们应该如何应对？下面我将详细介绍。

　　LoraConfig 各个参数设置

　　（Parameter-Efficient Fine-Tuning）库是一个用于高效微调大规模预训练模型的工具，旨在减少训练时的计算和存储成本，同时保持模型性能。它通过引入 LoRA、Adapter 等技术，使得只需调整部分参数即可实现有效的微调。是库中的一个配置类，用于设置 LoRA 相关的超参数，如低秩矩阵的秩、缩放因子等，它帮助用户定制 LoRA 微调的细节，优化训练过程的效率和效果。

　　4.2 target_modules

　　是 LoRA（Low-Rank Adaptation）中的关键参数，用于指定模型中需要插入低秩矩阵调整的模块。LoRA 的核心思想是通过对预训练模型中的特定层进行低秩矩阵插入，实现参数高效微调而无需修改原始权重。对于语言模型，通常选择影响权重更新较大的模块，例如和（负责查询和键的变换），（值的变换），以及（输出投影）等。这些模块主要集中在自注意力和前馈网络中，通过插入的低秩矩阵调整这些模块的权重，使模型在保持原始能力的同时适应新任务，极大减少微调的计算和存储开销。

　　具体如下，我们使用最新的官网wps下载地方观察模型每一层具体都是什么：

　　具体模型结构如下：wps的免费版下载的网址

　　可以看到官网最新版的wps下载的地方是什么模型也是采取的 Llama 模型结构，那么具体哪些层会参与 lora 微调呢？下面将详细介绍.

　　1. Attention 层

　　Self-attention 层: 这些层通常对模型性能影响较大。LoRA 会被应用于自注意力的查询（q_proj）、键（k_proj）、值（v_proj）和输出（o_proj）投影矩阵。这些矩阵包含了大量的可训练参数，因此是 LoRA 微调的理想目标。

　　LlamaSdpaAttention 中的矩阵：

　　: 查询投影: 键投影: 值投影: 输出投影

　　Rotary Embedding：虽然在一些实现中会对嵌入进行微调，但通常 LoRA 不会直接用于 rotary_emb，因为它通常是固定的。

　　2. MLP 层

　　MLP 层中的 Gate、Up 和 Down 投影：

　　：控制门投影：上升投影：下降投影

　　MLP 层的 Gate、Up 和 Down 投影通常涉及大量的可训练参数，因此对这些投影进行 LoRA 微调，可以在不显著增加计算负担的情况下优化模型表现wps免费版的下载入口是什么。通过低秩适应，LoRA 能够在减少参数量的同时，增强模型对复杂模式的适应能力。这些曾在处理非线性变换时起到重要作用，通常也是 LoRA 微调的目标。

　　3. LayerNorm 层

　　RMSNorm: 在 Llama 中使用的是 LlamaRMSNorm（Root Mean Square Layer Normalization），它与标准的 LayerNorm 不同，但也可以通过 LoRA 微调。虽然这部分常常不会进行微调，但如果需要微调，通常会集中在注意力层和 MLP 层上wps的免费版的下载网址是什么。

　　4.Embedding 层

　　：如果对词嵌入有需要进行微调，LoRA 也可以应用于嵌入矩阵。尤其在词汇量较大的情况下，嵌入矩阵的参数量非常庞大，这样进行 LoRA 微调也可以获得一定的性能提升。

　　5. 线性层（lm_head）

　　：在模型输出时，是从隐藏层到词汇表的最后一层线性转换。通常，LoRA 不会直接应用于输出层，但在某些微调场景下，可以将 LoRA 应用于该层以调整模型输出。

　　总结：

　　一般来说，LoRA 微调会集中在以下层：

　　Attention 层的查询、键、值和输出投影（, , , ）MLP 层的、和可能在某些场景下微调和

　　通过这种方式，LoRA 能够有效减少参数量和计算成本，同时保持微调的效果。

　　4.3 r、alpha、dropout

　　在模型微调的过程中，r、alpha 和 dropout 是常见的超参数，用于优化模型训练和提升其泛化能力。

　　：通常用于 LoRA（Low-Rank Adaptation）方法中，表示低秩矩阵的秩值。r 决定了微调时使用的低秩矩阵的维度，较小的 r 可以减少参数数量，从而提高训练效率，但可能牺牲一定的模型表现。较小的 r（例如 8-32）适用于较小模型或需要较低资源的情况，而较大的 r（例如 64-128）适用于更大规模的模型。：是 LoRA 中的一个超参数，用来控制低秩矩阵的缩放因子。通过调整 alpha，可以平衡低秩矩阵的影响，使模型能够在微调过程中保持足够的表达能力。16-32 是比较常见的选择，较大的 alpha 值通常会增加模型的表达能力，但也可能增加训练难度。：是一种正则化技术，通过在训练过程中随机丢弃神经网络中的部分神经元来防止过拟合。dropout 率控制丢弃的概率，较高的 dropout 率有助于减少模型的复杂度，从而提升其在新数据上的泛化能力。对于大多数任务，0.2-0.3 是比较常见的取值，较低的 dropout 值（如 0.1）适合于较小的模型，而较高的 dropout 值（如 0.4-0.5）适合于较大的网络，尤其是在防止过拟合时。

　　总结：

　　r：通常选择 8-128，根据任务和模型规模调整。alpha：常见值在 16-64，推荐 16-32。Dropout：常见值在 0.1-0.5，推荐 0.2-0.3。

　　4.4 task_type

　　在中的是一个指定模型任务类型的参数，它帮助 LoRA 配置不同的微调策略，以适应特定的任务需求。可以有多个选项，通常包括以下几种类型：

　　1、CAUSAL_LM

　　自回归语言建模任务，模型基于输入的部分文本（上下文）来预测下一个词，适用于生成任务，如文本生成和语言建模。

　　2、SEQ_CLS

　　文本分类任务，模型将整个输入文本分类到某个类别。常见的应用包括情感分析、垃圾邮件检测、新闻分类等。

　　3、SEQ_2_SEQ_LM

　　序列到序列的语言建模任务。该任务类型处理输入序列并生成一个输出序列。通常用于机器翻译、文本摘要等任务。

　　4、TOKEN_CLS

　　标记分类任务，模型为输入文本的每个标记（通常是词或子词）分配一个类别标签。常见应用包括命名实体识别（NER）、词性标注（POS）、依存句法分析等。

　　5、QUESTION_ANS

　　问答任务，模型根据输入的问题和上下文，提取答案。常见应用包括阅读理解、基于文档的问答等。

　　6、FEATURE_EXTRACTION

　　特征提取任务，模型提取输入数据的隐藏状态（通常是编码器的输出），这些隐藏状态可以用于下游任务，如聚类、分类或作为其他任务的输入特征。比如给定一段文本，模型输出该文本的向量表示，这些向量可以用于情感分析、推荐系统或相似度计算等任务。

　　4.5 bias

　　在配置中，参数用于指定 LoRA 微调时如何处理偏置（bias）项。具体来说，这个参数控制了在低秩适应中，是否保留或者修改偏置项。LoRA 微调一般会将权重矩阵拆分成低秩矩阵来减少训练时的计算开销，但偏置项通常会保留或处理得不同。

　　参数的常见选项：

　　"none"：不对偏置项进行微调，也就是说，偏置项保持原样，不参与 LoRA 的低秩适应过程。这是默认选项，表示不修改偏置项，保持原有权重。"all"：对所有的偏置项进行微调，这意味着 LoRA 不仅会对权重矩阵进行低秩适应，还会对偏置项进行相应的调整。"lora_only"：仅对 LoRA 引入的低秩矩阵中的偏置项进行微调。即在 LoRA 的低秩变换部分，偏置项会被包含在内，并进行优化。

　　为什么选择 "none" 作为 bias 的值？

　　在许多 LoRA 微调的实现中，偏置项通常被认为是模型的一个稳定部分，尤其是在进行低秩微调时，可能并不需要对它们进行调整。使用 "none" 的选择意味着微调过程只会集中在权重矩阵的低秩部分，而不涉及偏置项的变动，这有助于减少额外的计算和参数调节，保持模型的原始结构。

　　以上是理论篇部分，查看全部内容请点击：https://zhuanlan.zhihu.com/p/15084326626

上一篇: wps官网下载网站

下一篇: wps office免费版下载的地方是多少