【Datawhale AI 夏令营】Task4-上分加油站

发表于 2024-08-02 更新于 2024-11-17

一、优化思路

训练＆微调模型提升解决逻辑推理问题的能力。
使用各种prompt工程、agent系统方案，达到模型解决逻辑推理问题的能力边界。

二、prompt（提示词工程）

2.1 什么是prompt

在交互式任务中给定的初始文本或输入，用来引导模型生成特定类型的输出。

例如，在一个对话系统中，用户提出的问题就是prompt，模型根据这个prompt生成回答。prompt可以是一个句子、一个段落或任何文本序列，模型基于这个prompt继续生成后续的文本。优化prompt通常意味着调整或设计更有效的输入，以引导模型产生更准确、更相关或更高质量的输出。

2.2 优化prompt

[!NOTE]

增加上下文信息：提供更多的背景信息可以帮助模型理解prompt的意图。

明确性：确保prompt清晰无歧义，减少模型理解错误的可能性。

引导性：使用特定的关键词或短语来引导模型朝向预期的方向生成文本。

明确和具体化
- 清晰表述：确保prompt清晰、直接，避免模糊不清的表述，这样可以减少模型误解的可能性。
- 具体实例：提供具体的示例或上下文，帮助模型更好地理解任务要求。例如，在生成文章摘要时，可以先给出一两句话的摘要示例，然后让模型继续生成。
提供指导性的指令
- 指令明确：在prompt中明确指出你希望模型执行的操作。例如，“请总结下面的文章”，而不是“做点什么”。
- 格式指引：指定输出格式，比如“以项目符号列表的形式列出”或“使用正式的语言回答”。
使用示例
- 包含样本：在prompt中加入一些样例输入和对应的期望输出，帮助模型理解模式或格式。
- 逐步引导：通过一系列由简到繁的示例，逐步引导模型学习更复杂的任务。
调整长度和复杂度
- 适当长度：根据任务需求调整prompt的长度，太长可能导致模型无法抓住重点，太短可能缺乏必要的信息。
- 控制复杂度：避免过于复杂或冗余的信息，这可能会混淆模型。
引导模型的思维方式
- 逻辑推理：如果需要模型进行逻辑推理，可以在prompt中引入假设情景或逻辑问题。
- 情感色彩：对于需要特定情感色彩的文本生成，如写作或评论，可以在prompt中设定情感基调。
测试和迭代
- A/B测试：对不同版本的prompt进行对比测试，看哪个版本的输出质量更高。
- 持续优化：根据模型的反馈和输出，不断调整prompt，直到达到满意的输出为止。
避免偏见和敏感话题
- 检查偏见：确保prompt没有隐含的偏见，避免引导模型生成有偏见的回答。
- 敏感话题：避免提及可能引起争议或不适的话题，确保输出的安全性和适宜性。

三、agent（智能体）

3.1 什么是agent

能够感知环境并采取行动以影响该环境的实体。

在大模型技术中，一个agent可能是一个自动化的程序，如聊天机器人，它可以根据用户的输入（即prompt）生成响应。

在强化学习的背景下，agent的目标是找到一个最优策略，使得在长期的交互中，累积的奖励最大。这就像是你玩游戏时，想要通过不断练习和学习，找到最有效的打法，以便在游戏中获得尽可能高的总分。

3.2 优化agent

[!NOTE]

模型架构的改进：使用更复杂的神经网络结构，比如Transformer，以提高模型的表达能力。

数据增强：增加训练数据的多样性和数量，使模型更加鲁棒。

算法优化：改进训练算法，如采用不同的损失函数、优化器或正则化技术，以提升模型的泛化能力。

超参数调优：调整学习率、批次大小等超参数，找到最佳配置。

模型架构调整
- 神经网络深度与宽度：增加或减少神经网络层数（深度）和每层神经元数量（宽度），寻找最佳的网络架构。
- 正则化技术：使用如Dropout、L1/L2正则化等技术防止过拟合。
算法选择与参数调优
- 强化学习算法：选择合适的RL算法，如Q-Learning、Deep Q-Networks (DQN)、Policy Gradients、Proximal Policy Optimization (PPO)等，并调整其超参数。
- 探索与利用平衡：调整探索率（exploration rate），如ε-greedy策略中的ε值，以找到探索未知状态与利用已知最优行为之间的平衡。
经验回放与数据增强
- 经验回放（Experience Replay）：使用历史交互数据训练代理，打破数据的相关性，提高学习效率。
- 数据增强：通过数据增强技术增加训练集的多样性，帮助代理泛化到未见过的情况。
多任务学习与迁移学习
- 多任务学习：同时解决多个相关任务，共享学习到的知识，提高学习效率和泛化能力。
- 迁移学习：从一个已经解决的任务中学习到的知识迁移到新的相关任务上，加速新任务的学习。
分布式与并行计算
- 分布式训练：使用多个处理器或机器并行训练代理，加快训练速度。
- 异步更新：在多个环境中并行收集经验，异步更新代理的参数，如A3C算法。
模型解释与可解释性
- 解释性增强：开发技术使代理的决策过程更加透明，便于理解和调试。
- 基于规则的约束：结合领域知识，为代理添加硬编码规则或限制，以避免不合理的行为。
持续学习与在线学习
- 持续学习：使代理能够随着时间和新数据的出现持续学习和适应，避免灾难性遗忘。
- 在线学习：代理在实际环境中实时学习，无需重新训练整个模型。
评估与监控
- 性能指标：定义合适的性能指标来评估代理的表现，如累积奖励、成功完成任务的频率等。
- 实时监控：实施监控机制，及时发现和纠正代理的异常行为。
模拟与预训练
- 模拟环境：在高保真的模拟环境中预训练代理，降低现实世界中的试错成本。
- 预训练与微调：使用预训练模型作为起点，针对特定任务进行微调，加速学习过程。

四、相关资料

pfet库，也介绍了很多微调的方法：

https://huggingface.co/docs/peft/conceptual_guides/adapter

agent学习链接：

https://github.com/datawhalechina/hugging-multi-agent

面向开发者的大模型手册：

https://github.com/datawhalechina/llm-cookbook/tree/main