ai_agent_c1.md

2024-10-10 PV:

AI Agent: LLM Reasoning

UCB开了一门AI Agent的课程CS294/194-196 Large Language Model Agents，请到的都是目前最前沿的一些工业界的从业者来分享。

每一章节都列出了一些阅读材料，一般是论文。下面是通过NotebookLM生成的论文简介和podcast。

Podcast

第一章四篇论文思路详解

第一篇论文

论文题目：Chain of Thought Empowers Transformers to Solve Inherently Serial Problems-2402.12875v4.pdf

主要论点： 思维链（Chain of Thought，CoT）可以增强 Transformer 模型解决本质上串行问题的能力。

实验设计:

有限精度建模: 将现实中常用的浮点数运算引入 Transformer 模型，更贴近实际应用场景。
CoT 复杂度类: 提出了一个新的复杂度类，用于描述具有 CoT 的常深度 Transformer 模型的表达能力。
电路模拟: 通过电路复杂度理论，证明了具有 CoT 的常深度 Transformer 模型可以模拟多项式大小的电路，包括 TC0 电路。
实验任务: 在排列组合、迭代平方、电路值问题和模加法等四个任务上，比较了具有 CoT 和不具有 CoT 的 Transformer 模型的性能。

实验结果:

实验结果表明，CoT 可以显著提高 Transformer 模型在上述四个任务上的性能。特别是在排列组合问题上，只有使用 CoT 的模型才能很好地解决问题，这与理论预测相符。
论文的理论分析和实验结果共同表明，CoT 可以增强 Transformer 模型的表达能力，使其能够解决更复杂的问题。

作者的其他思考:

作者指出，未来的研究方向包括将 CoT 应用于更广泛的 Transformer 模型架构，例如具有 LayerNorm 和多头注意力机制的模型。
作者还讨论了 CoT 的非均匀性问题，以及如何设计更有效的 CoT 提示。

第二篇论文

论文题目： Chain-of-Thought Reasoning Without Prompting-2402.10200v2.pdf

主要论点： 可以通过名为 CoT 解码 的新方法，在不使用任何提示的情况下，从预训练的语言模型（LLM）中引出 CoT 推理路径。

实验设计:

Top-k 候选词： 研究了预训练 LLM 的 top-k 候选词，发现 CoT 推理路径经常隐藏在这些候选词序列中。
基于置信度的 CoT 路径提取： 提出了一种基于置信度度量的方法来区分 CoT 和非 CoT 路径，发现包含 CoT 的解码路径通常具有更高的答案置信度。
与其他解码方法比较： 将 CoT 解码与贪婪解码、beam search、温度采样等其他解码方法进行了比较。
实验任务: 在数学推理、常识推理和符号推理等多个推理基准数据集上进行了实验。

实验结果:

CoT 解码可以有效地从语言模型中引出推理能力，并在多个推理基准数据集上显著优于其他解码方法，特别是在没有使用 CoT 提示的情况下。
包含 CoT 的解码路径确实具有更高的答案置信度，证明了答案置信度可以作为区分 CoT 和非 CoT 路径的有效指标。

作者的其他思考:

CoT 解码的有效性表明，预训练 LLM 已经具备一定的推理能力，这些能力可以通过合适的解码方法来挖掘。
CoT 解码避免了手动设计 CoT 提示的繁琐过程，并为评估 LLM 的内在推理能力提供了一种更直接的方法。
未来的研究方向包括探索更有效的 CoT 路径提取方法，以及将 CoT 解码应用于更广泛的 LLM 和任务。

第三篇论文

论文题目： Large Language Models Cannot Self-Correct Reasoning Yet-2310.01798v2.pdf

主要论点： 当前大型语言模型（LLM）的自我修正能力仍然有限。

实验设计:

专家标注: 使用专家标注的正确答案来指导模型进行自我修正，模拟理想的自我修正场景。
内在自我修正: 评估模型在没有专家标注的情况下进行自我修正的能力。
多轮修正: 允许模型进行多轮自我修正，观察其修正效果的变化。
不同修正提示: 尝试不同的修正提示，分析其对模型自我修正能力的影响。
实验任务: 在数学推理、常识推理和多跳问答等多个推理基准数据集上进行了实验。

实验结果:

即使有正确答案的指导，LLM 也难以可靠地修正其错误推理，尤其是在内在自我修正的情况下。
模型的自我修正能力在不同任务和模型之间存在差异。
不同的修正提示对模型自我修正能力的影响有限。

作者的其他思考:

LLM 自我修正能力受限的原因可能在于模型缺乏对自身推理过程的深入理解，以及容易受到修正提示的误导。
改进 LLM 自我修正能力的潜在方向包括通过增强模型的元认知能力和设计更有效的修正提示。

第四篇论文

论文题目： Premise Order Matters in Reasoning with Large Language Models-2402.08939v3.pdf

主要论点： 前提顺序会显著影响大型语言模型（LLM）的推理性能。

实验设计:

不同前提顺序: 比较了 LLM 在处理顺序前提、逆序前提和乱序前提时的推理性能。
不同数量的干扰前提: 分析了干扰前提的数量对 LLM 推理性能的影响。
实验任务: 在数学推理和逻辑推理等多个推理基准数据集上进行了实验。

实验结果:

在逻辑推理任务中，LLM 在处理顺序前提时的性能最好，而处理乱序前提时的性能最差。
随着干扰前提数量的增加，LLM 的推理性能会逐渐下降。

作者的其他思考:

LLM 在处理乱序前提时，容易出现错误推理和幻觉，这可能与 LLM 的注意力机制和训练数据的特性有关。
未来的研究方向包括探索更鲁棒的 LLM 推理方法，使其能够更好地处理乱序前提和干扰信息。