AI 自查自纠

须知事项

上次更新时间：2024 年 1 月 16 日，上午 9:30

采用生成式 AI (GenAI) 对成功而言至关重要，特别是当您的竞争对手也在对其工作流程、翻译或内容创作和优化采取同样做法的情况下。使用 GenAI 的一项关键步骤是自查自纠。由于一些因素的影响，大型语言模型 (LLM) 可能会生成不准确的输出内容，不尽如人意。这是因为用于训练 LLM 的数据可能包含有问题或错误的信息。AI 工具有时也会出现“幻觉”，或编造一些信息。要解决 AI 输出中的问题，可以在一组初始提示中实施“自查自纠”措施。（有些专家也将它称为“自我批评”或“自我优化”。）多项研究对人们采用的方法进行了测试，这些方法要求 LLM 在交付之前审查其输出并优化响应内容。请阅读我们的博客文章，了解人们正在使用哪些技巧在 AI 解决方案中自行（或在 AI 解决方案提供商的协助下）实施自查自纠。我们还将为您介绍 AI 自查自纠的局限性。

联系我们

常用的 AI 自查自纠策略

人们目前通过四种方法来实施 AI 自查自纠：

1.注重准确性的提示：有时，在一组提示中包括强调准确性的提示，这种方法很奏效。下面是 X 上的一条热门帖子：

“你是一个自回归语言模型，已经通过指令调优和 RLHF 进行了微调。你谨慎地提供准确细致、符合事实、考虑周全的回答，并且十分擅长推理。如果你认为可能不存在正确答案，你会照实说。”

2.将 AI 工具转变为专家：防止不准确输出的一个方法是将 AI 工具转变为出错几率较低的专家。许多用户和 AI 服务提供商（包括一些 GitHub 开发人员）都在创建提示，命令 AI 工具像专家一样行事。值得注意的是，最出色的专家角色往往最能遵循广为接受的优秀实践。如果命令过于笼统，AI 工具可能会出现“幻觉”，给出不准确或不真实的输出内容。例如，只说“你是一名出色的职业顾问”是不够的。提示应包含职业顾问通常需要遵循的优秀实践的相关指导。另一种有效的做法是，使用您已知道答案的任务对一组提示进行测试。这将帮助您确定从何处着手来优化专家角色提示。有时，甚至可以根据任务类型为一个专家角色提示开发多个迭代。GitHub 开发人员列出了他们用于将 AI 转变为专家助理的 15 组提示。还有其他人也给出了一些提示，但 GitHub 开发人员的列表尤其全面。

AI 专家提示：

1. 职业顾问

2. 特定职位的面试官

3. 英语发音助手

4. 广告商

5. 社交媒体经理

6. 面向学生的 AI 写作导师

7. 会计师

8. Web 设计顾问

9. 充当 UX/UI 开发人员

10. IT 架构师

11. 网络安全专家

12. 机器学习工程师

13. IT 专家

14. Excel 公式生成工具

15. 私人厨师

3.添加“事前”或“事后”提示：可以添加调整 AI 输出风格的提示。内容也许需要采用更加正式或非正式的风格，或者内容面向受过高等教育的受众或具有高中教育水平的受众。如果提示是在生成输出后添加的，则称为“事后提示”。Google DeepMind 最近的一项研究项目表明，同时采用出色的事前和事后提示可以生成理想的结果。

4.使用提示消除偏见：如果 LLM 的训练数据不适当，其输出可能会反映出互联网上散布仇恨内容的数百万人的偏见。Anthropic AI 实验室最近的一项研究表明，或许可以通过从人类反馈中强化学习 (RLHF) 来训练 LLM，以生成不包含（或较少包含）种族主义、年龄歧视、厌女等内容的输出。在 AI 的构成中添加指令，以便在生成内容时考虑团队决策所遵循的一般伦理原则。在这个过程中，需要在提示中添加一行内容，防止 LLM 依赖有害的刻板印象或思想体系。事实证明，在某些情况下，AI 工具已经开始“积极辨别”其输出中的内容，效果甚至可能会超出预期。

AI 自查自纠的局限性

也许 AI 自查自纠措施实力不俗，但研究也表明它仍然存在局限性。Google DeepMind 的同一项研究发现，实施自查自纠措施后，LLM 的表现有时其实更差。在不削弱性能的情况下，自查自纠并非始终对每组 AI 提示有效，特别是在不使用外部来源（计算器、代码执行工具、知识库等）的情况下。为了获得理想结果，自查自纠措施需要访问内置基本事实的基准数据集。有了这些参考，AI 工具将知道何时停止其推理过程，从而避免过度纠正其输出内容。当然，研究人员指出，有些任务过于复杂，无法为 AI 工具提供这些类型的参考。

同一项研究还发现，使用涉及多个代理的 LLM 应用程序时，会遇到 AI 自查自纠的另一个局限性。这些措施会要求 LLM 作为不同的“代理”或行动者执行多项任务。

示例：

LLM 作为一个代理生成代码，然后还作为另一个代理检查代码。

LLM 会展开辩论，每一方都有一个代理。

这时便会出现问题，因为多个代理使用多数投票原则来决定哪个答案是正确的，从而产生一种回声室效应或“自我一致性”，而不是真正的准确性。

人工介入的价值

AI 自查自纠的局限性强调了人工介入的重要性。AI 工具可以提高翻译效率，但在某些时候通常需要人工干预。也许必须由相关人员来开发有效的成组提示、检查初始样本或者在最后审核输出，才能准确完成任务。自查自纠措施或许能在整个流程中提供协助，但无法取代人工介入。

为此，与 AI 咨询专家合作至关重要，例如 Lionbridge 的咨询专家，他们可以帮助弥合 AI 信任鸿沟。他们应该做到以下事项：

尽可能降低不牢靠或低质量内容/输出的风险
确保数据安全，使其免受网络攻击或任何攻击形式的侵害
发挥创造力，帮助开发新颖的、有吸引力的原创内容或输出
检查并纠正内容以确保准确性，特别是处理需要强化教育或大量专业知识的复杂材料时
从不试图向您推销不必要的技术、解决方案或订阅内容
在整个流程中进行共享，并征求您的意见、反馈以及询问是否需要定制服务

联系我们

想要了解如何利用 AI 来自动执行内容创作、网站内容优化或提供其他语言服务？Lionbridge 的 AI 专家专业团队随时待命。敬请联系我们。

电子邮件地址* : 请输入企业邮箱地址

名字* :

姓氏* :

公司名称* :

留言* :

勾选以下复选框即表示，您同意接收我们的营销电子邮件。您将收到 Lionbridge 提供的有关语言服务前沿思想、最佳实践和市场趋势的信息。注册并接收来自 Lionbridge 的电子邮件

如需取消订阅以及了解我们如何处理您的个人数据，请参阅我们的隐私政策。

作者

Samantha Keefe 和 Thomas Gaitley，恢复能力总监

#technology
#translation_localization
#ai
#generative-ai
#blog_posts

我们的服务范围

人工智能

行业

AI 自查自纠

常用的 AI 自查自纠策略

AI 专家提示：

AI 自查自纠的局限性

示例：

人工介入的价值

联系我们

行业