对话机器人智能化基于检索或生成式模型的技术说明

目前，许多企业不知道哪些特定的对话机器人解决方案可用。今天，美洽将向您介绍两种不同的对话机器人技术解决方案：1.基于搜索的模型；2.生成模型以帮助您更好地了解对话机器人。

目前，技术上有两种对话机器人方案：1.基于检索的模型；2.生成模型。

(1) 基于检索的对话机器人智能化方案

所谓的基于搜索的模型类似于常见的搜索引擎：首先，知识库内容 (包括题库和答题库，以及两者之间的相关性) 是人类预先定义的，此外，在自然语言处理技术 (NLP) 的帮助下，对用户提出的问题进行了分解和分析，并通过提取核心关键词、索引等方法对后台知识库中的知识条目进行了匹配，并将匹配度最高的答案返回给用户。

从上面的描述中，我们可以看到检索对话机器人的性能在很大程度上取决于其知识库的内容丰富度和内容质量，建立一个满足上述条件的知识库是一个漫长而巨大的项目。目前，除了少数大型企业和一些非常重视客户服务的人工智能服务提供商，大多数企业甚至没有最基本的客户服务知识库，并且只能使用一些公共的第三方行业知识库。然而，这些资源也存在更新不及时、匹配低等问题。

尽管存在这一障碍，但与生成模型相比，检索模型的开发非常简单。该模型提供了更多可能的预测结果。即使检索模型无法获得100%准确的答复，该模型也会返回最可能的答复，并确保没有不当或语法错误。一般来说，基于检索的模型在这一阶段更加实用。唯一需要注意的是建立企业自己的专属知识库，这是目前许多企业阻碍对话机器人推广和使用的最大障碍。

（2）生成模型下的对话机器人方案

与基于检索的对话机器人方案不同，生成模型通常不依赖于手动预设的知识库，但是可以根据从大量语料库中学到的对话能力自然地与对象聊天。一般来说，这个对话处理过程它也更接近于人类真实思维和语言生成的过程。

但是，使用生成模型的对话机器人智能化很难构建和训练：通常需要数百万个特定的对话案例来训练机器人，以便它们可以进行高质量的对话。此外，生成模型的对话机器人有一个很大的缺点，那就是你不能完全确定模型会产生什么响应，它的答案是开放的 (相反，对话机器人基于搜索的响应完全来自知识库中的条目，答案不会脱离这个限制)。微软开发的对话机器人“Tay”是生成模型应用的典型代表。因此，目前生成模型很少应用于商业对话机器人，而一般仅用于娱乐和科研等少数目的。

然而，随着深度学习技术的不断进步，其标志性的“序列到序列”方法可以很好地实现生成模型的框架，在可预见的未来，对话机器人将变得真正的“智能”。

总结

基于搜索的对话机器人智能化可以更好地回答方向明确、范围明确的问题，并且可以避免出现各种低级语法错误。然而，缺点是很难跳出预定的答案库，并且维护和更新知识库和匹配规则需要大量的时间和精力。

然而，生成模型下的对话机器人智能化可以通过连续对话数据直接训练自己，从而显著降低知识库的维护成本，生成模型的答案之间没有明确的界限，可以回答的问题范围更广。然而，良好的生成模型往往需要大量的训练语料库，也需要克服诸如“上下文分析”和“意图识别”等障碍。