嵌入指南#
Gemini API 中的嵌入服务可为字词、短语和句子生成先进的嵌入。然后,生成的嵌入可用于 NLP 任务,例如语义搜索、文本分类和聚类等等。本页面介绍了什么是嵌入,并重点介绍了嵌入服务的一些关键用例,以帮助您开始使用。
什么是嵌入#
文本嵌入是一种自然语言处理 (NLP) 技术,可将文本转换为数值向量。嵌入可捕获语义含义和上下文,从而使具有相似含义的文本具有更紧密的嵌入。例如,句子“I take my dog to the vet”(我把狗带到兽医处)和“I take my cat to the vet”(我把我的猫带到兽医处)的嵌入在向量空间中彼此接近,因为它们描述的上下文类似。
这一点很重要,因为它解锁了许多可对矢量执行操作的算法,但不能直接对文本进行操作。
您可以使用这些嵌入或向量来比较不同的文本并了解它们之间的关系。例如,如果文本“cat”和“dog”的嵌入相近,您可以推断这些字词的含义和/或上下文相似。此功能适用于下一部分中介绍的各种使用场景。
用例#
文本嵌入为各种 NLP 应用场景提供支持。例如:
信息检索:目标是在给定一段输入文本的情况下检索语义相似的文本。信息检索系统(如语义搜索、问题解答或摘要)可支持各种应用。如需查看示例,请参阅文档搜索笔记本。
分类:您可以使用嵌入来训练模型,以便将文档分为不同类别。例如,如果您想将用户评论分类为负面或正面,可以使用嵌入服务获取每条评论的向量表示,以训练分类器。如需了解详情,请参阅Gemini 分类器示例。
聚类:比较文本向量可以显示它们的相似度或不同程度。此功能可用于训练将类似文本或文档组合在一起的聚类模型,以及检测数据中的异常值。
矢量数据库:您可以将生成的嵌入存储在矢量数据库中,以提高 NLP 应用的准确性和效率。请参阅本教程,了解如何使用矢量数据库提升文档搜索的功能。