Jina AI 推出全球首个开源 8K 文本嵌入模型，号称“超越 OpenAI”

2023-10-26 15:08IT之家 - 漾仔（实习）

IT之家 10 月 26 日消息，Jina AI 在其官网发布新闻稿，宣布推出 jina-embeddings-v2 模型，号称是目前是唯一支持 8K（8192 个 token）上下文长度的开源产品，在功能和性能上与 OpenAI 的 text-embedding-ada-002 类似。

在大规模文本嵌入基准 (MTEB) 排行榜方面，IT之家发现，官方进行如下解释：

与 OpenAI 的 8K 模型 text-embedding-ada-002 进行比较，jina-embedding-v2 在分类平均值、重排平均值、检索平均值和摘要平均值方面均优于 OpenAI 的 text-embedding-ada-002。

▲ 图源 Jina AI 官网

官方表示，jina-embeddings-v2 模型，是从头开始构建的。在过去的三个月里，Jina AI 团队进行了密集研发、数据收集和调整。

Jina AI 同时声称， jina-embeddings-v2 8K 的上下文长度有利于以下应用场景：

法律文件分析：确保对大量法律文本中的每一个细节进行捕捉和分析。
医学研究：为了进行高级分析和发现，全面地嵌入科学论文。
文学分析：深入研究长篇内容，捕捉微妙的主题元素。
财务预测：通过详细的财务报告获得卓越的洞察力。
会话式 AI：提升聊天机器人对复杂用户查询的响应能力。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。