Do Rerank V1

POST

/v1/rerank

重排序V1

请求参数

Authorization

在 Header 添加参数

Authorization

，其值为在 Bearer 之后拼接 Token

示例：

Authorization: Bearer ********************

Header 参数

Body 参数application/json

示例

{
  "model": "bge-reranker-v2-m3",
  "query": "vLLM是什麼？它主要解決什麼問題？",
  "documents": [
    "Transformers 是由 Google 開發的一個深度學習模型，主要用於自然語言處理任務。",
    "vLLM 是一個高效的函式庫，專為大型語言模型（LLM）的推理和服務設計，它透過 PagedAttention 技術顯著提高了吞吐量。",
    "PyTorch 是一個開源的機器學習框架，廣泛應用於電腦視覺和自然語言處理領域。",
    "PagedAttention 是 vLLM 的核心技術之一，它能有效管理 LLM 推理過程中的 key-value 快取，解決了記憶體浪費的問題。",
    "vLLM 專案的目標是讓大型語言模型的服務變得更快速、更容易，降低部署成本。"
  ],
  "top_n": 3
}

请求示例代码

Shell

JavaScript

Java

Swift

PHP

Python

HTTP

Objective-C

Ruby

OCaml

Dart

curl --location --request POST 'https://api.x-aio.com/v1/rerank' \
--header 'Authorization: Bearer <token>' \
--header 'Content-Type: application/json' \
--data-raw '{
  "model": "bge-reranker-v2-m3",
  "query": "vLLM是什麼？它主要解決什麼問題？",
  "documents": [
    "Transformers 是由 Google 開發的一個深度學習模型，主要用於自然語言處理任務。",
    "vLLM 是一個高效的函式庫，專為大型語言模型（LLM）的推理和服務設計，它透過 PagedAttention 技術顯著提高了吞吐量。",
    "PyTorch 是一個開源的機器學習框架，廣泛應用於電腦視覺和自然語言處理領域。",
    "PagedAttention 是 vLLM 的核心技術之一，它能有效管理 LLM 推理過程中的 key-value 快取，解決了記憶體浪費的問題。",
    "vLLM 專案的目標是讓大型語言模型的服務變得更快速、更容易，降低部署成本。"
  ],
  "top_n": 3
}'

返回响应

🟢200Create embeddings

application/json

Body

示例

{
  "object": "list",
  "data": [
    {
      "object": "embedding",
      "embedding": [
        0.0023064255,
        -0.009327292,
        .... (1536 floats total for ada-002)
        -0.0028842222
      ],
      "index": 0
    }
  ],
  "model": "text-embedding-ada-002",
  "usage": {
    "prompt_tokens": 8,
    "total_tokens": 8
  }
}

修改于 2025-09-02 07:58:24

Do Rerank

Do Rerank V2