Authorization: Bearer ********************
{
"model": "bge-reranker-v2-m3",
"query": "vLLM是什麼?它主要解決什麼問題?",
"documents": [
"Transformers 是由 Google 開發的一個深度學習模型,主要用於自然語言處理任務。",
"vLLM 是一個高效的函式庫,專為大型語言模型(LLM)的推理和服務設計,它透過 PagedAttention 技術顯著提高了吞吐量。",
"PyTorch 是一個開源的機器學習框架,廣泛應用於電腦視覺和自然語言處理領域。",
"PagedAttention 是 vLLM 的核心技術之一,它能有效管理 LLM 推理過程中的 key-value 快取,解決了記憶體浪費的問題。",
"vLLM 專案的目標是讓大型語言模型的服務變得更快速、更容易,降低部署成本。"
],
"top_n": 3
}
curl --location --request POST 'https://api.x-aio.com/v1/rerank' \
--header 'Authorization: Bearer <token>' \
--header 'Content-Type: application/json' \
--data-raw '{
"model": "bge-reranker-v2-m3",
"query": "vLLM是什麼?它主要解決什麼問題?",
"documents": [
"Transformers 是由 Google 開發的一個深度學習模型,主要用於自然語言處理任務。",
"vLLM 是一個高效的函式庫,專為大型語言模型(LLM)的推理和服務設計,它透過 PagedAttention 技術顯著提高了吞吐量。",
"PyTorch 是一個開源的機器學習框架,廣泛應用於電腦視覺和自然語言處理領域。",
"PagedAttention 是 vLLM 的核心技術之一,它能有效管理 LLM 推理過程中的 key-value 快取,解決了記憶體浪費的問題。",
"vLLM 專案的目標是讓大型語言模型的服務變得更快速、更容易,降低部署成本。"
],
"top_n": 3
}'
{
"object": "list",
"data": [
{
"object": "embedding",
"embedding": [
0.0023064255,
-0.009327292,
.... (1536 floats total for ada-002)
-0.0028842222
],
"index": 0
}
],
"model": "text-embedding-ada-002",
"usage": {
"prompt_tokens": 8,
"total_tokens": 8
}
}