Embeddings

Generate vector embeddings from text for semantic search, RAG pipelines, clustering, and similarity comparisons. Octomil exposes an OpenAI-compatible embeddings endpoint at /v1/embeddings and provides SDK wrappers for every platform.

API Endpoint

POST /v1/embeddings

curl -X POST http://localhost:8080/v1/embeddings \
  -H "Authorization: Bearer $TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "text-embedding-3-small",
    "input": ["search query", "document text to embed"]
  }'

Response:

{
  "object": "list",
  "data": [
    {"object": "embedding", "embedding": [0.012, -0.034], "index": 0},
    {"object": "embedding", "embedding": [0.056, 0.078], "index": 1}
  ],
  "model": "text-embedding-3-small",
  "usage": { "prompt_tokens": 12, "total_tokens": 12 }
}

Both single strings and arrays are supported as input.

If you are migrating existing OpenAI client code, you can usually keep the same client and swap the base URL. See OpenAI-compatible integrations.

SDK Examples

Python
iOS (Swift)
Android (Kotlin)
Browser

import octomil

client = octomil.Client(api_key="oct_...")

# Single string
result = client.embed("nomic-embed-text", "search query")
print(result.embeddings[0][:5])  # first 5 dimensions

# Batch
result = client.embed("nomic-embed-text", ["doc 1", "doc 2", "doc 3"])
print(len(result.embeddings))  # 3
print(result.usage)  # {'prompt_tokens': ..., 'total_tokens': ...}

let client = EmbeddingClient(serverURL: serverURL, apiKey: "oct_...")

// Single string
let result = try await client.embed(modelId: "nomic-embed-text", input: "search query")
print(result.embeddings[0].prefix(5))

// Batch
let batchResult = try await client.embed(
    modelId: "nomic-embed-text",
    input: ["doc 1", "doc 2", "doc 3"]
)
print(batchResult.embeddings.count) // 3

val client = EmbeddingClient(serverUrl = "http://...", apiKey = "oct_...")

// Single string
val result = client.embed("nomic-embed-text", "search query")
println(result.embeddings[0].take(5))

// Batch
val batchResult = client.embed("nomic-embed-text", listOf("doc 1", "doc 2"))
println(batchResult.embeddings.size) // 2

import { embed } from '@octomil/browser';

// Single string
const result = await embed('http://localhost:8080', 'oct_...', 'nomic-embed-text', 'search query');
console.log(result.embeddings[0].slice(0, 5));

// Batch
const batch = await embed('http://localhost:8080', 'oct_...', 'nomic-embed-text', [
  'doc 1', 'doc 2', 'doc 3'
]);
console.log(batch.embeddings.length); // 3

Use Cases

Semantic search: Embed queries and documents, find nearest neighbors
RAG: Retrieve relevant context before generating responses
Clustering: Group similar content by embedding distance
Deduplication: Find near-duplicate content via cosine similarity
Classification: Use embeddings as features for downstream classifiers

Models

Any embedding model supported by your backend works. Common choices:

Model	Dimensions	Use Case
`nomic-embed-text`	768	General-purpose text
`all-minilm`	384	Lightweight, fast
`mxbai-embed-large`	1024	High-quality retrieval

API Endpoint​

SDK Examples​

Use Cases​

Models​

API Endpoint

SDK Examples

Use Cases

Models