Interface SessionContext

Inference context — the runtime surface for a loaded model

A SessionContext owns a llama_context (KV cache + compute graph) bound to a shared model. It provides tokenization, logit access, KV cache management, chat template formatting, and embedding extraction.

All generation flows through Branch. Create a branch at position 0, prefill prompt tokens, then use the produce/commit loop or async iterator:

const branch = Branch.create(ctx, 0, { temperature: 0.7 });
await branch.prefill(promptTokens);
for await (const { token, text } of branch) {
  process.stdout.write(text);
}

For tree-structured generation (best-of-N, beam search, speculative decoding), use Branch.fork and BranchStore — they manage per-branch KV sequences, sampler chains, and logits snapshots with O(1) GPU dispatches via batched decode.

Logits: For branch-level logits, use Branch.getLogits which returns an independent copy of the branch's snapshot. For metrics, use Branch.modelEntropy and Branch.modelSurprisal which operate directly on the branch's logits without JS round-trips.

KV cache: Supports multi-sequence operation (nSeqMax > 1), per-sequence copy/clear/eviction, file-based persistence, and context compression via clearAndReseed().

Chat templates: formatChat() and parseChatOutput() handle the full round-trip of chat formatting, including tool calls, reasoning blocks, and grammar-constrained generation — using the model's native Jinja template.

Use createContext to initialize, and dispose() when done to free GPU/CPU memory.

interface SessionContext {
    memorySize: number;
    vocabSize: number;
    _branchAccept(handle: number, token: number): void;
    _branchChildren(handle: number): number[];
    _branchClearLogitBias(handle: number): void;
    _branchClearSteer(handle: number): void;
    _branchCreate(
        position: number,
        params?: SamplingParams,
        nBatch?: number,
        grammar?: string,
    ): number;
    _branchFork(handle: number): number;
    _branchForkHead(handle: number): number;
    _branchGetLogits(handle: number): Float32Array;
    _branchGetPerplexity(handle: number): number;
    _branchGetPosition(handle: number): number;
    _branchGetSamplingPerplexity(handle: number): number;
    _branchIsActive(handle: number): boolean;
    _branchIsLeaf(handle: number): boolean;
    _branchModelEntropy(handle: number, base?: string): number;
    _branchModelSurprisal(handle: number, token: number, base?: string): number;
    _branchParent(handle: number): number;
    _branchPrefill(handle: number, tokens: number[]): Promise<void>;
    _branchPrune(handle: number): void;
    _branchPruneSubtree(handle: number): void;
    _branchSample(handle: number): number;
    _branchSamplerChainReseed(handle: number, seed: number): void;
    _branchSetGrammar(handle: number, grammarStr: string): void;
    _branchSetGrammarLazy(
        handle: number,
        grammar: string,
        patterns: string[],
        tokens: number[],
    ): void;
    _branchSetLogitBias(
        handle: number,
        biases: { bias: number; token: number }[],
    ): void;
    _branchSetSamplerParams(handle: number, params: SamplingParams): void;
    _branchSteer(
        handle: number,
        biases: { bias: number; token: number }[],
    ): void;
    _scoreGroup(
        tokenArrays: number[][],
    ): Promise<Float32Array<ArrayBufferLike>[]>;
    _storeAvailable(): number;
    _storeCommit(handles: number[], tokens: number[]): Promise<void>;
    _storeKvPressure(): { cellsUsed: number; nCtx: number; remaining: number };
    _storePrefill(handles: number[], tokenArrays: number[][]): Promise<void>;
    _storeRetainOnly(handle: number): void;
    clearAndReseed(sinks: number[], tail: number[]): Promise<void>;
    detokenize(tokens: number[]): Promise<string>;
    dispose(): void;
    encode(tokens: number[]): Promise<void>;
    formatChat(
        messagesJson: string,
        options?: string | FormatChatOptions,
    ): Promise<FormattedChatResult>;
    formatChatSync(
        messagesJson: string,
        options?: string | FormatChatOptions,
    ): FormattedChatResult;
    getEmbeddingDimension(): number;
    getEmbeddings(normalize?: boolean): Float32Array;
    getEogToken(): number;
    getTurnSeparator(): number[];
    hasPooling(): boolean;
    isStopToken(token: number): boolean;
    jsonSchemaToGrammar(schemaJson: string): Promise<string>;
    jsonSchemaToGrammarSync(schemaJson: string): string;
    kvCacheClear(): Promise<void>;
    kvCacheLoad(sequenceId: number, state: Buffer): Promise<void>;
    kvCacheReadFile(
        sequenceId: number,
        filepath: string,
    ): Promise<{ bytesRead: number; tokens: number[] }>;
    kvCacheRemove(
        sequenceId: number,
        start: number,
        end: number,
    ): Promise<void>;
    kvCacheSave(sequenceId?: number): Promise<Buffer<ArrayBufferLike>>;
    kvCacheSize(sequenceId?: number): number;
    kvCacheWriteFile(
        sequenceId: number,
        filepath: string,
        tokens: number[],
    ): Promise<number>;
    kvSeqCopy(
        srcSeqId: number,
        dstSeqId: number,
        p0?: number,
        p1?: number,
    ): void;
    kvSeqKeep(seqId: number): void;
    kvSeqPosMax(seqId: number): number;
    parseChatOutput(
        output: string,
        format: number,
        options?: ParseChatOutputOptions,
    ): ParseChatOutputResult;
    tokenize(text: string, addSpecial?: boolean): Promise<number[]>;
    tokenizeSync(text: string, addSpecial?: boolean): number[];
    tokenToText(token: number): string;
    validateChatTemplate(templateString: string): Promise<boolean>;
}

Index

Properties

memorySize vocabSize

Methods

_branchAccept _branchChildren _branchClearLogitBias _branchClearSteer _branchCreate _branchFork _branchForkHead _branchGetLogits _branchGetPerplexity _branchGetPosition _branchGetSamplingPerplexity _branchIsActive _branchIsLeaf _branchModelEntropy _branchModelSurprisal _branchParent _branchPrefill _branchPrune _branchPruneSubtree _branchSample _branchSamplerChainReseed _branchSetGrammar _branchSetGrammarLazy _branchSetLogitBias _branchSetSamplerParams _branchSteer _scoreGroup _storeAvailable _storeCommit _storeKvPressure _storePrefill _storeRetainOnly clearAndReseed detokenize dispose encode formatChat formatChatSync getEmbeddingDimension getEmbeddings getEogToken getTurnSeparator hasPooling isStopToken jsonSchemaToGrammar jsonSchemaToGrammarSync kvCacheClear kvCacheLoad kvCacheReadFile kvCacheRemove kvCacheSave kvCacheSize kvCacheWriteFile kvSeqCopy kvSeqKeep kvSeqPosMax parseChatOutput tokenize tokenizeSync tokenToText validateChatTemplate

Properties

`Readonly`memorySize

memorySize: number

Memory used by this context (bytes)

Reports native memory for monitoring. Includes model weights, KV cache, and context state.

`Readonly`vocabSize

vocabSize: number

Model vocabulary size (number of possible tokens)

This is the length of the logits array from Branch.getLogits().

Methods

_branchAccept

_branchAccept(handle: number, token: number): void
Internal
Parameters
- handle: number
- token: number
Returns void
- Defined in sdk/src/types.ts:1389

_branchChildren

_branchChildren(handle: number): number[]
Internal
Parameters
- handle: number
Returns number[]
- Defined in sdk/src/types.ts:1413

_branchClearLogitBias

_branchClearLogitBias(handle: number): void
Internal
Parameters
- handle: number
Returns void
- Defined in sdk/src/types.ts:1452

_branchClearSteer

_branchClearSteer(handle: number): void
Internal
Parameters
- handle: number
Returns void
- Defined in sdk/src/types.ts:1428

_branchCreate

_branchCreate(
    position: number,
    params?: SamplingParams,
    nBatch?: number,
    grammar?: string,
): number
Internal
Parameters
- position: number
- Optionalparams: SamplingParams
- OptionalnBatch: number
- Optionalgrammar: string
Returns number
- Defined in sdk/src/types.ts:1377

_branchFork

_branchFork(handle: number): number
Internal
Parameters
- handle: number
Returns number
- Defined in sdk/src/types.ts:1380

_branchForkHead

_branchForkHead(handle: number): number
Internal
Parameters
- handle: number
Returns number
- Defined in sdk/src/types.ts:1410

_branchGetLogits

_branchGetLogits(handle: number): Float32Array
Internal
Parameters
- handle: number
Returns Float32Array
- Defined in sdk/src/types.ts:1398

_branchGetPerplexity

_branchGetPerplexity(handle: number): number
Internal
Parameters
- handle: number
Returns number
- Defined in sdk/src/types.ts:1395

_branchGetPosition

_branchGetPosition(handle: number): number
Internal
Parameters
- handle: number
Returns number
- Defined in sdk/src/types.ts:1392

_branchGetSamplingPerplexity

_branchGetSamplingPerplexity(handle: number): number
Internal
Parameters
- handle: number
Returns number
- Defined in sdk/src/types.ts:1446

_branchIsActive

_branchIsActive(handle: number): boolean
Internal
Parameters
- handle: number
Returns boolean
- Defined in sdk/src/types.ts:1419

_branchIsLeaf

_branchIsLeaf(handle: number): boolean
Internal
Parameters
- handle: number
Returns boolean
- Defined in sdk/src/types.ts:1416

_branchModelEntropy

_branchModelEntropy(handle: number, base?: string): number
Internal
Parameters
- handle: number
- Optionalbase: string
Returns number
- Defined in sdk/src/types.ts:1440

_branchModelSurprisal

_branchModelSurprisal(handle: number, token: number, base?: string): number
Internal
Parameters
- handle: number
- token: number
- Optionalbase: string
Returns number
- Defined in sdk/src/types.ts:1443

_branchParent

_branchParent(handle: number): number
Internal
Parameters
- handle: number
Returns number
- Defined in sdk/src/types.ts:1407

_branchPrefill

_branchPrefill(handle: number, tokens: number[]): Promise<void>
Internal
Parameters
- handle: number
- tokens: number[]
Returns Promise<void>
- Defined in sdk/src/types.ts:1383

_branchPrune

_branchPrune(handle: number): void
Internal
Parameters
- handle: number
Returns void
- Defined in sdk/src/types.ts:1401

_branchPruneSubtree

_branchPruneSubtree(handle: number): void
Internal
Parameters
- handle: number
Returns void
- Defined in sdk/src/types.ts:1404

_branchSample

_branchSample(handle: number): number
Internal
Parameters
- handle: number
Returns number
- Defined in sdk/src/types.ts:1386

_branchSamplerChainReseed

_branchSamplerChainReseed(handle: number, seed: number): void
Internal
Parameters
- handle: number
- seed: number
Returns void
- Defined in sdk/src/types.ts:1422

_branchSetGrammar

_branchSetGrammar(handle: number, grammarStr: string): void
Internal
Parameters
- handle: number
- grammarStr: string
Returns void
- Defined in sdk/src/types.ts:1434

_branchSetGrammarLazy

_branchSetGrammarLazy(
    handle: number,
    grammar: string,
    patterns: string[],
    tokens: number[],
): void
Internal
Parameters
- handle: number
- grammar: string
- patterns: string[]
- tokens: number[]
Returns void
- Defined in sdk/src/types.ts:1437

_branchSetLogitBias

_branchSetLogitBias(
handle: number,
biases: { bias: number; token: number }[],
): void
Internal
Parameters
- handle: number
- biases: { bias: number; token: number }[]
Returns void
- Defined in sdk/src/types.ts:1449

_branchSetSamplerParams

_branchSetSamplerParams(handle: number, params: SamplingParams): void
Internal
Parameters
- handle: number
- params: SamplingParams
Returns void
- Defined in sdk/src/types.ts:1431

_branchSteer

_branchSteer(handle: number, biases: { bias: number; token: number }[]): void
Internal
Parameters
- handle: number
- biases: { bias: number; token: number }[]
Returns void
- Defined in sdk/src/types.ts:1425

_scoreGroup

_scoreGroup(tokenArrays: number[][]): Promise<Float32Array<ArrayBufferLike>[]>
Internal
— processes ≤ n_seq_max prompts in a single group
Parameters
- tokenArrays: number[][]
Returns Promise<Float32Array<ArrayBufferLike>[]>
- Defined in sdk/src/types.ts:1475

_storeAvailable

_storeAvailable(): number
Internal
Returns number
- Defined in sdk/src/types.ts:1466

_storeCommit

_storeCommit(handles: number[], tokens: number[]): Promise<void>
Internal
Parameters
- handles: number[]
- tokens: number[]
Returns Promise<void>
- Defined in sdk/src/types.ts:1457

_storeKvPressure

_storeKvPressure(): { cellsUsed: number; nCtx: number; remaining: number }
KV cache pressure snapshot from native BranchStore. cells_used is a monotonic counter reset on drain/retainOnly.

Returns { cellsUsed: number; nCtx: number; remaining: number }
- Defined in sdk/src/types.ts:1470

_storePrefill

_storePrefill(handles: number[], tokenArrays: number[][]): Promise<void>
Internal
Parameters
- handles: number[]
- tokenArrays: number[][]
Returns Promise<void>
- Defined in sdk/src/types.ts:1460

_storeRetainOnly

_storeRetainOnly(handle: number): void
Internal
Parameters
- handle: number
Returns void
- Defined in sdk/src/types.ts:1463

clearAndReseed

clearAndReseed(sinks: number[], tail: number[]): Promise<void>
Blink KV — cache-local reconstruction for bounded-memory streaming

Implements the Blink KV protocol (Naqvi, 2026): when the KV cache fills, clear it entirely and re-decode retained tokens at contiguous positions [0, 1, ..., N-1]. This achieves cache-local position IDs — the operative requirement for stable bounded-memory streaming — without backend-specific knowledge of key storage format. Works on post-RoPE engines (where StreamingLLM's pos-shift is unavailable) and any backend exposing clear() + decode().

Why not naive eviction? Selective eviction (kvCacheRemove) preserves original position IDs, which grow without bound. Across 5 architectures, naive eviction produces PPL spanning 3 orders of magnitude — ranging from 1.15x baseline (Llama, lucky config) to 198x (Phi, sinks present). Under Blink KV reconstruction, all 5 converge to 3-16% of baseline.

Sinks are optional. Under reconstruction, the 0+N (sinkless) config matches 4+N (with sinks) within <2% across all tested architectures. Pass an empty sinks array if you don't need them.

Algorithm:
1. Clear entire KV cache (zero fragmentation)
2. Re-decode sinks at position 0 (optional attention anchors)
3. Re-decode tail at position sinks.length (recent context)
Cost: Re-decodes sinks.length + tail.length tokens. At per-boundary trigger (reconstruct when cache reaches nCtx), amortized cost is O(cacheSize / interval) decode ops per token — ~0.14 at typical settings.
Parameters
- sinks: number[]
  First N tokens from conversation start (typically 4, or empty). Must be the same tokens every reseed — reusing different tokens degrades any attention-sink patterns the model may have learned for early positions.
- tail: number[]
  Recent M tokens to preserve (typically 252-1020)
Returns Promise<void>
Promise that resolves when reconstruction completes. Next decode continues at position sinks.length + tail.length.
Example: Per-boundary reconstruction
```
// Capture sinks once at conversation start
const SINKS = allTokens.slice(0, 4);

// On cache fill: compress to 512 tokens (4 sinks + 508 tail)
if (position >= ctx.nCtx) {
  const tail = allTokens.slice(-508);
  await ctx.clearAndReseed(SINKS, tail);
  position = 512;  // sinks.length + tail.length
}
```
Example: Sinkless reconstruction (equally effective)
```
const tail = allTokens.slice(-256);
await ctx.clearAndReseed([], tail);  // No sinks needed
position = 256;
```
See
Blink KV paper
- Defined in sdk/src/types.ts:964

detokenize

detokenize(tokens: number[]): Promise<string>
Detokenize array of tokens back to text

Inverse of tokenize(). Use for reconstructing complete text from token sequences (e.g., after KV cache operations).

Optimized for batch conversion of many tokens. For single-token conversion during generation, use tokenToText().

Cost: ~1ms per 100 tokens
Parameters
- tokens: number[]
  Array of token IDs
Returns Promise<string>
Complete text representation
Example
```
const tokens = [15496, 1917]; // "Hello world"
const text = await ctx.detokenize(tokens);
console.log(text); // "Hello world"
```
- Defined in sdk/src/types.ts:813

dispose

dispose(): void
Free native resources

Call when done with context to release model and KV cache memory. Context becomes unusable after disposal.

Returns void
- Defined in sdk/src/types.ts:1372

encode

encode(tokens: number[]): Promise<void>
Encode tokens for embedding extraction

Unlike decode(), this marks ALL tokens with logits=true which is required for embedding extraction. Use with embeddings=true context.

Workflow:
1. Create context with { embeddings: true, poolingType: PoolingType.MEAN }
2. Tokenize your text
3. Clear KV cache (important between different texts!)
4. Call encode() with tokens
5. Call getEmbeddings() to get the vector
Cost: ~5-50ms depending on text length and model
Parameters
- tokens: number[]
  Token IDs from tokenize()
Returns Promise<void>
Example
```
// Create embedding context
const ctx = await createContext({
  modelPath: './nomic-embed.gguf',
  embeddings: true,
  poolingType: PoolingType.MEAN
});

// Get embedding for text
const tokens = await ctx.tokenize("Hello world");
await ctx.kvCacheClear();  // Important between texts!
await ctx.encode(tokens);
const embedding = ctx.getEmbeddings();
```
- Defined in sdk/src/types.ts:1290

formatChat

formatChat(
messagesJson: string,
options?: string | FormatChatOptions,
): Promise<FormattedChatResult>
Format messages using model's chat template

Converts [{role, content}] -> formatted prompt string with full format awareness. Uses model's built-in template (ChatML, Llama, Mistral, etc.).

The returned format and reasoningFormat fields should be passed to parseChatOutput() after generation to correctly decode the response.

Cost: ~1-5ms depending on message count
Parameters
- messagesJson: string
  JSON string containing array of messages
- Optionaloptions: string | FormatChatOptions
  Formatting options (tools, reasoning, grammar, etc.)
Returns Promise<FormattedChatResult>
Formatted prompt with format-awareness metadata
See
parseChatOutput
Example: Basic usage
```
const result = await ctx.formatChat(JSON.stringify([
  { role: "system", content: "You are a helpful assistant" },
  { role: "user", content: "Hello!" }
]));

const tokens = await ctx.tokenize(result.prompt);
const branch = Branch.create(ctx, 0, { temperature: 0.7 });
await branch.prefill(tokens);
```
- Defined in sdk/src/types.ts:1093

formatChatSync

formatChatSync(
messagesJson: string,
options?: string | FormatChatOptions,
): FormattedChatResult
Format messages using model's chat template (sync — inline on main thread)

Same as formatChat but synchronous. Use from Effection generators to avoid yield* call() overhead for CPU-only work.
Parameters
- messagesJson: string
  JSON string containing array of messages
- Optionaloptions: string | FormatChatOptions
  Formatting options (tools, reasoning, grammar, etc.)
Returns FormattedChatResult
Formatted prompt with format-awareness metadata
- Defined in sdk/src/types.ts:1108

getEmbeddingDimension

getEmbeddingDimension(): number
Get embedding dimension for model

Returns the size of embedding vectors this model produces. Common values: 768 (BERT-like), 1024, 2048, 4096.

Cost: <0.01ms (fast model property lookup)

Returns number
Embedding dimension
Example
```
const dim = ctx.getEmbeddingDimension();
console.log(`Model produces ${dim}-dimensional embeddings`);
```
- Defined in sdk/src/types.ts:1333

getEmbeddings

getEmbeddings(normalize?: boolean): Float32Array
Get embedding vector from context (after encode)

Returns the embedding vector for the encoded text. Call after encode() to extract embeddings.

The vector dimension depends on the model (e.g., 768 for nomic-embed). Use getEmbeddingDimension() to get the size.

Cost: ~0.5ms (extraction from model state)
Parameters
- Optionalnormalize: boolean
  Apply L2 normalization (default: true for cosine similarity)
Returns Float32Array
Float32Array of embedding values
Example
```
await ctx.encode(tokens);

// Get L2-normalized embedding (for cosine similarity)
const embedding = ctx.getEmbeddings();

// Or raw embedding without normalization
const rawEmbedding = ctx.getEmbeddings(false);
```
- Defined in sdk/src/types.ts:1316

getEogToken

getEogToken(): number
Get the model's end-of-generation token ID

Returns the EOT token (e.g. <|im_end|> for ChatML), falling back to EOS (e.g. ) for Zephyr-style models. This is the inverse of isStopToken() — "what IS the stop token?" vs "is this a stop token?"

Use case: warm multi-turn continuation prepends this token to close the previous assistant turn before injecting new user content.

Returns number
Token ID (integer)

Throws
If model has neither EOT nor EOS token
- Defined in sdk/src/types.ts:725

getTurnSeparator

getTurnSeparator(): number[]
Get the model's turn separator token IDs

Returns the tokens that close an assistant turn and transition to the next message, as determined by the model's chat template. Computed once per model, cached.

For ChatML templates: [im_end_id, newline_id] (e.g., [2, 198]) For Llama 3 templates: [eot_id] (e.g., [128009])

Use case: warm multi-turn prefill to achieve exact parity with cold path.

Returns number[]
Array of token IDs (cached after first call)
Example
```
const separator = ctx.getTurnSeparator();
console.log(separator.map(t => ctx.tokenToText(t)).join(''));  // "<|im_end|>\n"

// Warm prefill with exact cold/warm parity
const deltaTokens = await ctx.tokenize(deltaPrompt, false);
await branch.prefill([...separator, ...deltaTokens]);
```
- Defined in sdk/src/types.ts:751

hasPooling

hasPooling(): boolean
Check if context has pooling enabled

Returns true if context was created with embeddings=true and a pooling type other than NONE.

Cost: <0.01ms

Returns boolean
True if pooling is enabled
- Defined in sdk/src/types.ts:1345

isStopToken

isStopToken(token: number): boolean
Check if token is a model stop token

Returns true for built-in end-of-generation tokens:
- (Llama 2)
- <|endoftext|> (GPT)
- <|eot_id|> (Llama 3)
- Model-specific EOS tokens
Note: This checks vocabulary stop tokens, not custom stop sequences. For custom stops (e.g., "\n\n", "###"), compare generated text against your stop strings in application code.

Cost: <0.01ms (fast vocabulary lookup)
Parameters
- token: number
  Token ID to check
Returns boolean
- Defined in sdk/src/types.ts:710

jsonSchemaToGrammar

jsonSchemaToGrammar(schemaJson: string): Promise<string>
Convert JSON schema to GBNF grammar

Generates grammar string for constrained JSON generation. Use with Branch.create grammar parameter for constrained generation.

Cost: ~1-10ms depending on schema complexity
Parameters
- schemaJson: string
  JSON schema string
Returns Promise<string>
GBNF grammar string
Example
```
const schema = {
  type: "object",
  properties: {
    name: { type: "string" },
    age: { type: "number" }
  },
  required: ["name"]
};

const grammar = await ctx.jsonSchemaToGrammar(JSON.stringify(schema));
const branch = Branch.create(ctx, 0, params, undefined, grammar);
```
- Defined in sdk/src/types.ts:1231

jsonSchemaToGrammarSync

jsonSchemaToGrammarSync(schemaJson: string): string
Convert JSON schema to GBNF grammar (sync — inline on main thread)

Same as jsonSchemaToGrammar but synchronous. Use from Effection generators to avoid yield* call() overhead for CPU-only work.
Parameters
- schemaJson: string
  JSON schema string
Returns string
GBNF grammar string
- Defined in sdk/src/types.ts:1242

kvCacheClear

kvCacheClear(): Promise<void>
Clear all KV cache (fresh start)

Removes all cached tokens. Model returns to initial state as if no text has been processed.

Use when starting a completely new conversation.

Cost: ~1ms

Returns Promise<void>
- Defined in sdk/src/types.ts:903

kvCacheLoad

kvCacheLoad(sequenceId: number, state: Buffer): Promise<void>
Restore KV cache from previous snapshot

Loads saved model state. Context returns to exact state when snapshot was taken.

Cost: ~100-500ms depending on snapshot size
Parameters
- sequenceId: number
  Sequence ID (use 0 for single sequence)
- state: Buffer
  Buffer from kvCacheSave()
Returns Promise<void>
Example
```
const snapshot = await ctx.kvCacheSave(0);

// ... many operations later ...

// Restore to saved state
await ctx.kvCacheLoad(0, snapshot);
```
- Defined in sdk/src/types.ts:891

kvCacheReadFile

kvCacheReadFile(
sequenceId: number,
filepath: string,
): Promise<{ bytesRead: number; tokens: number[] }>
Read KV cache state + tokens from file

Restores KV cache state from a previous kvCacheWriteFile call.
Parameters
- sequenceId: number
  Sequence ID to restore to
- filepath: string
  Path to saved file
Returns Promise<{ bytesRead: number; tokens: number[] }>
Promise resolving to tokens and bytes read
- Defined in sdk/src/types.ts:1057

kvCacheRemove

kvCacheRemove(sequenceId: number, start: number, end: number): Promise<void>
Remove token range from KV cache

Deletes tokens from model's memory. Use cases:
- Removing old context when hitting limit (sliding window)
- Implementing conversation pruning
- Forgetting specific messages
- Preparing for injection of new context
CRITICAL: Call BEFORE next decode(), not after! The model needs to know about the removal before processing new tokens.

Cost: ~1-5ms depending on range
Parameters
- sequenceId: number
  Sequence ID (use 0 for single sequence)
- start: number
  Start position (inclusive)
- end: number
  End position (exclusive), -1 = to end
Returns Promise<void>
- Defined in sdk/src/types.ts:851

kvCacheSave

kvCacheSave(sequenceId?: number): Promise<Buffer<ArrayBufferLike>>
Snapshot KV cache state for branching/undo

Serializes entire model state to Buffer. Restore later with kvCacheLoad() for:
- Conversation branching ("what if I said X instead?")
- Undo/redo functionality
- Checkpointing long conversations
Size: ~500MB-2GB depending on context length and model

Cost: ~100-500ms depending on cache size
Parameters
- OptionalsequenceId: number
  Sequence ID (use 0 for single sequence)
Returns Promise<Buffer<ArrayBufferLike>>
Serialized state buffer
- Defined in sdk/src/types.ts:869

kvCacheSize

kvCacheSize(sequenceId?: number): number
Get max position in the KV cache for a sequence

Returns the highest position index in the specified sequence, or -1 if the sequence is empty. This is the same value as kvSeqPosMax. To get the token count, add 1.

Think of this as: "How much has the model read so far?"

Cost: <0.01ms (fast sync operation - safe to call frequently)
Parameters
- OptionalsequenceId: number
  Sequence ID (defaults to 0 for single conversation)
Returns number
Highest position index, or -1 if empty
- Defined in sdk/src/types.ts:831

kvCacheWriteFile

kvCacheWriteFile(
    sequenceId: number,
    filepath: string,
    tokens: number[],
): Promise<number>
Write KV cache state + tokens to file

Persists KV cache state for later restoration. Useful for checkpointing long conversations.
Parameters
- sequenceId: number
  Sequence ID to save
- filepath: string
  Path to save file
- tokens: number[]
  Tokens that were decoded into this sequence
Returns Promise<number>
Promise resolving to bytes written
- Defined in sdk/src/types.ts:1042

kvSeqCopy

kvSeqCopy(srcSeqId: number, dstSeqId: number, p0?: number, p1?: number): void
Fork a KV cache sequence — the primitive behind Branch.fork

Copies all KV cache entries from srcSeqId to dstSeqId. Under llama.cpp's unified KV cache, this is a metadata-only operation — no key/value tensors are copied. Both sequences reference the same physical KV entries for the shared prefix; only tokens decoded after the fork point allocate new storage. This is what makes tree-structured generation (best-of-N, beam search, speculative decoding) memory-efficient: N branches sharing a 1000-token prefix cost ~1000 KV entries, not N*1000.

The higher-level Branch.fork wraps this and additionally clones the sampler chain, grammar state, logits snapshot, and perplexity tracker. Use kvSeqCopy directly when you need raw sequence management without the Branch abstraction.

NOTE: Only full-sequence copies are supported. The p0/p1 parameters must use default values (0 and -1).

Cost: O(1) metadata — no tensor copy under unified KV
Parameters
- srcSeqId: number
  Source sequence to copy from
- dstSeqId: number
  Destination sequence to copy to
- Optionalp0: number
  Start position (must be 0, default: 0)
- Optionalp1: number
  End position (must be -1 for full copy, default: -1)
Returns void
- Defined in sdk/src/types.ts:994

kvSeqKeep

kvSeqKeep(seqId: number): void
Keep only specified sequence, remove all others

Removes all sequences except the one specified. For complete cleanup of unwanted sequences, consider using kvCacheRemove(seqId, 0, -1) on each sequence instead.
Parameters
- seqId: number
  Sequence ID to keep
Returns void
- Defined in sdk/src/types.ts:1005

kvSeqPosMax

kvSeqPosMax(seqId: number): number
Get max position in sequence

Returns the highest position index in the specified sequence, or -1 if the sequence is empty.

Cost: <0.01ms (fast sync operation)
Parameters
- seqId: number
  Sequence ID to query
Returns number
Max position index, or -1 if empty
Example
```
const pos = ctx.kvSeqPosMax(0);
if (pos === -1) {
  console.log('Sequence is empty');
} else {
  console.log(`Sequence has ${pos + 1} tokens`);
}
```
- Defined in sdk/src/types.ts:1027

parseChatOutput

parseChatOutput(
    output: string,
    format: number,
    options?: ParseChatOutputOptions,
): ParseChatOutputResult

Parse model output into structured content

Extracts plain text, reasoning/thinking blocks, and tool calls from raw model output. Uses the format detected by formatChat to apply the correct parser for the model's output format.

Cost: <0.1ms (synchronous string parsing, no I/O)

Parameters

output: string
Raw model output text
format: number
Chat format enum (from FormattedChatResult.format)
Optionaloptions: ParseChatOutputOptions
Optional parsing parameters

Returns ParseChatOutputResult

Parsed content with tool calls and reasoning

See

formatChat

Example: Basic parsing

const fmt = await ctx.formatChat(JSON.stringify(messages), { tools: toolsJson });
// ... generate tokens ...
const parsed = ctx.parseChatOutput(generatedText, fmt.format, {
  reasoningFormat: fmt.reasoningFormat,
  thinkingForcedOpen: fmt.thinkingForcedOpen,
  parser: fmt.parser
});
if (parsed.toolCalls.length > 0) {
  // Handle tool calls
}

Example: Multi-turn warm continuation with reasoning models

// parseChatOutput separates <think>...</think> blocks into reasoningContent.
// This is REQUIRED for correct warm continuation on thinking models (e.g. Qwen3):
// if raw output containing <think> tags is stored as content, re-formatting
// the conversation produces different tokens, breaking cold/warm parity.

const messages: Array<{role: string; content: string; reasoning_content?: string}> = [];
const sep = ctx.getTurnSeparator();
let branch: Branch | null = null;
let fmt: FormattedChatResult;

async function handleTurn(userContent: string) {
  messages.push({ role: 'user', content: userContent });

  if (!branch) {
    // Cold path: format full conversation, tokenize with BOS, prefill
    fmt = await ctx.formatChat(JSON.stringify(messages));
    const tokens = await ctx.tokenize(fmt.prompt);
    branch = Branch.create(ctx, 0, { temperature: 0.7 });
    await branch.prefill(tokens);
  } else {
    // Warm path: string-diff for delta tokens
    const { prompt: full } = await ctx.formatChat(JSON.stringify(messages));
    const { prompt: prefix } = await ctx.formatChat(
      JSON.stringify(messages.slice(0, -1)),
      { addGenerationPrompt: false }
    );
    const delta = await ctx.tokenize(full.substring(prefix.length), false);
    await branch.prefill([...sep, ...delta]);
  }

  // Generate
  let rawOutput = '';
  while (true) {
    const { token, text, isStop } = await branch.produce();
    if (isStop) break;
    rawOutput += text;
    await branch.commit(token);
  }

  // Parse output: separates reasoning from content
  const parsed = ctx.parseChatOutput(rawOutput, fmt.format, {
    reasoningFormat: fmt.reasoningFormat,
    thinkingForcedOpen: fmt.thinkingForcedOpen,
    parser: fmt.parser
  });

  // Store parsed fields — formatChat reconstructs thinking blocks correctly
  messages.push({
    role: 'assistant',
    content: parsed.content,
    reasoning_content: parsed.reasoningContent || undefined
  });
}

tokenize

tokenize(text: string, addSpecial?: boolean): Promise<number[]>
Tokenize text into model's vocabulary

Converts human text → token IDs for decode(). Same text always produces same tokens for a given model.

Cost: ~1ms per 100 characters
Parameters
- text: string
  Text to tokenize
- OptionaladdSpecial: boolean
  Whether to add special tokens (BOS/EOS). Defaults to model metadata setting (typically true). Pass false for mid-sequence tokenization (e.g., warm multi-turn continuation deltas).
Returns Promise<number[]>
Array of token IDs
Example
```
// Full sequence (default — includes BOS)
const tokens = await ctx.tokenize("Hello world");

// Mid-sequence delta (no BOS)
const delta = await ctx.tokenize("continuation text", false);
```
- Defined in sdk/src/types.ts:777

tokenizeSync

tokenizeSync(text: string, addSpecial?: boolean): number[]
Tokenize text into model's vocabulary (sync — inline on main thread)

Same as tokenize but synchronous. Use from Effection generators to avoid yield* call() overhead for CPU-only work.
Parameters
- text: string
  Text to tokenize
- OptionaladdSpecial: boolean
  Whether to add special tokens (BOS/EOS). Defaults to model metadata setting (typically true). Pass false for mid-sequence tokenization.
Returns number[]
Array of token IDs
- Defined in sdk/src/types.ts:791

tokenToText

tokenToText(token: number): string
Convert token ID to text piece

Fast synchronous lookup in vocabulary table. Call this on each generated token for streaming display.

Optimized for per-token conversion during generation. For batch conversion of many tokens, use detokenize() instead.

Cost: ~0.05ms
Parameters
- token: number
  Token ID
Returns string
Text string for this token
- Defined in sdk/src/types.ts:691

validateChatTemplate

validateChatTemplate(templateString: string): Promise<boolean>
Validate chat template syntax

Checks if template string is valid before using.

Cost: ~0.1-1ms
Parameters
- templateString: string
  Template string to validate
Returns Promise<boolean>
True if template syntax is valid
- Defined in sdk/src/types.ts:1254

Interface SessionContext

Index

Properties

Methods

Properties

ReadonlymemorySize

ReadonlyvocabSize

Methods

_branchAccept

Parameters

Returns void

_branchChildren

Parameters

Returns number[]

_branchClearLogitBias

Parameters

Returns void

_branchClearSteer

Parameters

Returns void

_branchCreate

Parameters

Returns number

_branchFork

Parameters

Returns number

_branchForkHead

Parameters

Returns number

_branchGetLogits

Parameters

Returns Float32Array

_branchGetPerplexity

Parameters

Returns number

_branchGetPosition

Parameters

Returns number

_branchGetSamplingPerplexity

Parameters

Returns number

_branchIsActive

Parameters

Returns boolean

_branchIsLeaf

Parameters

Returns boolean

_branchModelEntropy

Parameters

Returns number

_branchModelSurprisal

Parameters

Returns number

_branchParent

Parameters

Returns number

_branchPrefill

Parameters

Returns Promise<void>

_branchPrune

Parameters

Returns void

_branchPruneSubtree

Parameters

Returns void

_branchSample

Parameters

Returns number

_branchSamplerChainReseed

Parameters

Returns void

_branchSetGrammar

Parameters

Returns void

_branchSetGrammarLazy

Parameters

Returns void

_branchSetLogitBias

Parameters

Returns void

`Readonly`memorySize

`Readonly`vocabSize