Function toEvalRow

packages/ai-code-mode/models-eval/run-eval.ts:392–422 · view source on GitHub ↗

(payload: RunLogPayload)

Source from the content-addressed store, hash-verified

390	}
391
392	function toEvalRow(payload: RunLogPayload): EvalRow {
393	const { provider, modelId } = parseModelId(payload.entry.model)
394	return {
395	name: payload.entry.name,
396	model: payload.entry.model,
397	provider,
398	modelId,
399	modelCategory: payload.modelCategory,
400	durationMs: payload.durationMs,
401	ttftMs: payload.ttftMs,
402	promptTokens: payload.promptTokens,
403	completionTokens: payload.completionTokens,
404	totalTokens: payload.totalTokens,
405	tokenEfficiency: payload.tokenEfficiency,
406	speedTier: payload.speedTier,
407	tokenEfficiencyTier: payload.tokenEfficiencyTier,
408	stabilityTier: payload.stabilityTier,
409	stabilityRate: payload.stabilityRate,
410	stabilitySampleSize: payload.stabilitySampleSize,
411	totalToolCalls: payload.totalToolCalls,
412	totalExecuteCalls: payload.totalExecuteCalls,
413	successfulExecuteCalls: payload.successfulExecuteCalls,
414	compilationFailures: payload.compilationFailures,
415	runtimeFailures: payload.runtimeFailures,
416	redundantSchemaChecks: payload.redundantSchemaChecks,
417	stars: payload.stars,
418	weightedScore: payload.weightedScore,
419	error: payload.error,
420	judge: payload.judge,
421	}
422	}
423
424	function isStableRun(payload: RunLogPayload): boolean {
425	if (payload.error) return false

judgeLatestSessionFunction · 0.85

parseModelIdFunction · 0.90

no test coverage detected