Ayuriel/openclaw

History

kumarabhirup a9520572be

feat(evals): add eval runner, types, and vitest config

2026-03-02 18:37:07 -08:00

..

dataset.ts

feat(evals): add eval framework with dataset, graders, and regression report

2026-03-02 18:36:40 -08:00

graders.test.ts

feat(evals): add eval framework with dataset, graders, and regression report

2026-03-02 18:36:40 -08:00

graders.ts

feat(evals): add eval framework with dataset, graders, and regression report

2026-03-02 18:36:40 -08:00

README.md

feat(evals): add eval framework with dataset, graders, and regression report

2026-03-02 18:36:40 -08:00

REGRESSION_VERIFICATION_REPORT.md

feat(evals): add eval framework with dataset, graders, and regression report

2026-03-02 18:36:40 -08:00

run-evals.ts

feat(evals): add eval runner, types, and vitest config

2026-03-02 18:37:07 -08:00

types.ts

feat(evals): add eval runner, types, and vitest config

2026-03-02 18:37:07 -08:00

vitest.config.ts

feat(evals): add eval runner, types, and vitest config

2026-03-02 18:37:07 -08:00

README.md

Chat-Agent Evals

This folder contains a dataset-driven eval harness for web chat-agent behavior.

What is graded

output: final assistant text quality checks (mustContain, mustNotContain)
trajectory: tool-call ordering checks (strict, subset, superset, unordered)
trace: event-stream integrity checks (required event types, monotonic globalSeq, and tool-call lifecycle completeness)

Run

pnpm test:evals

This mode is informational and prints a full summary.

Enforce critical checks

pnpm test:evals:enforce

When EVALS_ENFORCE=1, the runner exits non-zero if any critical eval case fails.