promptfoo
Security-as-Code
Testy, ewaluacja i red-teaming LLM/agentów — deklaratywne configi.
promptfoo to narzędzie do testowania, ewaluacji i red-teamingu aplikacji opartych o LLM — promptów, agentów i RAG-ów. Scenariusze testowe i asercje opisujesz deklaratywnie (YAML), a narzędzie porównuje modele, wykrywa regresje jakości oraz skanuje pod kątem podatności (np. prompt injection, wycieki). Bezpieczeństwo i jakość AI stają się powtarzalnym krokiem w pipeline, nie ręcznym sprawdzaniem.
Kiedy używać
- Testujesz i porównujesz prompty/modele z asercjami w CI.
- Robisz red-teaming aplikacji LLM (injection, jailbreak, wycieki).
- Chcesz wykrywać regresje jakości przy zmianach promptów/modeli.
Przykład użycia
# promptfooconfig.yaml
prompts: ["Odpowiedz po polsku: {{pytanie}}"]
providers: [openai:gpt-4o, anthropic:claude-3-5-sonnet]
tests:
- vars: { pytanie: "Czym jest IaC?" }
assert:
- type: contains
value: "infrastruktura"
npx promptfoo eval # ewaluacja
npx promptfoo redteam run # skan bezpieczeństwa
Warto wiedzieć
- Configi trzymaj w repo — ewaluacja i red-teaming jako bramka w Gitea Actions.
- Wspiera wielu dostawców modeli jednocześnie (porównania).