promptfoo

Security-as-Code

Testy, ewaluacja i red-teaming LLM/agentów — deklaratywne configi.

★ 23 000 MIT #security#llm#red-teaming#testing

promptfoo to narzędzie do testowania, ewaluacji i red-teamingu aplikacji opartych o LLM — promptów, agentów i RAG-ów. Scenariusze testowe i asercje opisujesz deklaratywnie (YAML), a narzędzie porównuje modele, wykrywa regresje jakości oraz skanuje pod kątem podatności (np. prompt injection, wycieki). Bezpieczeństwo i jakość AI stają się powtarzalnym krokiem w pipeline, nie ręcznym sprawdzaniem.

Kiedy używać

Testujesz i porównujesz prompty/modele z asercjami w CI.
Robisz red-teaming aplikacji LLM (injection, jailbreak, wycieki).
Chcesz wykrywać regresje jakości przy zmianach promptów/modeli.

Przykład użycia

# promptfooconfig.yaml
prompts: ["Odpowiedz po polsku: {{pytanie}}"]
providers: [openai:gpt-4o, anthropic:claude-3-5-sonnet]
tests:
  - vars: { pytanie: "Czym jest IaC?" }
    assert:
      - type: contains
        value: "infrastruktura"

npx promptfoo eval        # ewaluacja
npx promptfoo redteam run # skan bezpieczeństwa

Warto wiedzieć

Configi trzymaj w repo — ewaluacja i red-teaming jako bramka w Gitea Actions.
Wspiera wielu dostawców modeli jednocześnie (porównania).