Créer, tester et optimiser vos compétences IA
Anthropic Claude Code Claude.ai
Version officielle Anthropic
---
name: mon-skill
description: >
Créer des dashboards à partir de CSV.
Utiliser quand l'utilisateur mentionne
dashboards, visualisation, métriques...
---
# Mon Skill
Instructions détaillées ici...
description est le mécanisme de déclenchement. Soyez "pushy" : listez tous les contextes.
Pour chaque cas de test, 2 sous-agents lancés en parallèle :
With-skill
Prompt + skill
Baseline
Prompt seul (ou old version)
grader vérifie chaque assertionaggregate_benchmark.pyanalyzer détecte les patternsgenerate_review.pygrading.json — expectations[], claims[], eval_feedback
comparison.jsonanalysis.jsoniteration-N+1/--previous-workspace)feedback.jsonrun_loop.py : split 60/40, 3 runs, 5 itérations| Script | Rôle |
|---|---|
run_eval.py | Teste le déclenchement via claude -p |
run_loop.py | Boucle eval → improve → re-eval |
improve_description.py | Améliorations via extended thinking |
aggregate_benchmark.py | Agrège en benchmark.json |
generate_review.py | Viewer HTML interactif |
package_skill.py | Empaquette en .skill |
quick_validate.py | Validation de structure |
evals.json — Prompts de test + expectationsgrading.json — Assertions pass/fail + evidencetiming.json — Tokens et duréebenchmark.json — Stats with/without skillcomparison.json — Résultat A/B aveuglefeedback.json — Retours utilisateur| Feature | Code | Claude.ai | Cowork |
|---|---|---|---|
| Sous-agents | Oui | Non | Oui |
| Baseline | Oui | Non | Oui |
| Viewer HTML | Oui | Non | --static |
| Benchmarks | Oui | Non | Oui |
| Optim. description | Oui | Non | Oui |
| Package .skill | Oui | Oui | Oui |