Skill Creator

Créer, tester et optimiser vos compétences IA

Anthropic Claude Code Claude.ai

Version officielle Anthropic

Qu'est-ce qu'un Skill ?

Un skill = une compétence portable ajoutée à Claude pour qu'il sache faire quelque chose de nouveau, de manière répétable.

Exemples

  • Documents LaTeX
  • Présentations reveal.js
  • Formulaires PDF
  • Apps éducatives

Pourquoi ?

  • Résultats reproductibles
  • Partageable
  • Améliorable par itération

Anatomie d'un Skill

skill-name/ ├── SKILL.md ← Requis : instructions + frontmatter ├── scripts/ ← Code exécutable ├── references/ ← Docs chargées si besoin ├── assets/ ← Templates, polices ├── agents/ ← Instructions sous-agents └── evals/ ← Cas de test
Chargement progressif : Metadata (toujours) → SKILL.md (au trigger) → Ressources (à la demande)

Le fichier SKILL.md

---
name: mon-skill
description: >
  Créer des dashboards à partir de CSV.
  Utiliser quand l'utilisateur mentionne
  dashboards, visualisation, métriques...
---

# Mon Skill
Instructions détaillées ici...
La description est le mécanisme de déclenchement. Soyez "pushy" : listez tous les contextes.

Flux de travail

1
Capturer l'intention
2
Rédiger le SKILL.md + cas de test
3
Exécuter with-skill + baseline en parallèle
4
Évaluer review humaine + benchmarks
5
Itérer jusqu'à satisfaction
6
Optimiser la description + packaging

Phase 1 : Capture d'intention

Questions clés

  1. Que doit faire ce skill ?
  2. Quand se déclencher ?
  3. Format de sortie ?
  4. Cas de test nécessaires ?

Recherche proactive

  • Edge cases
  • MCPs disponibles
  • Dépendances
  • Skills similaires
S'adapte au niveau technique : explications simples pour débutants, jargon pour experts.

Phase 2 : Exécuter les tests

Pour chaque cas de test, 2 sous-agents lancés en parallèle :

With-skill

Prompt + skill

Baseline

Prompt seul (ou old version)

Pendant l'exécution → rédiger les assertions quantitatives

Phase 3 : Évaluation

Gradinggrader vérifie chaque assertion
Agrégationaggregate_benchmark.py
Analyseanalyzer détecte les patterns
Viewergenerate_review.py

Agent : Grader

  • Vérifie chaque assertion pass/fail avec preuves
  • Extrait et vérifie les claims implicites
  • Critique la qualité des evals eux-mêmes
  • Lit les métriques et le timing
Sortie : grading.json — expectations[], claims[], eval_feedback

Comparator & Analyzer

Comparator optionnel

  • Comparaison A/B à l'aveugle
  • Rubrique contenu (5pts) + structure (5pts)
  • Sortie : comparison.json

Analyzer

  • Analyse post-comparaison : pourquoi le gagnant a gagné
  • Suggestions d'amélioration priorisées
  • Sortie : analysis.json

Phase 4 : Améliorer

Principes

  1. Généraliser — Ne pas overfitter les exemples
  2. Rester lean — Supprimer ce qui ne sert pas
  3. Expliquer le pourquoi — Pas de MUST, du raisonnement
  4. Factoriser — Script récurrent → le bundler

Boucle d'itération

Améliorer le SKILL.md
Re-tester dans iteration-N+1/
Relancer le viewer (--previous-workspace)
Lire feedback.json
Répéter jusqu'à satisfaction !

Optimiser la description

1
20 queries : 10 should-trigger + 10 should-not
2
Review via template HTML interactif
3
run_loop.py : split 60/40, 3 runs, 5 itérations
4
Appliquer la meilleure description
Queries concrètes avec noms de fichiers, contexte, langage familier — pas de prompts abstraits.

Scripts Python

Script Rôle
run_eval.pyTeste le déclenchement via claude -p
run_loop.pyBoucle eval → improve → re-eval
improve_description.pyAméliorations via extended thinking
aggregate_benchmark.pyAgrège en benchmark.json
generate_review.pyViewer HTML interactif
package_skill.pyEmpaquette en .skill
quick_validate.pyValidation de structure

Formats JSON

evals.json — Prompts de test + expectations
grading.json — Assertions pass/fail + evidence
timing.json — Tokens et durée
benchmark.json — Stats with/without skill
comparison.json — Résultat A/B aveugle
feedback.json — Retours utilisateur

Multi-environnement

Feature Code Claude.ai Cowork
Sous-agentsOuiNonOui
BaselineOuiNonOui
Viewer HTMLOuiNon--static
BenchmarksOuiNonOui
Optim. descriptionOuiNonOui
Package .skillOuiOuiOui

Bonnes pratiques

Faire

  • Expliquer le pourquoi
  • SKILL.md < 500 lignes
  • Exemples concrets
  • Bundler les scripts récurrents

Éviter

  • ALWAYS/NEVER partout
  • Overfitter les cas de test
  • Instructions trop rigides
  • Assertions triviales

Vue d'ensemble

Intent Draft Tests Grading
Feedback Improve Re-test Itérer
Optimiser Package Distribuer !