Automated Compliance Auditor

Измеряйте и проверяйте соответствие действий ИИ-агента требованиям с помощью skill-comply. Автоматическая генерация сценариев, анализ вызовов инструментов и верификация соблюдения ваших правил в Claude Code.

Безопасность и тестирование ★ 172,651 GitHub (172,651 ★)

skill-comply предоставляет надёжный фреймворк для проверки того, что Claude Code и другие агенты действительно следуют правилам, заданным в навыках и регламентах вашего репозитория. Автоматически генерируя сценарии с разной степенью строгости промптов и анализируя последовательности вызовов инструментов с помощью LLM-классификации, он формирует прозрачный, основанный на данных отчёт о соответствии поведения агента. Это необходимо разработчикам, которым нужно гарантировать, что протоколы безопасности, стандарты тестирования и правила рабочих процессов соблюдаются последовательно, даже когда пользовательские промпты расплывчаты или противоречивы.

Ключевые возможности

01Классифицирует последовательности вызовов инструментов с помощью LLM-анализа для высокой точности

02Выявляет отклонения в поведении и предлагает улучшения для шагов с низким уровнем соответствия

03172 651 звезда на GitHub

04Генерирует исчерпывающие отчёты с временными шкалами и показателями соответствия

05Автоматически создаёт спецификации поведения и тестовые сценарии из Markdown-файлов

06Проверяет соответствие на поддерживающем, нейтральном и конфликтующем уровнях промптов

Варианты использования

01Тестирование того, что новый навык рабочего процесса TDD последовательно применяется агентом

02Проверка того, что агент соблюдает правила security.md при генерации кода

03Аудит поведения агента после обновления системных промптов или правил репозитория

name	skill-comply
description	Visualize whether skills, rules, and agent definitions are actually followed — auto-generates scenarios at 3 prompt strictness levels, runs agents, classifies behavioral sequences, and reports compliance rates with full tool call timelines
origin	ECC
tools	Read, Bash

skill-comply: Automated Compliance Measurement

Measures whether coding agents actually follow skills, rules, or agent definitions by:

Auto-generating expected behavioral sequences (specs) from any .md file
Auto-generating scenarios with decreasing prompt strictness (supportive → neutral → competing)
Running claude -p and capturing tool call traces via stream-json
Classifying tool calls against spec steps using LLM (not regex)
Checking temporal ordering deterministically
Generating self-contained reports with spec, prompts, and timelines

Supported Targets

Skills (skills/*/SKILL.md): Workflow skills like search-first, TDD guides
Rules (rules/common/*.md): Mandatory rules like testing.md, security.md, git-workflow.md
Agent definitions (agents/*.md): Whether an agent gets invoked when expected (internal workflow verification not yet supported)

When to Activate

User runs /skill-comply <path>
User asks "is this rule actually being followed?"
After adding new rules/skills, to verify agent compliance
Periodically as part of quality maintenance

Usage

# Full run
uv run python -m scripts.run ~/.claude/rules/common/testing.md

# Dry run (no cost, spec + scenarios only)
uv run python -m scripts.run --dry-run ~/.claude/skills/search-first/SKILL.md

# Custom models
uv run python -m scripts.run --gen-model haiku --model sonnet <path>

Key Concept: Prompt Independence

Measures whether a skill/rule is followed even when the prompt doesn't explicitly support it.

Report Contents

Reports are self-contained and include:

Expected behavioral sequence (auto-generated spec)
Scenario prompts (what was asked at each strictness level)
Compliance scores per scenario
Tool call timelines with LLM classification labels

Advanced (optional)

For users familiar with hooks, reports also include hook promotion recommendations for steps with low compliance. This is informational — the main value is the compliance visibility itself.

🧪 Что это

Automated Compliance Auditor (навык skill-comply) — это инструмент для автоматической верификации того, насколько голосовые агенты, например Claude, следуют зафиксированным инструкциям: skills, правилам (rules) и определениям агентов (agents).

Вместо ручного тестирования или субъективных оценок, скрипт генерирует тестовые сценарии с разным уровнем давления на промпт, запускает агента, собирает полный лог вызовов инструментов (tool calls) и с помощью LLM (а не простого regex) классифицирует каждый вызов — соответствует ли он ожидаемому шагу из спецификации.

Результат — самодостаточный отчёт с метриками compliance (процент следования), временной шкалой вызовов и пометками, какие шаги спецификации были выполнены, а какие — пропущены.

⚙️ Как работает

### 1. Авто-генерация спецификации поведения

Из любого .md-файла (skill, правило или агент) автоматически извлекается последовательность ожидаемых действий. Например, для правила testing.md можно ожидать: «запустить pytest», «проверить coverage», «написать тест до кода».

Спецификация формируется вызовом LLM, которая анализирует описание инструкции.

### 2. Генерация сценариев с разной строгостью промпта

Для одной и той же спецификации создаются три сценария:

Supportive — промпт явно напоминает агенту следовать правилу.
Neutral — правило не упоминается (проверка самопроизвольного выполнения).
Competing — даются противоречащие инструкции (проверка устойчивости правила).

Каждый сценарий — это отдельный промпт, который будет отдан агенту.

### 3. Исполнение и сбор трейсов

Запускается Claude (claude -p) с каждым сценарием, а вывод (включая все вызовы инструментов) захватывается в JSON-потоке (stream-json).

Используются инструменты Read и Bash из ECC (Editor, Command, Code) — типовые действия агента: чтение файлов, выполнение команд, редактирование.

### 4. Классификация и проверка порядка

Каждый вызов инструмента (tool call) классифицируется LLM: к какому шагу спецификации он относится. Затем детерминированно проверяется временной порядок — все шаги должны быть выполнены, и в правильной последовательности.

Если агент сделал лишние шаги или переставил местами — это снизит compliance.

### 5. Формирование отчёта

Отчёт содержит:

Ожидаемую последовательность (авто-сгенерированный spec).
Тексты промптов для каждого уровня строгости.
Compliance score (в процентах) для каждого сценария.
Временные шкалы tool calls с метками классификации.
(опционально) Рекомендации по hook promotion для слабых мест.

Отчёт самодостаточен — его можно передать коллеге или приложить к PR.

🎯 Когда использовать

После добавления нового навыка или правила — убедиться, что агент реально его выполняет.
При рефакторинге правил — проверить, что изменения не сломали compliance.
Как часть CI/CD пайплайна качества — периодический прогон для поддержания дисциплины.
При подозрении, что правило игнорируется — запустить skill-comply и получить объективные цифры.

Хорошо подходит для: testing.md, security.md, git-workflow.md, search-first skill и других workflow-описаний.

💻 Пример использования

# Полный прогон для правила testing.md
uv run python -m scripts.run ~/.claude/rules/common/testing.md

# Холостой прогон (без затрат) — генерация spec и сценариев
uv run python -m scripts.run --dry-run ~/.claude/skills/search-first/SKILL.md

# Кастомные модели: генерация сценариев через haiku, проверка через sonnet
uv run python -m scripts.run --gen-model haiku --model sonnet `path`

⚠️ Важно знать

Prompt Independence — ключевое понятие: навык проверяет, следует ли агент инструкции даже если промпт её не поддерживает (neutral и competing сценарии).
Стоимость: dry-run (флаг --dry-run) бесплатен — можно сначала проверить, корректно ли сгенерированы spec и сценарии, и только потом запускать полный прогон с реальными вызовами Claude.
LLM vs Regex: классификация делается через LLM, а не поиск подстроки — это позволяет распознавать смысл, а не точное совпадение команды.
Temporal ordering проверяется детерминированно (алгоритмически, не LLM) — это увеличивает надёжность.
Agent definitions: для файлов agents/*.md поддерживается только проверка того, был ли агент вызван, а не внутренние шаги его работы (пока).
Отчёты содержат hook promotion recommendations для опытных пользователей — но основная ценность именно в измерении compliance, а не в автоматическом исправлении.

Установите одной командой.

npx skillfish add affaan-m/everything-claude-code skill-comply

Источник: https://mcpmarket.com/tools/skills/automated-compliance-auditor