ARIS (Auto-Research-In-Sleep)
ARIS автоматизирует рабочие процессы ML-исследований: от генерации идей до подачи статей. Используйте автономных AI-агентов и LLM для выполнения экспериментов, итеративного рецензирования и доработки, экономя countless часов.
ARIS (Auto-Research-In-Sleep) предоставляет исследователям возможность проводить автономные исследования в области машинного обучения с использованием пользовательских навыков Claude Code. Он координирует взаимодействие между моделями: Claude Code выполняет задачи по написанию кода и развертыванию экспериментов, а внешняя LLM (через Codex MCP) выступает в роли критического рецензента. Такая настройка позволяет реализовать комплексные рабочие процессы — от начального поиска идей, анализа литературы и генерации новых концепций до итеративного цикла автоматической проверки, в ходе которого проводятся эксперименты, выявляются слабые места исследовательских работ и переформулируется нарратив до состояния, готового к подаче — и всё это без прямого участия человека.
Ключевые возможности
Варианты использования
中文版 README | English
🌙 Let Claude Code do research while you sleep. Wake up to find your paper scored, weaknesses identified, experiments run, and narrative rewritten — autonomously.
Custom Claude Code skills for autonomous ML research workflows. These skills orchestrate cross-model collaboration — Claude Code drives the research while an external LLM (via Codex MCP) acts as a critical reviewer.
A real overnight 4-round run on an ML research project, from borderline reject to submission-ready:
| Round | Score | What Happened |
|---|---|---|
| Initial | 5.0/10 | Borderline reject |
| Round 1 | 6.5/10 | Added standard metrics, discovered metric decoupling |
| Round 2 | 6.8/10 | Key claim failed to reproduce, pivoted narrative |
| Round 3 | 7.0/10 | Large seed study killed main improvement claim |
| Round 4 | 7.5/10 ✅ | Diagnostic evidence solidified, submission ready |
The loop autonomously ran 20+ GPU experiments, rewrote the paper's narrative framing, and killed claims that didn't hold up — all without human intervention.
Don't have a concrete idea yet? Just give a research direction — /idea-creator handles the rest:
- 📚 Survey the landscape (recent papers, open problems, recurring limitations)
- 🧠 Brainstorm 8-12 concrete ideas via GPT-5.4 xhigh
- 🔍 Filter by feasibility, compute cost, and quick novelty search
- 🛡️ Validate top ideas with deep novelty check + devil's advocate review
- 🧪 Pilot top 2-3 ideas in parallel on different GPUs (30 min - 2 hr each)
- 🏆 Rank by empirical signal — ideas with positive pilot results rise to the top
The output is a ranked IDEA_REPORT.md with hypotheses, pilot results, reviewer objections, and a suggested execution order. Ideas that fail are documented too, saving future dead-end exploration.
These skills compose into a full research lifecycle. The two workflows can be used independently or chained together:
- Exploring a new area (e.g., writing a survey)? Start with Workflow 1 →
/idea-discovery - Already have an idea + initial plan? Jump straight to Workflow 2 →
/auto-review-loop - Full pipeline? Workflow 1 → Workflow 2 →
/research-pipeline— from literature survey all the way to submission
⚠️ Important: These tools accelerate research, but they don't replace your own critical thinking. Always review generated ideas with your domain expertise, question the assumptions, and make the final call yourself. The best research comes from human insight + AI execution, not full autopilot.
/research-lit → /idea-creator → /novelty-check → implement → /run-experiment → /auto-review-loop → submit
(survey) (brainstorm) (verify novel) (code) (deploy & run) (review & fix) (done!)
├──── Workflow 1: Idea Discovery ────┤ ├──────── Workflow 2: Auto Loop ────────┤
📝 Blog post: 梦中科研全流程开源
"What's the state of the art? Where are the gaps?"
┌─────────────────────────────────────────────────────────────┐
│ Idea Discovery │
│ │
│ /research-lit /idea-creator /novelty-check │
│ (find papers) (brainstorm) (verify novelty) │
│ │ │ │ │
│ ▼ ▼ ▼ │
│ ┌──────────┐ ┌──────────┐ ┌──────────┐ │
│ │ Search │────▶│ Generate │──────▶│ Check if │ │
│ │ arXiv, │ │ 8-12 │ │ idea is │ │
│ │ Scholar │ │ ideas │ │ novel │ │
│ │ for gaps │ │ + rank │ │ │ │
│ └──────────┘ └──────────┘ └──────────┘ │
│ │ │ │
│ ▼ ▼ │
│ ┌──────────┐ ┌──────────┐ │
│ │ Filter │──────▶│ External │ │
│ │ by cost, │ │ LLM │ │
│ │ novelty │ │ evaluates│ │
│ └──────────┘ └──────────┘ │
│ │
│ Typical flow: │
│ 1. /research-lit "discrete diffusion models" │
│ 2. /idea-creator "DLLMs post training" │
│ 3. Review ranked ideas, pick top 2-3 │
│ 4. /novelty-check "top idea" (deep verification) │
│ 5. /research-review "top idea" (critical feedback) │
│ 6. Implement → /run-experiment → /auto-review-loop │
└─────────────────────────────────────────────────────────────┘
Skills involved: research-lit + idea-creator + novelty-check + research-review
💡 One-command shortcut:
/idea-discovery "your research direction"runs this entire workflow automatically.
📝 Blog post: Claude Code 两月 NeurIPS 指北
"Review my paper, fix what's wrong, repeat until it's good."
┌─────────────────────────────────────────────────────────────┐
│ Auto Review Loop │
│ │
│ /research-review /auto-review-loop │
│ (single deep review) (autonomous loop) │
│ │ │ │
│ ▼ ▼ │
│ ┌──────────┐ ┌──────────┐ ┌──────────┐ │
│ │ External │──▶│ Implement│──▶│ Monitor │──▶ repeat │
│ │ LLM │ │ fixes │ │ results │ until │
│ │ reviews │ │ & run │ │ │ score ≥ 6 │
��� └──────────┘ │ experiments│ └──────────┘ │
│ └──────────┘ │
│ │
│ When reviewer suggests a new method direction: │
│ /novelty-check — verify idea isn't already published │
│ │
│ Supporting skills: │
│ /run-experiment — deploy to local/remote GPU │
│ /analyze-results — interpret experiment outputs │
│ /monitor-experiment — check progress, collect results │
└─────────────────────────────────────────────────────────────┘
Skills involved: auto-review-loop + research-review + novelty-check + run-experiment + analyze-results + monitor-experiment
💡 One-command shortcut:
/auto-review-loop "your paper topic"runs this entire workflow automatically.
🛡️ Key safety features:
- 🔒 MAX_ROUNDS = 4 — prevents infinite loops; stops early if score threshold is met
- ⏱️ > 4 GPU-hour experiments skipped — won't launch massive jobs; flags them for manual follow-up
- 🧠 Prefer reframing over new experiments — when both can address a weakness, chooses the cheaper path
- 🪞 No hiding weaknesses — explicit rule: "Do NOT hide weaknesses to game a positive score"
- 🔧 Fix before re-review — must actually implement fixes before resubmitting; no empty promises
📝 Blog post: 开源 | 睡觉 Claude 自动跑实验改文
| Skill | Description | Needs Codex MCP? |
|---|---|---|
💡 idea-creator |
Generate and rank research ideas given a broad direction (brainstorm + filter + validate) | Yes |
🔬 research-review |
Single-round deep review from external LLM (xhigh reasoning) | Yes |
🔁 auto-review-loop |
Autonomous multi-round review→fix→re-review loop (max 4 rounds) | Yes |
📚 research-lit |
Search papers, analyze related work, find research gaps | No |
📊 analyze-results |
Analyze experiment results, compute statistics, generate insights | No |
👀 monitor-experiment |
Monitor running experiments, check progress, collect results | No |
🔍 novelty-check |
Verify research idea novelty against recent literature before implementing | Yes |
🚀 run-experiment |
Deploy experiments to local (MPS/CUDA) or remote GPU servers | No |
🎨 pixel-art |
Generate pixel art SVG illustrations for READMEs, docs, or slides | No |
🔭 idea-discovery |
Workflow 1 pipeline: research-lit → idea-creator → novelty-check → research-review | Yes |
🏗️ research-pipeline |
Full pipeline: Workflow 1 → implement → Workflow 2, from direction to submission | Yes |
- Claude Code installed
- (For review skills) Codex CLI installed and configured as MCP server:
npm install -g @openai/codex claude mcp add codex -s user -- codex mcp-server
git clone https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep.git
cd Auto-claude-code-research-in-sleep
# Install all skills globally
cp -r skills/* ~/.claude/skills/
# Or install specific skills
cp -r skills/auto-review-loop ~/.claude/skills/
cp -r skills/research-lit ~/.claude/skills/> /idea-creator DLLMs post training
> /research-lit discrete diffusion language models
> /research-review my paper on training dynamics in D-LLMs
> /auto-review-loop ML paper on factorized gap diagnosis
> /run-experiment train.py --lr 1e-4 --epochs 100
> /analyze-results figures/*.json
> /monitor-experiment server5
> /idea-discovery discrete diffusion language models
> /research-pipeline DLLMs post training
To run the auto-review loop without clicking permission prompts, add to .claude/settings.local.json:
{
"permissions": {
"allow": [
"mcp__codex__codex",
"mcp__codex__codex-reply",
"Write",
"Edit",
"Skill(auto-review-loop)"
]
}
}When GPT-5.4 says "run an ablation study" or "add a baseline comparison", Claude Code automatically writes the experiment script and deploys it to your GPU server. For this to work, Claude Code needs to know your server environment.
Add your server info to your project's CLAUDE.md:
## Remote Server
- SSH: `ssh my-gpu-server` (key-based auth, no password)
- GPU: 4x A100
- Conda env: `research` (Python 3.10 + PyTorch)
- Activate: `eval "$(/opt/conda/bin/conda shell.bash hook)" && conda activate research`
- Code directory: `/home/user/experiments/`
- Use `screen` for background jobs: `screen -dmS exp0 bash -c '...'`Claude Code reads this and knows how to SSH in, activate the environment, and launch experiments. GPT-5.4 (the reviewer) only decides what experiments to run — Claude Code figures out how based on your CLAUDE.md.
No server? The review and rewriting skills still work without GPU access. Only experiment-related fixes will be skipped (flagged for manual follow-up).
┌─────────────────────────────────────────────────┐
│ Claude Code │
│ │
│ ┌──────────┐ ┌──────────┐ ┌──────────┐ │
│ │ Read │ │ Write │ │ SSH to │ │
│ │ project │───▶│ code & │───▶│ GPU │ │
│ │ context �� │ scripts │ │ server │ │
│ └──────────┘ └──────────┘ └──────────┘ │
│ │ │ │
│ ▼ ▼ │
│ ┌──────────────────────────────────────────┐ │
│ │ Codex MCP (External LLM) │ │
│ │ │ │
│ │ Round 1: "Score 5/10. Weaknesses: ..." │ │
│ │ Round 2: "Score 6.5. Better, but ..." │ │
│ │ Round 3: "Score 7.0. Almost there..." │ │
│ │ Round 4: "Score 7.5. Ready." ✅ │ │
│ └──────────────────────────────────────────┘ │
└─────────────────────────────────────────────────┘
The key insight: Claude Code handles execution (reading files, writing code, running experiments, collecting results) while the external LLM handles evaluation (scoring, identifying weaknesses, suggesting fixes). This separation creates a genuine feedback loop — neither model is grading its own work.
Skills are plain Markdown files. Fork and customize:
MAX_ROUNDS— increase for more thorough iteration (default: 4)POSITIVE_THRESHOLD— adjust the stop condition score- Prioritization rules — change compute limits, what fixes to skip
- Prompt templates — tailor the review persona and evaluation criteria
allowed-tools— restrict or expand what each skill can do
- GLM-5 (executor) + Minimax-2.5 (reviewer) — alternative cross-model pair, same architecture as Claude Code + Codex
- More executor × reviewer combinations (Gemini, DeepSeek, etc.)
Join the WeChat group for discussion on Claude Code + AI-driven research workflows:
MIT
ARIS (Auto-Research-In-Sleep) ⚔️
ARIS — это набор навыков (skills) для Claude Code, которые автоматизируют цикл ML-исследований: от обзора литературы и генерации идей до рецензирования, проведения экспериментов и переписывания статьи. Всё работает, пока вы спите.
Ключевая особенность — кросс-модельная коллаборация: Claude Code выполняет действия (читает файлы, пишет код, запускает эксперименты), а внешняя LLM (через Codex MCP) выступает в роли критического рецензента. Ни одна модель не оценивает свою же работу.
Результаты (реальный запуск)
За одну ночь (4 раунда) на ML-проекте оценка статьи выросла с 5.0/10 (пограничный reject) до 7.5/10 (готово к подаче). Автономно проведено 20+ GPU-экспериментов, переписана нарративная рамка, отклонены несостоятельные утверждения.
Генерация идей (новое)
Если у вас нет конкретной идеи, просто укажите направление — навык /idea-creator сделает всё сам:
- Изучит ландшафт (последние статьи, открытые проблемы, повторяющиеся ограничения).
- Сгенерирует 8–12 конкретных идей через GPT-5.4 xhigh.
- Отфильтрует по реализуемости, вычислительным затратам и быстрой проверке новизны.
- Валидирует топ-идеи глубокой проверкой новизны + рецензией «адвоката дьявола».
- Запустит пилотные эксперименты для 2–3 лучших идей на разных GPU (30 мин – 2 ч каждая).
- Ранжирует по эмпирическому сигналу.
Результат — IDEA_REPORT.md с гипотезами, результатами пилотов, возражениями рецензента и порядком выполнения.
Рабочие процессы
Навыки можно использовать независимо или последовательно:
- Workflow 1: Idea Discovery —
/idea-discovery "ваше направление"(обзор литературы → генерация идей → проверка новизны → рецензия). - Workflow 2: Auto Research Loop —
/auto-review-loop "тема статьи"(цикл рецензия → исправление → повторная рецензия, до 4 раундов). - Полный пайплайн:
/research-lit→/idea-creator→/novelty-check→ реализация →/run-experiment→/auto-review-loop.
Важные ограничения безопасности
MAX_ROUNDS = 4— предотвращает бесконечные циклы.- Эксперименты длительностью >4 GPU-часов пропускаются (помечаются для ручного запуска).
- Приоритет — переформулировка, а не новые эксперименты (если оба подхода устраняют слабость).
- Запрещено скрывать слабости для повышения оценки.
- Исправления должны быть реализованы до повторной рецензии.
Все навыки
| Навык | Описание | Нужен Codex MCP? |
|---|---|---|
/idea-creator |
Генерация и ранжирование идей | Да |
/research-review |
Глубокая рецензия от внешней LLM | Да |
/auto-review-loop |
Автономный цикл рецензия→исправление (до 4 раундов) | Да |
/research-lit |
Поиск статей, анализ related work, поиск пробелов | Нет |
/analyze-results |
Анализ результатов экспериментов, статистика | Нет |
/monitor-experiment |
Мониторинг запущенных экспериментов | Нет |
/novelty-check |
Проверка новизны идеи перед реализацией | Да |
/run-experiment |
Запуск экспериментов на локальном/удалённом GPU | Нет |
/pixel-art |
Генерация SVG-иллюстраций для README | Нет |
/idea-discovery |
Workflow 1: research-lit → idea-creator → novelty-check → research-review | Да |
/research-pipeline |
Полный пайплайн: Workflow 1 → реализация → Workflow 2 | Да |
Установка
Предварительные требования
- Установлен Claude Code.
- Для навыков рецензирования: установлен и настроен Codex CLI как MCP-сервер:
npm install -g @openai/codex claude mcp add codex -s user -- codex mcp-server
Установка навыков
git clone https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep.git
cd Auto-claude-code-research-in-sleep
# Установить все навыки глобально
cp -r skills/* ~/.claude/skills/
# Или выборочно
cp -r skills/auto-review-loop ~/.claude/skills/
cp -r skills/research-lit ~/.claude/skills/
Использование
/idea-creator DLLMs post training
/research-lit discrete diffusion language models
/research-review my paper on training dynamics in D-LLMs
/auto-review-loop ML paper on factorized gap diagnosis
/run-experiment train.py --lr 1e-4 --epochs 100
/analyze-results figures/*.json
/monitor-experiment server5
/idea-discovery discrete diffusion language models
/research-pipeline DLLMs post training
Авто-разрешение для ночных запусков (опционально)
Чтобы избежать запросов разрешения, добавьте в .claude/settings.local.json:
{
"permissions": {
"allow": [
"mcp__codex__codex",
"mcp__codex__codex-reply",
"Write",
"Edit",
"Skill(auto-review-loop)"
]
}
}
Настройка GPU-сервера
Добавьте информацию о сервере в CLAUDE.md вашего проекта:
## Remote Server
- SSH: ssh my-gpu-server (key-based auth, no password)
- GPU: 4x A100
- Conda env: research (Python 3.10 + PyTorch)
- Activate: eval "$(/opt/conda/bin/conda shell.bash hook)" && conda activate research
- Code directory: /home/user/experiments/
- Use screen for background jobs: screen -dmS exp0 bash -c '...'
Claude Code прочитает это и будет знать, как подключиться по SSH, активировать окружение и запускать эксперименты. Если сервера нет — навыки рецензирования и переписывания всё равно работают, только эксперименты будут пропускаться.
Как это работает
- Claude Code читает контекст проекта, пишет код/скрипты, подключается к GPU-серверу по SSH.
- Внешняя LLM (через Codex MCP) оценивает статью, выявляет слабости, предлагает исправления.
- Цикл повторяется до достижения пороговой оценки или максимального числа раундов.
Кастомизация
Навыки — это обычные Markdown-файлы. Форкните и настройте:
MAX_ROUNDS— увеличьте для более тщательной итерации (по умолчанию 4).POSITIVE_THRESHOLD— порог оценки для остановки.- Правила приоритизации — измените лимиты вычислений, какие исправления пропускать.
- Шаблоны промптов — настройте персону рецензента и критерии оценки.
allowed-tools— ограничьте или расширьте инструменты для каждого навыка.
Планы
- Альтернативные пары исполнитель × рецензент (GLM-5 + Minimax-2.5, Gemini, DeepSeek и др.).
Сообщество
Группа в WeChat для обсуждения Claude Code и AI-драйвовых исследовательских рабочих процессов.
Лицензия
MIT
Может ли ARIS помочь с генерацией новых исследовательских идей?
Да, ARIS включает мощный рабочий процесс '/idea-creator'. Он анализирует текущий ландшафт исследований, генерирует и ранжирует конкретные идеи, фильтрует их по реализуемости и даже тестирует лучшие концепции для выявления обнадеживающих эмпирических сигналов, выводя подробный отчет 'IDEA_REPORT.md'.
Что такое ARIS (Auto-Research-In-Sleep)?
ARIS — это автономная система ИИ-агентов, предназначенная для автоматизации всего процесса машинного обучения. Она выполняет задачи от генерации новых исследовательских идей и проведения экспериментов до итеративного рецензирования и доработки научных статей.
Как ARIS автоматизирует процесс ML-исследований?
ARIS использует продвинутые ИИ-агенты и кросc-модельное взаимодействие LLM (например, Claude Code с внешними LLM, такими как Codex) для анализа литературы, генерации и валидации идей, автономного запуска GPU-экспериментов и итеративного рецензирования и переписывания статей до готовности к публикации.
Заменяет ли ARIS исследователей-людей или критическое мышление?
ARIS создан для ускорения исследований путем автоматизации утомительных и трудоемких задач, выступая в роли высокоинтеллектуального ассистента. Он не заменяет человеческое критическое мышление, экспертные знания в предметной области или процесс принятия окончательных решений; проверка сгенерированного контента и валидация предположений остаются критически важными.
Какие большие языковые модели (LLM) использует ARIS?
ARIS в первую очередь использует навыки Claude Code для управления своими автономными исследовательскими рабочими процессами. Он организует кросc-модельное взаимодействие, интегрируя внешние LLM (например, через OpenAI Codex MCP) в качестве критических рецензентов, обеспечивая надежную обратную связь и расширяя возможности рассуждения.
Источник: https://mcpmarket.com/server/aris-auto-research-in-sleep
Комментарии
Комментариев пока нет. Будьте первым.