ARIS (Auto-Research-In-Sleep)

ARIS автоматизирует рабочие процессы ML-исследований: от генерации идей до подачи статей. Используйте автономных AI-агентов и LLM для выполнения экспериментов, итеративного рецензирования и доработки, экономя countless часов.

Инструменты разработчика Продуктивность и workflow Data Science и ML ★ 197 GitHub (197 ★)

ARIS (Auto-Research-In-Sleep) предоставляет исследователям возможность проводить автономные исследования в области машинного обучения с использованием пользовательских навыков Claude Code. Он координирует взаимодействие между моделями: Claude Code выполняет задачи по написанию кода и развертыванию экспериментов, а внешняя LLM (через Codex MCP) выступает в роли критического рецензента. Такая настройка позволяет реализовать комплексные рабочие процессы — от начального поиска идей, анализа литературы и генерации новых концепций до итеративного цикла автоматической проверки, в ходе которого проводятся эксперименты, выявляются слабые места исследовательских работ и переформулируется нарратив до состояния, готового к подаче — и всё это без прямого участия человека.

Ключевые возможности

01Автономные рабочие процессы ML-исследований

02Итеративное улучшение статей и переформулирование нарратива

03Циклы рецензирования между моделями с внешними LLM

04Автоматическое обнаружение и валидация идей

05Автономное выполнение и анализ экспериментов

06197 звезд на GitHub

Варианты использования

01Ускорение проектов в области исследований машинного обучения

02Автоматизация обзора литературы и генерации новых идей

03Итеративная доработка исследовательских статей до качества, готового к подаче

Auto-claude-code-research-in-sleep (ARIS ⚔️)

中文版 README | English

🌙 Let Claude Code do research while you sleep. Wake up to find your paper scored, weaknesses identified, experiments run, and narrative rewritten — autonomously.

Custom Claude Code skills for autonomous ML research workflows. These skills orchestrate cross-model collaboration — Claude Code drives the research while an external LLM (via Codex MCP) acts as a critical reviewer.

📈 Score Progression (Real Run)

A real overnight 4-round run on an ML research project, from borderline reject to submission-ready:

Round	Score	What Happened
Initial	5.0/10	Borderline reject
Round 1	6.5/10	Added standard metrics, discovered metric decoupling
Round 2	6.8/10	Key claim failed to reproduce, pivoted narrative
Round 3	7.0/10	Large seed study killed main improvement claim
Round 4	7.5/10 ✅	Diagnostic evidence solidified, submission ready

The loop autonomously ran 20+ GPU experiments, rewrote the paper's narrative framing, and killed claims that didn't hold up — all without human intervention.

💡 Idea Discovery (New)

Don't have a concrete idea yet? Just give a research direction — /idea-creator handles the rest:

📚 Survey the landscape (recent papers, open problems, recurring limitations)
🧠 Brainstorm 8-12 concrete ideas via GPT-5.4 xhigh
🔍 Filter by feasibility, compute cost, and quick novelty search
🛡️ Validate top ideas with deep novelty check + devil's advocate review
🧪 Pilot top 2-3 ideas in parallel on different GPUs (30 min - 2 hr each)
🏆 Rank by empirical signal — ideas with positive pilot results rise to the top

The output is a ranked IDEA_REPORT.md with hypotheses, pilot results, reviewer objections, and a suggested execution order. Ideas that fail are documented too, saving future dead-end exploration.

🔄 Workflows

These skills compose into a full research lifecycle. The two workflows can be used independently or chained together:

Exploring a new area (e.g., writing a survey)? Start with Workflow 1 → /idea-discovery
Already have an idea + initial plan? Jump straight to Workflow 2 → /auto-review-loop
Full pipeline? Workflow 1 → Workflow 2 → /research-pipeline — from literature survey all the way to submission

⚠️ Important: These tools accelerate research, but they don't replace your own critical thinking. Always review generated ideas with your domain expertise, question the assumptions, and make the final call yourself. The best research comes from human insight + AI execution, not full autopilot.

Full Pipeline 🚀

/research-lit → /idea-creator → /novelty-check → implement → /run-experiment → /auto-review-loop → submit
  (survey)      (brainstorm)    (verify novel)    (code)      (deploy & run)    (review & fix)     (done!)
  ├──── Workflow 1: Idea Discovery ────┤              ├──────── Workflow 2: Auto Loop ────────┤

📝 Blog post: 梦中科研全流程开源

Workflow 1: Literature & Idea Discovery 🔍

"What's the state of the art? Where are the gaps?"

┌─────────────────────────────────────────────────────────────┐
│                  Idea Discovery                              │
│                                                              │
│   /research-lit     /idea-creator     /novelty-check         │
│   (find papers)     (brainstorm)      (verify novelty)       │
│         │                │                  │                │
│         ▼                ▼                  ▼                │
│   ┌──────────┐     ┌──────────┐       ┌──────────┐         │
│   │ Search   │────▶│ Generate │──────▶│ Check if │         │
│   │ arXiv,   │     │ 8-12     │       │ idea is  │         │
│   │ Scholar  │     │ ideas    │       │ novel    │         │
│   │ for gaps │     │ + rank   │       │          │         │
│   └──────────┘     └──────────┘       └──────────┘         │
│                          │                  │                │
│                          ▼                  ▼                │
│                    ┌──────────┐       ┌──────────┐         │
│                    │ Filter   │──────▶│ External │         │
│                    │ by cost, │       │ LLM      │         │
│                    │ novelty  │       │ evaluates│         │
│                    └──────────┘       └──────────┘         │
│                                                              │
│   Typical flow:                                              │
│   1. /research-lit "discrete diffusion models"               │
│   2. /idea-creator "DLLMs post training"               │
│   3. Review ranked ideas, pick top 2-3                       │
│   4. /novelty-check "top idea" (deep verification)           │
│   5. /research-review "top idea" (critical feedback)         │
│   6. Implement → /run-experiment → /auto-review-loop         │
└─────────────────────────────────────────────────────────────┘

Skills involved: research-lit + idea-creator + novelty-check + research-review

💡 One-command shortcut: /idea-discovery "your research direction" runs this entire workflow automatically.

📝 Blog post: Claude Code 两月 NeurIPS 指北

Workflow 2: Auto Research Loop 🔁 (sleep & wake up to results)

"Review my paper, fix what's wrong, repeat until it's good."

┌─────────────────────────────────────────────────────────────┐
│                    Auto Review Loop                          │
│                                                              │
│   /research-review          /auto-review-loop                │
│   (single deep review)      (autonomous loop)                │
│         │                         │                          │
│         ▼                         ▼                          │
│   ┌──────────┐   ┌──────────┐   ┌──────────┐               │
│   │ External  │──▶│ Implement│──▶│ Monitor  │──▶ repeat     │
│   │ LLM      │   │ fixes    │   │ results  │    until       │
│   │ reviews  │   │ & run    │   │          │    score ≥ 6   │
���   └──────────┘   │ experiments│  └──────────┘               │
│                   └──────────┘                               │
│                                                              │
│   When reviewer suggests a new method direction:             │
│   /novelty-check — verify idea isn't already published       │
│                                                              │
│   Supporting skills:                                         │
│   /run-experiment    — deploy to local/remote GPU            │
│   /analyze-results   — interpret experiment outputs          │
│   /monitor-experiment — check progress, collect results      │
└─────────────────────────────────────────────────────────────┘

Skills involved: auto-review-loop + research-review + novelty-check + run-experiment + analyze-results + monitor-experiment

💡 One-command shortcut: /auto-review-loop "your paper topic" runs this entire workflow automatically.

🛡️ Key safety features:

🔒 MAX_ROUNDS = 4 — prevents infinite loops; stops early if score threshold is met
⏱️ > 4 GPU-hour experiments skipped — won't launch massive jobs; flags them for manual follow-up
🧠 Prefer reframing over new experiments — when both can address a weakness, chooses the cheaper path
🪞 No hiding weaknesses — explicit rule: "Do NOT hide weaknesses to game a positive score"
🔧 Fix before re-review — must actually implement fixes before resubmitting; no empty promises

📝 Blog post: 开源 | 睡觉 Claude 自动跑实验改文

🧰 All Skills

Skill	Description	Needs Codex MCP?
💡 `idea-creator`	Generate and rank research ideas given a broad direction (brainstorm + filter + validate)	Yes
🔬 `research-review`	Single-round deep review from external LLM (xhigh reasoning)	Yes
🔁 `auto-review-loop`	Autonomous multi-round review→fix→re-review loop (max 4 rounds)	Yes
📚 `research-lit`	Search papers, analyze related work, find research gaps	No
📊 `analyze-results`	Analyze experiment results, compute statistics, generate insights	No
👀 `monitor-experiment`	Monitor running experiments, check progress, collect results	No
🔍 `novelty-check`	Verify research idea novelty against recent literature before implementing	Yes
🚀 `run-experiment`	Deploy experiments to local (MPS/CUDA) or remote GPU servers	No
🎨 `pixel-art`	Generate pixel art SVG illustrations for READMEs, docs, or slides	No
🔭 `idea-discovery`	Workflow 1 pipeline: research-lit → idea-creator → novelty-check → research-review	Yes
🏗️ `research-pipeline`	Full pipeline: Workflow 1 → implement → Workflow 2, from direction to submission	Yes

⚙️ Setup

Prerequisites

Claude Code installed

(For review skills) Codex CLI installed and configured as MCP server:

npm install -g @openai/codex
claude mcp add codex -s user -- codex mcp-server

Install Skills

git clone https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep.git
cd Auto-claude-code-research-in-sleep

# Install all skills globally
cp -r skills/* ~/.claude/skills/

# Or install specific skills
cp -r skills/auto-review-loop ~/.claude/skills/
cp -r skills/research-lit ~/.claude/skills/

Usage

> /idea-creator DLLMs post training
> /research-lit discrete diffusion language models
> /research-review my paper on training dynamics in D-LLMs
> /auto-review-loop ML paper on factorized gap diagnosis
> /run-experiment train.py --lr 1e-4 --epochs 100
> /analyze-results figures/*.json
> /monitor-experiment server5
> /idea-discovery discrete diffusion language models
> /research-pipeline DLLMs post training

🌙 Auto-Allow for Overnight Runs (Optional)

To run the auto-review loop without clicking permission prompts, add to .claude/settings.local.json:

{
  "permissions": {
    "allow": [
      "mcp__codex__codex",
      "mcp__codex__codex-reply",
      "Write",
      "Edit",
      "Skill(auto-review-loop)"
    ]
  }
}

🖥️ GPU Server Setup (For Auto-Experiments)

When GPT-5.4 says "run an ablation study" or "add a baseline comparison", Claude Code automatically writes the experiment script and deploys it to your GPU server. For this to work, Claude Code needs to know your server environment.

Add your server info to your project's CLAUDE.md:

## Remote Server

- SSH: `ssh my-gpu-server` (key-based auth, no password)
- GPU: 4x A100
- Conda env: `research` (Python 3.10 + PyTorch)
- Activate: `eval "$(/opt/conda/bin/conda shell.bash hook)" && conda activate research`
- Code directory: `/home/user/experiments/`
- Use `screen` for background jobs: `screen -dmS exp0 bash -c '...'`

Claude Code reads this and knows how to SSH in, activate the environment, and launch experiments. GPT-5.4 (the reviewer) only decides what experiments to run — Claude Code figures out how based on your CLAUDE.md.

No server? The review and rewriting skills still work without GPU access. Only experiment-related fixes will be skipped (flagged for manual follow-up).

🏗️ How It Works

┌─────────────────────────────────────────────────┐
│                 Claude Code                      │
│                                                  │
│  ┌──────────┐    ┌──────────┐    ┌──────────┐   │
│  │  Read     │    │  Write   │    │  SSH to  │   │
│  │  project  │───▶│  code &  │───▶│  GPU     │   │
│  │  context  ��    │  scripts │    │  server  │   │
│  └──────────┘    └──────────┘    └──────────┘   │
│       │                               │          │
│       ▼                               ▼          │
│  ┌──────────────────────────────────────────┐    │
│  │         Codex MCP (External LLM)         │    │
│  │                                          │    │
│  │  Round 1: "Score 5/10. Weaknesses: ..."  │    │
│  │  Round 2: "Score 6.5. Better, but ..."   │    │
│  │  Round 3: "Score 7.0. Almost there..."   │    │
│  │  Round 4: "Score 7.5. Ready." ✅         │    │
│  └──────────────────────────────────────────┘    │
└─────────────────────────────────────────────────┘

The key insight: Claude Code handles execution (reading files, writing code, running experiments, collecting results) while the external LLM handles evaluation (scoring, identifying weaknesses, suggesting fixes). This separation creates a genuine feedback loop — neither model is grading its own work.

🎛️ Customization

Skills are plain Markdown files. Fork and customize:

MAX_ROUNDS — increase for more thorough iteration (default: 4)
POSITIVE_THRESHOLD — adjust the stop condition score
Prioritization rules — change compute limits, what fixes to skip
Prompt templates — tailor the review persona and evaluation criteria
allowed-tools — restrict or expand what each skill can do

📋 Roadmap

GLM-5 (executor) + Minimax-2.5 (reviewer) — alternative cross-model pair, same architecture as Claude Code + Codex
More executor × reviewer combinations (Gemini, DeepSeek, etc.)

💬 Community

Join the WeChat group for discussion on Claude Code + AI-driven research workflows:

⭐ Star History

License

MIT

ARIS (Auto-Research-In-Sleep) ⚔️

ARIS — это набор навыков (skills) для Claude Code, которые автоматизируют цикл ML-исследований: от обзора литературы и генерации идей до рецензирования, проведения экспериментов и переписывания статьи. Всё работает, пока вы спите.

Ключевая особенность — кросс-модельная коллаборация: Claude Code выполняет действия (читает файлы, пишет код, запускает эксперименты), а внешняя LLM (через Codex MCP) выступает в роли критического рецензента. Ни одна модель не оценивает свою же работу.

Результаты (реальный запуск)

За одну ночь (4 раунда) на ML-проекте оценка статьи выросла с 5.0/10 (пограничный reject) до 7.5/10 (готово к подаче). Автономно проведено 20+ GPU-экспериментов, переписана нарративная рамка, отклонены несостоятельные утверждения.

Генерация идей (новое)

Если у вас нет конкретной идеи, просто укажите направление — навык /idea-creator сделает всё сам:

Изучит ландшафт (последние статьи, открытые проблемы, повторяющиеся ограничения).
Сгенерирует 8–12 конкретных идей через GPT-5.4 xhigh.
Отфильтрует по реализуемости, вычислительным затратам и быстрой проверке новизны.
Валидирует топ-идеи глубокой проверкой новизны + рецензией «адвоката дьявола».
Запустит пилотные эксперименты для 2–3 лучших идей на разных GPU (30 мин – 2 ч каждая).
Ранжирует по эмпирическому сигналу.

Результат — IDEA_REPORT.md с гипотезами, результатами пилотов, возражениями рецензента и порядком выполнения.

Рабочие процессы

Навыки можно использовать независимо или последовательно:

Workflow 1: Idea Discovery — /idea-discovery "ваше направление" (обзор литературы → генерация идей → проверка новизны → рецензия).
Workflow 2: Auto Research Loop — /auto-review-loop "тема статьи" (цикл рецензия → исправление → повторная рецензия, до 4 раундов).
Полный пайплайн: /research-lit → /idea-creator → /novelty-check → реализация → /run-experiment → /auto-review-loop.

Важные ограничения безопасности

MAX_ROUNDS = 4 — предотвращает бесконечные циклы.
Эксперименты длительностью >4 GPU-часов пропускаются (помечаются для ручного запуска).
Приоритет — переформулировка, а не новые эксперименты (если оба подхода устраняют слабость).
Запрещено скрывать слабости для повышения оценки.
Исправления должны быть реализованы до повторной рецензии.

Все навыки

Навык	Описание	Нужен Codex MCP?
`/idea-creator`	Генерация и ранжирование идей	Да
`/research-review`	Глубокая рецензия от внешней LLM	Да
`/auto-review-loop`	Автономный цикл рецензия→исправление (до 4 раундов)	Да
`/research-lit`	Поиск статей, анализ related work, поиск пробелов	Нет
`/analyze-results`	Анализ результатов экспериментов, статистика	Нет
`/monitor-experiment`	Мониторинг запущенных экспериментов	Нет
`/novelty-check`	Проверка новизны идеи перед реализацией	Да
`/run-experiment`	Запуск экспериментов на локальном/удалённом GPU	Нет
`/pixel-art`	Генерация SVG-иллюстраций для README	Нет
`/idea-discovery`	Workflow 1: research-lit → idea-creator → novelty-check → research-review	Да
`/research-pipeline`	Полный пайплайн: Workflow 1 → реализация → Workflow 2	Да

Установка

Предварительные требования

Установлен Claude Code.
Для навыков рецензирования: установлен и настроен Codex CLI как MCP-сервер:
```
npm install -g @openai/codex
claude mcp add codex -s user -- codex mcp-server
```

Установка навыков

git clone https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep.git
cd Auto-claude-code-research-in-sleep

# Установить все навыки глобально
cp -r skills/* ~/.claude/skills/

# Или выборочно
cp -r skills/auto-review-loop ~/.claude/skills/
cp -r skills/research-lit ~/.claude/skills/

Использование

/idea-creator DLLMs post training
/research-lit discrete diffusion language models
/research-review my paper on training dynamics in D-LLMs
/auto-review-loop ML paper on factorized gap diagnosis
/run-experiment train.py --lr 1e-4 --epochs 100
/analyze-results figures/*.json
/monitor-experiment server5
/idea-discovery discrete diffusion language models
/research-pipeline DLLMs post training

Авто-разрешение для ночных запусков (опционально)

Чтобы избежать запросов разрешения, добавьте в .claude/settings.local.json:

{
  "permissions": {
    "allow": [
      "mcp__codex__codex",
      "mcp__codex__codex-reply",
      "Write",
      "Edit",
      "Skill(auto-review-loop)"
    ]
  }
}

Настройка GPU-сервера

Добавьте информацию о сервере в CLAUDE.md вашего проекта:

## Remote Server

- SSH: ssh my-gpu-server (key-based auth, no password)
- GPU: 4x A100
- Conda env: research (Python 3.10 + PyTorch)
- Activate: eval "$(/opt/conda/bin/conda shell.bash hook)" && conda activate research
- Code directory: /home/user/experiments/
- Use screen for background jobs: screen -dmS exp0 bash -c '...'

Claude Code прочитает это и будет знать, как подключиться по SSH, активировать окружение и запускать эксперименты. Если сервера нет — навыки рецензирования и переписывания всё равно работают, только эксперименты будут пропускаться.

Как это работает

Claude Code читает контекст проекта, пишет код/скрипты, подключается к GPU-серверу по SSH.
Внешняя LLM (через Codex MCP) оценивает статью, выявляет слабости, предлагает исправления.
Цикл повторяется до достижения пороговой оценки или максимального числа раундов.

Кастомизация

Навыки — это обычные Markdown-файлы. Форкните и настройте:

MAX_ROUNDS — увеличьте для более тщательной итерации (по умолчанию 4).
POSITIVE_THRESHOLD — порог оценки для остановки.
Правила приоритизации — измените лимиты вычислений, какие исправления пропускать.
Шаблоны промптов — настройте персону рецензента и критерии оценки.
allowed-tools — ограничьте или расширьте инструменты для каждого навыка.

Планы

Альтернативные пары исполнитель × рецензент (GLM-5 + Minimax-2.5, Gemini, DeepSeek и др.).

Сообщество

Группа в WeChat для обсуждения Claude Code и AI-драйвовых исследовательских рабочих процессов.

Лицензия

MIT

Источник: https://mcpmarket.com/server/aris-auto-research-in-sleep