LanceDB

Расширьте возможности LLM с помощью LanceDB для взаимодействия с документами на диске. Агентный RAG, гибридный поиск, локальное хранение для безопасности и эффективное использование токенов. Начните создавать уже сегодня!

Инструменты разработчика Базы данных Data Science и ML ★ 79 GitHub (79 ★)

LanceDB — это сервер Model Context Protocol (MCP), который предоставляет LLM прямой доступ к документам на диске с помощью агентной генерации с дополнением (RAG) и гибридного поиска, используя LanceDB в качестве бессерверного векторного индекса и каталога сводок документов. Это позволяет LLM отвечать на вопросы о наборах данных и конкретных документах, эффективно использовать токены LLM и обеспечивать безопасность за счёт локального хранения индекса, устраняя необходимость передачи данных в облако при использовании локальной LLM.

Ключевые возможности

01Агентный RAG и гибридный поиск

02Бессерверный векторный индекс на LanceDB

03Каталог сводок документов

04Локальное хранение индекса для повышенной безопасности

05Эффективное использование токенов LLM

Варианты использования

01Ответы на вопросы по наборам данных

02Поиск информации в конкретных документах

03Интеграция с Claude Desktop App

🗄️ LanceDB MCP Server for LLMS

A Model Context Protocol (MCP) server that enables LLMs to interact directly the documents that they have on-disk through agentic RAG and hybrid search in LanceDB. Ask LLMs questions about the dataset as a whole or about specific documents.

✨ Features

🔍 LanceDB-powered serverless vector index and document summary catalog.
📊 Efficient use of LLM tokens. The LLM itself looks up what it needs when it needs.
📈 Security. The index is stored locally so no data is transferred to the Cloud when using a local LLM.

🚀 Quick Start

To get started, create a local directory to store the index and add this configuration to your Claude Desktop config file:

MacOS: ~/Library/Application\ Support/Claude/claude_desktop_config.json
Windows: %APPDATA%/Claude/claude_desktop_config.json

{
  "mcpServers": {
    "lancedb": {
      "command": "npx",
      "args": [
        "lance-mcp",
        "PATH_TO_LOCAL_INDEX_DIR"
      ]
    }
  }
}

Prerequisites

Node.js 18+
npx
MCP Client (Claude Desktop App for example)
Summarization and embedding models installed (see config.ts - by default we use Ollama models)
- ollama pull snowflake-arctic-embed2
- ollama pull llama3.1:8b

Demo

Local Development Mode:

{
  "mcpServers": {
    "lancedb": {
      "command": "node",
      "args": [
        "PATH_TO_LANCE_MCP/dist/index.js",
        "PATH_TO_LOCAL_INDEX_DIR"
      ]
    }
  }
}

Use npm run build to build the project.

Use npx @modelcontextprotocol/inspector dist/index.js PATH_TO_LOCAL_INDEX_DIR to run the MCP tool inspector.

Seed Data

The seed script creates two tables in LanceDB - one for the catalog of document summaries, and another one - for vectorized documents' chunks. To run the seed script use the following command:

npm run seed -- --dbpath <PATH_TO_LOCAL_INDEX_DIR> --filesdir <PATH_TO_DOCS>

You can use sample data from the docs/ directory. Feel free to adjust the default summarization and embedding models in the config.ts file. If you need to recreate the index, simply rerun the seed script with the --overwrite option.

Catalog

Document summary
Metadata

Chunks

Vectorized document chunk
Metadata

🎯 Example Prompts

Try these prompts with Claude to explore the functionality:

"What documents do we have in the catalog?"
"Why is the US healthcare system so broken?"

📝 Available Tools

The server provides these tools for interaction with the index:

Catalog Tools

catalog_search: Search for relevant documents in the catalog

Chunks Tools

chunks_search: Find relevant chunks based on a specific document from the catalog
all_chunks_search: Find relevant chunks from all known documents

📜 License

This project is licensed under the MIT License - see the LICENSE file for details.

LanceDB MCP-сервер для LLM

LanceDB — это MCP-сервер (Model Context Protocol), который позволяет языковым моделям напрямую взаимодействовать с документами на локальном диске. Используется агентный RAG (Retrieval-Augmented Generation) и гибридный поиск на базе LanceDB. Вы можете задавать LLM вопросы как по всему набору данных, так и по конкретным документам.

Возможности

Локальный векторный индекс на базе LanceDB и каталог сводок документов.
Экономия токенов — LLM сама запрашивает нужную информацию по мере необходимости.
Безопасность — все данные хранятся локально, ничего не передаётся в облако (при использовании локальной LLM).

Быстрый старт

Установите Node.js 18+ и npx.
Создайте локальную папку для индекса (например, ~/my-lancedb-index).
Добавьте конфигурацию в файл настроек Claude Desktop:
- macOS: ~/Library/Application Support/Claude/claude_desktop_config.json
- Windows: %APPDATA%/Claude/claude_desktop_config.json

{
  "mcpServers": {
    "lancedb": {
      "command": "npx",
      "args": [
        "lance-mcp",
        "ПУТЬ_К_ЛОКАЛЬНОЙ_ПАПКЕ_ИНДЕКСА"
      ]
    }
  }
}

Установите модели эмбеддингов и суммаризации (по умолчанию используются Ollama):

ollama pull snowflake-arctic-embed2
ollama pull llama3.1:8b

После этого инструменты появятся в Claude.

Запуск в режиме разработки

Если вы клонировали репозиторий и хотите запустить локальную версию:

{
  "mcpServers": {
    "lancedb": {
      "command": "node",
      "args": [
        "ПУТЬ_К_ПРОЕКТУ/lance-mcp/dist/index.js",
        "ПУТЬ_К_ЛОКАЛЬНОЙ_ПАПКЕ_ИНДЕКСА"
      ]
    }
  }
}

Предварительно выполните npm run build для сборки. Для отладки используйте npx @modelcontextprotocol/inspector dist/index.js ПУТЬ_К_ПАПКЕ.

Наполнение данными (seed)

Скрипт наполнения создаёт в LanceDB две таблицы:

Каталог — сводки документов и метаданные.
Чанки — векторизованные фрагменты документов.

Запустите:

npm run seed -- --dbpath <ПУТЬ_К_ПАПКЕ_ИНДЕКСА> --filesdir <ПУТЬ_К_ДОКУМЕНТАМ>

Пример данных лежит в папке docs/. При необходимости измените модели в config.ts. Если нужно пересоздать индекс, добавьте флаг --overwrite.

Доступные инструменты

catalog_search — поиск релевантных документов в каталоге.
chunks_search — поиск релевантных чанков в рамках определённого документа из каталога.
all_chunks_search — поиск релевантных чанков по всем известным документам.

Примеры запросов к LLM

«Какие документы есть в каталоге?»
«Почему система здравоохранения США так неэффективна?»

Лицензия

Проект распространяется под лицензией MIT. Подробности — в файле LICENSE.

Источник: https://mcpmarket.com/server/lancedb-1