构建基于数据库任务队列的 Ruby on Rails 与 Python 异构数据采集架构

后端架构

文章字数: 3.6k

阅读时长: 15 分

在一个成熟的 Ruby on Rails 应用中，集成需要大量 JavaScript 渲染的第三方数据采集是一项常见的挑战。直接在 Rails 进程中使用 Capybara 或 Ferrum 等库，往往会引入 node 依赖管理的复杂性，并在高并发场景下对 Puma/Unicorn worker 造成不可预测的内存压力。一个常见的错误是试图在主应用中解决所有问题，这通常会导致一个臃肿且难以维护的单体。

我们面对的正是这样一个场景：核心业务由一个庞大的 Rails 应用承载，需要异步、可靠地从数十个动态渲染的网站抓取结构化数据。这些任务耗时长、失败率高，并且对资源（CPU、内存）的消耗与主应用的 Web 请求完全不同。

定义复杂技术问题

问题的核心在于如何将一个对资源有特殊要求的、非 Ruby 生态的任务（使用 Puppeteer 进行浏览器自动化）从主 Rails 应用中解耦出来，同时保证整个流程的可靠性、可观测性和水平扩展能力。

具体的技术挑战分解如下：

技术栈隔离：如何在不污染 Rails 环境的前提下，利用 Python 生态中成熟的 Puppeteer 封装 pyppeteer 来执行浏览器自动化？这意味着采集任务必须运行在独立的进程乃至独立的服务中。
通信与状态管理：Rails 应用作为任务的发起方，如何将任务安全地分派给 Python 采集服务？采集服务的执行状态（处理中、成功、失败）、结果数据以及错误信息又该如何回传给 Rails 应用？这个通信机制必须是异步的，以避免长时间阻塞 Rails 的 Web Worker。
可靠性与容错：网络抖动、目标网站结构变更、反爬虫机制都可能导致采集失败。系统必须具备自动重试机制。如果一个 Python worker 进程意外崩溃，其正在处理的任务不能丢失，必须能被其他 worker 重新接管。
可扩展性：数据采集的负载具有突发性。架构必须允许 Python worker 池能够独立于 Rails 应用进行动态扩缩容，以应对不同的负载需求。

方案A：同步 REST API 调用

这是一种最直观的方案。我们可以构建一个轻量级的 Python Flask 或 FastAPI 应用，它暴露一个接受采集任务（如 URL、采集规则）的 HTTP 端点。Rails 应用通过 Net::HTTP 或 Faraday 等库，直接调用这个端点。

sequenceDiagram
    participant Rails App
    participant Python API (Flask/FastAPI)
    participant Target Website

    Rails App->>+Python API: POST /scrape (url: "...")
    Python API->>+Target Website: Launch Puppeteer and Scrape
    Target Website-->>-Python API: HTML/Data
    Python API-->>-Rails App: 200 OK {data: "..."}

优势:

实现简单：RESTful API 是大多数开发者都非常熟悉的模式，实现起来快速直接。
职责清晰：Python 服务完全封装了 Puppeteer 的复杂性。

劣势:

紧密耦合：这是一个同步调用。Rails 的请求处理线程将被长时间阻塞，直到 Python 服务完成抓取并返回结果。一个持续30秒的采集任务将占用一个 Puma 线程30秒，在高并发下这会迅速耗尽服务器资源。
超时地狱：Web 服务器和网络代理（如 Nginx）通常配置了较短的请求超时时间（例如30-60秒）。任何耗时较长的采集任务都极有可能因超时而失败。
缺乏韧性：如果 Python API 在处理过程中崩溃，Rails 应用会收到一个网络错误，但任务本身的状态就丢失了。重试逻辑需要完全在 Rails 客户端实现，这会变得非常复杂，例如需要区分是网络错误还是目标网站的反爬虫导致的失败。
伸缩性差：无法有效处理任务积压。当采集请求突增时，所有请求都会直接打到 Python API 上，可能会瞬间压垮服务。

在真实项目中，这种方案几乎不可行，它将异步任务的复杂性错误地用同步模式来解决，是典型的高可用性反模式。

方案B：引入专用消息队列 (RabbitMQ/Redis Streams)

一个更成熟的方案是引入专用的消息队列中间件。Rails 作为生产者，将采集任务封装成消息发送到队列中。Python worker 作为消费者，监听队列，获取并处理任务。

graph TD
    A[Rails App] -- 1. Enqueue Job --> B((Message Queue 
 e.g., RabbitMQ));
    B -- 2. Consume Job --> C{Python Worker 1};
    B -- 2. Consume Job --> D{Python Worker 2};
    B -- 2. Consume Job --> E{...};
    C -- 3. Scrape --> F[Target Website];
    C -- 4. Write Result --> G[(Database)];

优势:

完全解耦：生产者和消费者之间没有直接的网络连接。任何一方的宕机都不会影响另一方（只要消息队列可用）。Rails 应用发送任务后立即返回，响应时间极快。
高可用与持久化：专业的消息队列提供了消息持久化、ACK（确认）机制和死信队列。这确保了即使 worker 崩溃，未被确认的消息也会被重新投递给其他 worker，任务不会丢失。
削峰填谷：面对突发流量，任务会在队列中排队等待处理，而不是直接冲击消费者服务，起到了缓冲作用。

劣势:

增加运维复杂性：这是最主要的缺点。架构中引入了一个全新的组件（RabbitMQ/Redis），需要额外的部署、配置、监控和维护成本。对于已经拥有成熟运维体系的大型团队来说这不成问题，但对于中小型项目，这可能是一个沉重的负担。
学习曲线：团队成员需要理解消息队列的各种概念，如交换机、队列、绑定、ACK 机制等。

最终选择与理由：基于数据库的原子任务队列

在权衡了运维成本和实现复杂度后，我们选择了一种折中但极为务实的方案：利用项目现有的 PostgreSQL 数据库来实现一个可靠的任务队列。

我们已经有一个高可用的、受监控的、并且有成熟备份恢复策略的数据库。通过利用数据库的事务和行级锁特性，我们完全可以模拟出消息队列的核心功能（任务持久化、原子性消费、状态跟踪），而无需引入新的外部依赖。

这种模式的核心在于利用 SELECT ... FOR UPDATE SKIP LOCKED 这一 SQL特性。

graph TD
    subgraph Rails App
        A[Controller/Service] -- 1. INSERT new job (status='pending') --> B[(scraping_jobs table)];
    end
    subgraph " "
       B -- " " --> B
    end
    subgraph Python Worker Pool
        C(Worker 1) -- 2. Polls DB --> B;
        D(Worker 2) -- 2. Polls DB --> B;
        E(...) -- 2. Polls DB --> B;
    end
    
    C -- 3. Atomically claims job 
 (SELECT ... FOR UPDATE SKIP LOCKED) --> B
    C -- 4. Updates job 
 (status='processing') --> B
    C -- 5. Scrapes website --> F[Target Website]
    C -- 6. Updates job 
 (status='completed'/'failed' with result/error) --> B

选择理由:

零额外运维成本：我们利用了最熟悉的组件——关系型数据库。不需要部署和学习新的中间件。
事务保证原子性：数据库事务天然地保证了“认领任务”和“更新任务状态”这两个操作的原子性，避免了竞态条件。
调试与可见性：任务的状态和结果直接存储在数据库表中，排查问题非常直观，可以直接通过 SQL 查询任务历史、失败原因等。
足够好的性能：对于我们每分钟数百个任务的场景，数据库的性能完全足够。只有在每秒需要处理成千上万个任务的极端情况下，数据库表才可能成为瓶颈。

核心实现概览

1. 数据库表设计

这是整个架构的基石。我们在 PostgreSQL 中创建一个 scraping_jobs 表。

-- a migration file in Rails
CREATE TYPE scraping_job_status AS ENUM ('pending', 'processing', 'completed', 'failed');

CREATE TABLE scraping_jobs (
    id BIGSERIAL PRIMARY KEY,
    url_to_scrape TEXT NOT NULL,
    parser_type VARCHAR(255) NOT NULL, -- Which parser to use for the result
    payload JSONB DEFAULT '{}', -- Extra params for the scraper

    status scraping_job_status NOT NULL DEFAULT 'pending',
    
    result JSONB,
    last_error TEXT,
    retry_count INTEGER NOT NULL DEFAULT 0,
    
    processed_by VARCHAR(255), -- Identifier of the worker process
    processing_started_at TIMESTAMPTZ,
    
    created_at TIMESTAMPTZ NOT NULL DEFAULT NOW(),
    updated_at TIMESTAMPTZ NOT NULL DEFAULT NOW()
);

-- Indexes for performance
CREATE INDEX idx_scraping_jobs_on_status_pending ON scraping_jobs (created_at) WHERE status = 'pending';
CREATE INDEX idx_scraping_jobs_on_processed_by ON scraping_jobs (processed_by);

设计考量:

status 字段使用 ENUM 类型，清晰地定义了任务的生命周期。
payload 和 result 使用 JSONB 类型，提供了灵活的数据存储能力。
pending 状态的索引至关重要，它能极大地加速 worker 查询可用任务的速度。
processed_by 和 processing_started_at 字段用于监控和调试，可以快速定位僵尸任务（例如，一个 worker 认领了任务但中途崩溃）。

2. Ruby on Rails 侧 (生产者)

Rails 侧的实现非常简单。我们创建一个 ActiveRecord 模型和一个 Service Object 来封装任务的创建逻辑。

# app/models/scraping_job.rb
class ScrapingJob < ApplicationRecord
  # Using Rails' built-in enum for status management
  enum status: {
    pending: 'pending',
    processing: 'processing',
    completed: 'completed',
    failed: 'failed'
  }

  validates :url_to_scrape, presence: true
  validates :parser_type, presence: true
end

# app/services/scraping_job_enqueuer.rb
class ScrapingJobEnqueuer
  # A simple service to abstract job creation.
  # In a real app, this might include logic to prevent duplicate jobs.
  
  def self.enqueue(url:, parser:, payload: {})
    job = ScrapingJob.new(
      url_to_scrape: url,
      parser_type: parser,
      payload: payload,
      status: :pending
    )

    if job.save
      { success: true, job: job }
    else
      { success: false, errors: job.errors.full_messages }
    end
  end
end

# Usage in a controller or another service
# ScrapingJobEnqueuer.enqueue(url: "https://example.com", parser: "product_page")

Rails 侧的职责就是验证数据并将一条状态为 pending 的记录插入数据库。这个操作非常快，不会阻塞 Web 请求。

3. Python 侧 (消费者)

这是整个系统中最关键的部分。Python worker 需要循环地从数据库中安全地拉取任务、执行、并更新结果。

我们将使用 SQLAlchemy 来处理数据库交互，并使用 pyppeteer 执行抓取。

# worker.py
import asyncio
import os
import logging
import json
import uuid
from datetime import datetime, timezone

from sqlalchemy import create_engine, text
from sqlalchemy.orm import sessionmaker
from sqlalchemy.exc import SQLAlchemyError
from pyppeteer import launch

# --- Configuration ---
DATABASE_URL = os.environ.get("DATABASE_URL", "postgresql://user:password@localhost/dbname")
WORKER_ID = f"python-worker-{uuid.uuid4()}"
POLL_INTERVAL_SECONDS = 5
MAX_RETRIES = 3

# --- Logging Setup ---
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(levelname)s - %(message)s'
)

# --- Database Setup ---
engine = create_engine(DATABASE_URL)
Session = sessionmaker(bind=engine)

# --- The core query to atomically claim a job ---
# This is the most important piece of SQL in the entire architecture.
# - FOR UPDATE: Locks the selected row against concurrent updates.
# - SKIP LOCKED: If a row is already locked by another transaction, skip it instead of waiting.
# This combination ensures that two workers will never pick up the same job.
CLAIM_JOB_QUERY = text("""
    UPDATE scraping_jobs
    SET 
        status = 'processing',
        processed_by = :worker_id,
        processing_started_at = NOW()
    WHERE id = (
        SELECT id
        FROM scraping_jobs
        WHERE status = 'pending'
        ORDER BY created_at
        FOR UPDATE SKIP LOCKED
        LIMIT 1
    )
    RETURNING id, url_to_scrape, parser_type, payload, retry_count;
""")


async def scrape_with_puppeteer(url: str):
    """
    Core scraping logic with Puppeteer.
    Includes error handling and browser management.
    """
    browser = None
    try:
        logging.info(f"Launching browser for URL: {url}")
        browser = await launch(
            headless=True,
            args=['--no-sandbox', '--disable-setuid-sandbox'] # Essential for running in Docker
        )
        page = await browser.newPage()
        await page.goto(url, {'waitUntil': 'networkidle0', 'timeout': 60000})
        
        # Example: extract page title and main content
        title = await page.title()
        content = await page.evaluate('() => document.body.innerText')
        
        logging.info(f"Successfully scraped {url}")
        return {"title": title, "content_sample": content[:500]}

    except Exception as e:
        logging.error(f"Puppeteer failed for {url}: {e}")
        raise # Re-raise to be caught by the job processing logic
    finally:
        if browser:
            await browser.close()


async def process_job(job):
    """
    Main logic for processing a single job.
    """
    session = Session()
    try:
        logging.info(f"Processing job {job.id} for URL: {job.url_to_scrape}")
        scrape_result = await scrape_with_puppeteer(job.url_to_scrape)

        # Update job to 'completed' on success
        session.execute(text("""
            UPDATE scraping_jobs
            SET status = 'completed', result = :result, updated_at = NOW()
            WHERE id = :id
        """), {"id": job.id, "result": json.dumps(scrape_result)})
        session.commit()
        logging.info(f"Job {job.id} completed successfully.")

    except Exception as e:
        # Handle failures, including retry logic
        logging.error(f"Job {job.id} failed. Error: {e}")
        new_retry_count = job.retry_count + 1
        
        if new_retry_count > MAX_RETRIES:
            # Mark as permanently failed
            final_status = 'failed'
            logging.warning(f"Job {job.id} exceeded max retries. Marking as failed.")
        else:
            # Re-enqueue for another attempt
            final_status = 'pending'
            logging.info(f"Job {job.id} will be retried. Attempt {new_retry_count}/{MAX_RETRIES}.")

        session.execute(text("""
            UPDATE scraping_jobs
            SET status = :status, 
                last_error = :error,
                retry_count = :retry_count,
                updated_at = NOW(),
                processed_by = NULL,
                processing_started_at = NULL
            WHERE id = :id
        """), {
            "id": job.id,
            "status": final_status,
            "error": str(e),
            "retry_count": new_retry_count
        })
        session.commit()
    finally:
        session.close()


async def main_loop():
    """
    The main worker loop that polls for and processes jobs.
    """
    logging.info(f"Worker {WORKER_ID} started. Polling every {POLL_INTERVAL_SECONDS}s.")
    while True:
        session = Session()
        try:
            # Atomically claim the next available job
            result = session.execute(CLAIM_JOB_QUERY, {"worker_id": WORKER_ID}).fetchone()
            session.commit()

            if result:
                await process_job(result)
            else:
                # No job found, wait before polling again
                await asyncio.sleep(POLL_INTERVAL_SECONDS)

        except SQLAlchemyError as e:
            logging.error(f"Database error during polling: {e}")
            session.rollback()
            await asyncio.sleep(POLL_INTERVAL_SECONDS * 2) # Longer backoff on DB error
        except Exception as e:
            # Catch-all for unexpected errors in the loop itself
            logging.critical(f"Unhandled exception in main loop: {e}")
            await asyncio.sleep(POLL_INTERVAL_SECONDS)
        finally:
            session.close()

if __name__ == "__main__":
    try:
        asyncio.run(main_loop())
    except KeyboardInterrupt:
        logging.info("Worker shutting down.")

单元测试思路:

scrape_with_puppeteer: 使用本地 HTML 文件或 mock 一个 HTTP 服务器来测试各种场景（成功、超时、JS错误页面）。
process_job: Mock scrape_with_puppeteer 的返回值和异常，测试数据库更新逻辑是否正确（成功时更新为 completed，失败时根据重试次数更新为 pending 或 failed）。
并发测试: 在测试数据库中，模拟启动多个 worker 进程，并验证 CLAIM_JOB_QUERY 能确保没有两个 worker 拿到同一个 job ID。

架构的扩展性与局限性

此架构的扩展性体现在其水平伸缩的简易性上。当采集任务积压时，我们只需要部署更多的 Python worker 容器或进程即可。由于任务的认领是原子性的，这些 worker 之间无需任何协调，可以独立工作。这种无状态的设计非常适合云原生环境下的自动伸缩（Auto-scaling）。

然而，这种模式并非没有局限性。

首先，数据库可能成为性能瓶颈。虽然 SKIP LOCKED 极大地缓解了行级锁的争用，但在每秒成千上万次任务请求的极端高吞吐量场景下，对 scraping_jobs 表的持续轮询和更新操作最终会给数据库带来巨大压力。届时，迁移到像 RabbitMQ 或 Kafka 这样的专用消息队列将是必然选择。

其次，任务调度不够灵活。它本质上是一个先进先出（FIFO）的队列。实现任务优先级、延迟执行或更复杂的路由逻辑会非常困难，需要复杂的 SQL 查询和表设计，而这些都是专用消息队列的内建功能。

最后，轮询机制引入了延迟。Worker 通过轮询发现新任务，POLL_INTERVAL_SECONDS 的设置是在“任务响应延迟”和“数据库空轮询负载”之间做出的权衡。它永远无法像消息队列的推送模式那样实现近乎实时的任务分发。

Python Ruby on Rails Database Puppeteer

本篇

构建基于数据库任务队列的 Ruby on Rails 与 Python 异构数据采集架构

2023-11-21 后端架构

Python Ruby on Rails Database Puppeteer

集成列式存储与动态密钥管理构建企业级RAG数据管道

2023-11-15 分布式架构

NoSQL (列式) LlamaIndex Jib 密钥管理