Building Generative AI Services with FastAPI

Автор: Alireza (Ali) Parandeh Издательство: O’Reilly Media Год: 2025-2026 Объём: 530+ страниц, 12 глав + 2 бонусные главы Сайт: https://buildinggenai.com/

Метрики книги

  • 174 практических примера кода (все на GitHub)
  • 160+ кастомных диаграмм и иллюстраций
  • 20 практических проектов
  • 10 GenAI моделей в примерах
  • 530+ страниц

Целевая аудитория

  • Web-разработчики
  • Data Scientists
  • DevOps Engineers
  • Инженеры, переходящие от традиционного ML к Generative AI
  • Solo-разработчики и команды

Структура книги

Part 1: Developing AI Services

Интеграция GenAI моделей в типобезопасное FastAPI-приложение

Chapter 1: Introduction to Generative AI

  • Почему GenAI-сервисы — cornerstone будущих приложений
  • Барьеры для внедрения GenAI
  • Обзор capstone-проекта книги

Chapter 2: Getting Started with FastAPI

  • Введение в FastAPI как современный фреймворк
  • Сравнение с Flask и Django
  • Организация проектов, миграция с других фреймворков

Chapter 3: AI Integration and Model Serving

  • Сервинг языковых, аудио, vision и 3D моделей
  • Стратегии эффективного сервинга: preloading, externalizing
  • Мониторинг моделей через middleware

Chapter 4: Implementing Type-Safe AI Services

  • Pydantic и Python type annotations
  • Compound models, custom validators
  • Сериализация и валидация

Part 2: Communicating with External Systems

Построение сервисов для конкурентных пользователей со стримингом GenAI-выходов

Chapter 5: Achieving Concurrency in AI Workloads

  • Асинхронное программирование для множественных пользователей
  • Event loops, long-running processes
  • Проекты: web scraper, retrieval-augmented generation (RAG)

Chapter 6: Real-Time Communication with Generative Models

  • Polling vs SSE vs WebSockets
  • Стриминг AI-выходов в реальном времени
  • Динамические API для LLM-взаимодействий

Chapter 7: Integrating Databases into AI Services

  • Реляционные и NoSQL базы для хранения взаимодействий
  • CRUD endpoints, миграции схем (Alembic)
  • Хранение данных из real-time streams

Bonus: Introduction to Databases for AI

  • Когда нужна база данных и какой тип выбрать
  • Механизмы реляционных БД
  • Use cases NoSQL в AI-нагрузках

Part 3: Security, Optimization, Testing and Deployment

Chapter 8: Authentication & Authorization

  • JWT, OAuth
  • RBAC, ABAC, гибридные подходы

Chapter 9: Securing AI Services

  • Content moderation, input/output guardrails
  • Rate limiting, защита от abuse
  • GenAI attack vectors

Chapter 10: Optimizing AI Services

  • Caching (включая semantic/context caching)
  • Model quantization, fine-tuning
  • Prompt engineering для производительности

Chapter 11: Testing AI Services

  • Flakiness, resource constraints, adversarial attacks
  • Unit, integration, E2E тесты
  • Практические проекты: RAG systems testing

Chapter 12: Deployment & Containerization

  • Virtual machines, containers, serverless
  • Docker, GPU integration
  • Оптимизация для lightweight deployments

Bonus: Scaling AI Services

  • Managed app platforms: Azure App Service, Google Cloud Run, AWS ECS
  • Self-hosted Kubernetes

Ключевые проекты книги

  • Authorization Service
  • Talk to Documents (RAG)
  • Image Generation service
  • Real-time chatbots
  • Audio generators
  • Web scraper с AI

Архитектура системы

“Onion Architecture” для GenAI-сервисов:

  • FastAPI web layer
  • Pydantic validation layer
  • GenAI model integration layer
  • Database / vector store layer
  • Auth / security layer
  • External APIs layer

Технологический стек

  • FastAPI + Uvicorn
  • Pydantic + Type annotations
  • SQLAlchemy + Alembic + async DB
  • Vector databases (для RAG)
  • Docker + Container orchestration
  • SSE / WebSockets
  • JWT / OAuth
  • OpenAI / Anthropic / Hugging Face модели
  • Redis (caching)

См. также

  • [[fastapi]] — фреймворк
  • [[pydantic]] — валидация
  • [[rag]] — Retrieval-Augmented Generation
  • [[genai-deployment]] — деплой GenAI
  • [[docker-ai]] — контейнеризация AI-сервисов