Современные LLM-модели: обзор и сравнение¶

В этом разделе мы разберем, какие модели доступны сегодня, чем они отличаются, и как выбрать подходящую для юридических задач.

Проприетарные модели (закрытые)¶

Проприетарные модели — это коммерческие решения, которые предоставляются через API или веб-интерфейсы. Вы не можете скачать и запустить их самостоятельно, но получаете доступ к высококачественным моделям без необходимости настройки инфраструктуры.

ChatGPT (OpenAI)¶

Версии: GPT-4o, GPT-4o-mini, o1-preview, o1-mini (reasoning)

Особенности:
- GPT-4o: мультимодальная модель с улучшенным качеством и скоростью
- GPT-4o-mini: более быстрая и экономичная версия
- o1-preview и o1-mini: reasoning-модели для сложных аналитических задач
- Поддержка длинных документов (до 128K токенов в GPT-4o)
- Улучшенная работа с кодом и структурированными данными

Для юристов:
- ✅ Отличное качество анализа документов
- ✅ Хорошо работает с юридической терминологией
- ✅ Reasoning-модели (o1) для сложных многошаговых задач
- ⚠️ Данные могут обрабатываться в облаке (важно для конфиденциальности)
- ⚠️ Стоимость зависит от объема использования

Где использовать: Через веб-интерфейс chat.openai.com или API

Claude (Anthropic)¶

Версии: Claude 3.5 Sonnet, Claude 3 Opus, Claude 3 Haiku

Особенности:
- Claude 3.5 Sonnet: самая быстрая и эффективная модель в линейке (2024)
- Очень большое контекстное окно (до 200K токенов — целая книга!)
- Высокое качество анализа длинных документов
- Хорошая работа с многоязычными текстами
- Фокус на безопасности и этичности
- Улучшенная работа с кодом и структурированными данными

Для юристов:
- ✅ Может анализировать очень длинные договоры целиком
- ✅ Отличное качество структурирования информации
- ✅ Хорошо работает с таблицами и структурированными данными
- ✅ Claude 3.5 Sonnet показывает отличные результаты в юридических задачах
- ⚠️ Может быть излишне осторожен в некоторых ответах

Где использовать: Через веб-интерфейс claude.ai или API

Gemini (Google)¶

Версии: Gemini 2.0 Flash, Gemini 1.5 Pro, Gemini 1.5 Flash

Особенности:
- Gemini 2.0 Flash: новая быстрая модель с улучшенным качеством (2024)
- Gemini 1.5 Pro: мощная модель с контекстом до 2M токенов
- Мультимодальность (работа с текстом, изображениями, аудио, видео)
- Интеграция с экосистемой Google
- Хорошая работа с поиском информации
- Улучшенная работа с длинными документами

Для юристов:
- ✅ Может анализировать сканы документов и видео
- ✅ Интеграция с Google Workspace
- ✅ Gemini 1.5 Pro может обрабатывать огромные документы (до 2M токенов)
- ✅ Gemini 2.0 Flash показывает хорошее качество при высокой скорости
- ⚠️ Качество может уступать ChatGPT и Claude в некоторых специализированных задачах

Где использовать: Через Google AI Studio, Vertex AI или API

Mistral Large (Mistral AI)¶

Версии: Mistral Large 2, Mistral Small 2

Особенности:
- Mistral Large 2: обновленная версия с улучшенным качеством (2024)
- Mistral Small 2: быстрая и экономичная модель
- Хороший баланс качества и стоимости
- Хорошая работа с европейскими языками
- Открытая политика (часть моделей открыта)
- Улучшенная работа с кодом и структурированными данными

Для юристов:
- ✅ Хорошее качество при разумной стоимости
- ✅ Хорошая работа с русским языком
- ✅ Можно использовать через API или развернуть локально
- ✅ Mistral Large 2 показывает улучшенные результаты в аналитических задачах

Где использовать: Через Mistral AI Platform или API

YandexGPT-5 (Яндекс)¶

Версии: YandexGPT-5 Lite, YandexGPT-5 Pro

Особенности:
- YandexGPT-5 Lite: 8 млрд параметров, контекст до 32K токенов
- YandexGPT-5 Pro: более мощная версия для бизнеса
- Обучение с использованием методов PPO и DPO (обучение с подкреплением)
- По заявлению Яндекса, качество сопоставимо или лучше зарубежных аналогов в большинстве бенчмарков
- Хорошая адаптация под русский язык

Для юристов:
- ✅ Отличная работа с русским языком
- ✅ Использование отечественной инфраструктуры (важно для российских компаний)
- ✅ Lite версия доступна через Алису без подписки
- ✅ Pro версия доступна через Yandex Cloud для бизнеса
- ✅ Возможность дообучения под специфические задачи

Где использовать:
- Lite: через Алису (yandex.ru/alice) или API
- Pro: через Yandex Cloud для бизнес-задач

GigaChat (Сбербанк)¶

Версии: GigaChat (базовая версия), GigaChat Multimodal, GigaChat Pro

Особенности:
- Один из наиболее заметных отечественных чат-LLM
- Мультимодальная модель (работа с текстом, изображениями)
- Хорошая адаптация под русский язык
- Использование отечественной инфраструктуры (серверы в России)
- Постоянное улучшение качества и возможностей
- GigaChat Pro: улучшенная версия для бизнес-задач

Для юристов:
- ✅ Отличная работа с русским языком
- ✅ Использование отечественной инфраструктуры (важно для российских компаний)
- ✅ Доступ через API и веб-интерфейс
- ✅ Мультимодальные возможности для работы с документами
- ⚠️ Пока отстает от ведущих западных и китайских моделей по качеству в некоторых задачах
- ✅ Постоянно улучшается и обновляется

Где использовать:
- Через веб-интерфейс gigachat.ru
- Через API для интеграции в бизнес-процессы

Открытые модели (Open Source)¶

Открытые модели можно скачать и запустить самостоятельно. Это дает полный контроль над данными, но требует технических знаний и вычислительных ресурсов.

Llama (Meta)¶

Версии: Llama 3.1 (8B, 70B, 405B), Llama 3.2 (3B, 1B), Llama 3 (8B, 70B)

Особенности:
- Llama 3.1: улучшенная версия с лучшим качеством и большим контекстом (2024)
- Llama 3.2: компактные модели для мобильных устройств и edge-вычислений
- Открытая лицензия (для большинства версий)
- Хорошее качество, конкурирует с проприетарными моделями
- Большое сообщество и поддержка
- Много вариантов дообученных версий
- Улучшенная работа с кодом и структурированными данными

Для юристов:
- ✅ Можно запустить локально
- ✅ Много специализированных версий (например, для юридических задач)
- ✅ Llama 3.1 показывает отличные результаты в аналитических задачах
- ✅ Llama 3.2 позволяет запускать на менее мощном оборудовании
- ⚠️ Требует мощное оборудование для больших версий (70B+)
- ⚠️ Качество может уступать топовым проприетарным моделям в сложных задачах

Где использовать:
- Скачать с HuggingFace
- Использовать через Ollama (простой запуск)
- Развернуть через vLLM или другие серверы

Mistral / Mixtral (Mistral AI)¶

Версии: Mistral 7B, Mixtral 8x7B, Mixtral 8x22B, Pixtral 12B

Особенности:
- Mixtral использует "mixture of experts" — несколько экспертов работают вместе
- Pixtral 12B: новая мультимодальная модель (работа с текстом и изображениями)
- Отличное качество для своего размера
- Эффективное использование ресурсов
- Открытая лицензия Apache 2.0

Для юристов:
- ✅ Хорошее качество при относительно небольшом размере
- ✅ Можно запустить на мощном компьютере или сервере
- ✅ Pixtral позволяет анализировать изображения документов
- ✅ Открытая лицензия Apache 2.0

Где использовать:
- Скачать с HuggingFace
- Использовать через Ollama
- Развернуть через vLLM или другие серверы

Qwen (Alibaba)¶

Версии: Qwen 2.5 (0.5B, 1.5B, 7B, 14B, 32B, 72B), Qwen 2.5-VL (мультимодальная)

Особенности:
- Qwen 2.5: улучшенная версия с лучшим качеством (2024)
- Очень хорошая работа с китайским языком
- Хорошее качество на других языках, включая русский
- Большие контекстные окна (до 128K токенов)
- Qwen 2.5-VL: мультимодальная версия для работы с изображениями
- Открытая лицензия Apache 2.0

Для юристов:
- ✅ Хорошая работа с русским языком
- ✅ Большие контекстные окна
- ✅ Мультимодальная версия для анализа сканов документов
- ✅ Открытая лицензия
- ✅ Хорошее качество при разумных требованиях к ресурсам

Где использовать:
- Скачать с HuggingFace
- Использовать через Ollama
- Развернуть через vLLM или другие серверы

Phi (Microsoft)¶

Версии: Phi-3.5 (3.8B, 14B), Phi-3-mini (3.8B), Phi-3-medium (14B)

Особенности:
- Phi-3.5: улучшенная версия с лучшим качеством (2024)
- Очень маленькие модели (3.8B-14B параметров)
- Высокое качество для своего размера
- Можно запустить на обычном компьютере или мобильных устройствах
- Хорошая работа с кодом и структурированными данными

Для юристов:
- ✅ Можно запустить на ноутбуке или даже мобильном устройстве
- ✅ Быстрая работа
- ✅ Phi-3.5 показывает хорошие результаты для своего размера
- ⚠️ Ограниченные возможности по сравнению с большими моделями
- ✅ Хорошо для простых задач и edge-вычислений

Где использовать:
- Скачать с HuggingFace
- Использовать через Ollama
- Развернуть на мобильных устройствах или edge-серверах

DeepSeek (DeepSeek AI)¶

Версии: DeepSeek-V3, DeepSeek-R1 (reasoning), DeepSeek-Coder-V2

Особенности:
- DeepSeek-V3: новая большая модель с улучшенной архитектурой (MoE) и качеством (2024)
- DeepSeek-R1: reasoning-модель для сложных аналитических задач
- DeepSeek-Coder-V2: улучшенная версия для программирования
- Очень большие контекстные окна (до 128K+ токенов)
- Открытые версии доступны для локального запуска
- Высокое качество, конкурирует с ведущими проприетарными моделями
- Эффективное использование ресурсов благодаря архитектуре MoE

Для юристов:
- ✅ Высокое качество анализа документов
- ✅ Reasoning-версия для сложных аналитических задач
- ✅ Можно запустить локально (открытые версии)
- ✅ Отличная работа с длинными документами
- ✅ DeepSeek-V3 показывает результаты на уровне топовых проприетарных моделей
- ⚠️ Требует мощное оборудование для больших версий

Где использовать:
- Скачать с HuggingFace (открытые версии)
- Использовать через Ollama
- API через платформы DeepSeek

Сравнительная таблица¶

Модель	Тип	Контекст	Качество	Стоимость	Конфиденциальность
GPT-5	Проприетарная	200K	⭐⭐⭐⭐⭐	$$$	⚠️ Облако
Claude 4.5 Sonnet	Проприетарная	200K	⭐⭐⭐⭐⭐	$$	⚠️ Облако
Gemini 2.0 Flash	Проприетарная	1M+	⭐⭐⭐⭐	$$	⚠️ Облако
Gemini 1.5 Pro	Проприетарная	2M	⭐⭐⭐⭐⭐	$$$	⚠️ Облако
Mistral Large 2	Проприетарная	128K	⭐⭐⭐⭐	$$	⚠️ Облако
YandexGPT-5 Pro	Проприетарная	32K+	⭐⭐⭐⭐	$$	⚠️ Облако
YandexGPT-5 Lite	Проприетарная	32K	⭐⭐⭐⭐	$	⚠️ Облако
GigaChat Pro	Проприетарная	-	⭐⭐⭐	$$	⚠️ Облако
Llama 3.1 70B	Открытая	128K	⭐⭐⭐⭐	Бесплатно*	✅ Локально
Llama 3.1 405B	Открытая	128K	⭐⭐⭐⭐⭐	Бесплатно*	✅ Локально
Mixtral 8x22B	Открытая	65K	⭐⭐⭐⭐	Бесплатно*	✅ Локально
Qwen 2.5 72B	Открытая	128K	⭐⭐⭐⭐	Бесплатно*	✅ Локально
DeepSeek-V3	Открытая	128K+	⭐⭐⭐⭐⭐	Бесплатно*	✅ Локально
DeepSeek-R1	Открытая	64K	⭐⭐⭐⭐⭐	Бесплатно*	✅ Локально (reasoning)
Phi-3.5	Открытая	128K	⭐⭐⭐	Бесплатно*	✅ Локально

*Бесплатно при запуске на собственном оборудовании

Что такое "думающие" (reasoning) модели?¶

Обычные модели генерируют ответ сразу, "на лету". Reasoning-модели (например, o1 от OpenAI) тратят время на "размышление" перед ответом.

Как это работает?¶

graph LR
    A[Ваш вопрос] --> B[Модель думает<br/>внутренне]
    B --> C[Генерирует ответ]

    style B fill:#e1f5ff
    style C fill:#c8e6c9

Когда использовать reasoning-модели?¶

✅ Подходит для:
- Сложных аналитических задач
- Многошаговых рассуждений
- Задач, где важна точность

❌ Не подходит для:
- Простых вопросов (слишком медленно)
- Интерактивных диалогов (долгое ожидание)
- Задач, где нужна скорость

От чего зависит качество модели?¶

1. Размер модели (количество параметров)¶

Параметры — это "знания" модели. Чем больше параметров, тем больше модель "знает", но тем больше ресурсов требуется.

Типичные размеры:
- Малые (1-7B): Быстрые, можно на ноутбуке, ограниченные возможности
- Средние (13-30B): Хороший баланс
- Большие (70B+): Высокое качество, требуют мощное оборудование

2. Качество обучающих данных¶

Модель учится на текстах. Чем качественнее тексты, тем лучше модель.

Для юридических задач: Важно, чтобы в обучающих данных было много юридических текстов.

3. Метод обучения¶

Разные методы обучения дают разные результаты:
- Supervised learning: Обучение на примерах "вопрос-ответ"
- Reinforcement learning: Обучение через обратную связь
- Fine-tuning: Дообучение на специфических данных

4. Архитектура модели¶

Разные архитектуры (Transformer, MoE и др.) имеют разные сильные стороны.

Где и как использовать модели?¶

1. Через веб-интерфейс (чат)¶

Примеры: chat.openai.com, claude.ai

Плюсы:
- Простота использования
- Не требует технических знаний
- Быстрый старт

Минусы:
- Ограниченная автоматизация
- Данные уходят в облако
- Сложно интегрировать в рабочие процессы

Для кого: Для личного использования, экспериментов, простых задач

2. Через API¶

Как работает: Ваше приложение отправляет запросы модели через интернет, получает ответы.

Плюсы:
- Можно интегрировать в свои системы
- Автоматизация процессов
- Гибкость в настройке

Минусы:
- Требует программирования
- Стоимость за использование
- Зависимость от интернета

Для кого: Для разработчиков, автоматизации процессов

Пример использования:

# Упрощенный пример (актуальный API на 2025 год)
from openai import OpenAI

client = OpenAI()

response = client.chat.completions.create(
    model="gpt-4o",  # или "gpt-4o-mini" для более экономичного варианта
    messages=[
        {"role": "system", "content": "Ты помощник юриста"},
        {"role": "user", "content": "Проанализируй этот договор..."}
    ]
)

print(response.choices[0].message.content)

3. Локальный запуск (для открытых моделей)¶

Как работает: Скачиваете модель, запускаете на своем сервере или компьютере.

Плюсы:
- Полный контроль над данными
- Нет зависимости от интернета
- Нет платы за использование (только оборудование)

Минусы:
- Требует технических знаний
- Нужно мощное оборудование
- Нужно поддерживать инфраструктуру

Для кого: Для организаций с высокими требованиями к конфиденциальности

Инструменты для запуска:
- Ollama: Простой запуск моделей
- vLLM: Высокопроизводительный сервер
- LM Studio: Графический интерфейс для Windows/Mac

Резюме¶

Проприетарные модели (GPT-4o, Claude 3.5 Sonnet, Gemini 2.0) — высокое качество, простота использования, но данные в облаке
Открытые модели (Llama 3.1, Mistral, Qwen 2.5, DeepSeek-V3) — полный контроль, конфиденциальность, но требуют технических знаний
Reasoning-модели (o1, DeepSeek-R1) — для сложных аналитических задач, требующих многошаговых рассуждений
Мультимодальные модели (GPT-4o, Gemini, Pixtral, Qwen 2.5-VL) — работа с текстом, изображениями, видео
Выбор зависит от задач, требований к конфиденциальности, бюджета и технических возможностей

В следующем разделе мы подробнее разберем работу с открытыми моделями и их развертывание.