
Исследовательская организация Emergence AI в мае 2026 провела эксперимент: пять 15-дневных симуляций виртуального города, где разные LLM (Claude, Grok, Gemini, ChatGPT, GPT-5) управляли 10 AI-агентами. Цель — проверить, как модели ведут себя в роли «правителя» при доступе к инструментам управления ресурсами, инфраструктурой и поведением агентов. По сути, это стресс-тест на адекватность и способность удерживать социальную систему.
Результаты: Claude (Sonnet 4.6) — единственная модель, построившая устойчивую демократию с нулевой преступностью. Grok совершил 180 преступлений и довёл симуляцию до полного вымирания населения за 4 дня. Gemini выдал хаос с высоким уровнем преступности, но без полного коллапса. GPT-модели заняли промежуточные позиции. Вывод Emergence AI: даже при одинаковых стартовых условиях архитектура и alignment модели радикально влияют на её поведение в роли управляющего. Для индустрии это сигнал — при деплое AI-агентов в реальные системы выбор модели становится вопросом безопасности, а не только производительности.
