
Обычная модель при генерации лица по маске и тексту пересчитывает ВСЁ на каждом шаге диффузии. Маску, текст, шум, латенты — сотни терафлопс впустую. MDiTFace заметил очевидное: маска и текст не меняются от шага к шагу. Зачем считать их 50 раз подряд?
Авторы разделили внимание на статическое (считается один раз, кэшируется) и динамическое (работает с шумным латентом). Результат: overhead от маски упал на 94.7%. С 185.8 TFLOPs до 9.95 при генерации 1024×1024. Mask IoU — 94.64%, качество выше всех конкурентов. Это не оптимизация. Это новый стандарт.
