
За межами GPT-5: Новий рубіж базових моделей
GPT-5 очікують мультимодальне розуміння, тривалу та стабільну пам’ять з контекстом понад 1 мільйон токенів та більш агентну поведінку з покращеним міркуванням. MoE-архітектури дозволяють масштабувати моделі ефективніше за рахунок розподілення запитів між експертами; наприклад, Mistral Mix-8B використовує 8 експертів на базі 7 млрд