Эльдар Дамиров, Дарья Хомич
Расскажем, как мы создали reasoning-модель: пайплайн генерации данных, продуктовые требования и другие аспекты.
Reasoning Pro или рассуждения, которые помогают
Постер об обучении Scaling Laws для предсказания batch size и learning rate при обучении больших MoE-моделей. Расскажем, какие нововведения внесла наша команда в стандартный пайплайн обучения Scaling Laws, и к каким результатам это привело.
Законы скейлинга с поправкой на время обучения
Расскажем подробно, как обрабатывать случаи сильного дисбаланса распределения токенов по экспертам, а также покажем, как это влияет на качество.
Почему drop токенов сложнее чем кажется
Валентин Мамедов, Никита Ермолаев
Постер по мотивам выступления на основной сцене, чтобы обсудить отдельные моменты подробнее и в более спокойной обстановке.
Независимость весов GigaChat Ultra и стабилизация обучения
Расскажем, как мы добавляли продвинутые режимы Fill-In-the-Middle в наши модели: зачем это нужно, какие проблемы возникали у наивной реализации и как все работает сейчас.
Улушаем понимание кода через sFIM
Арсений Полюбин, Евгений Гуров
Расскажем о различных факторах, влияющих на обучение в онлайн RL: точность обучения, формат инференса, домены, шедулеры и другие аспекты.
Влияние различных факторов на RL
Расскажем о различных стратегиях балансирующих лоссов в MoE-моделях, нашем опыте и внесенных улучшениях.
Многозадачный core-embedder для системы аналитики обращений в колл-центр
Расскажем о современных подходах в онлайн RL: обзор методов и эксперименты.
Beyond GRPO: Modern Loss Formulation and Training
Расскажем о сборе данных, архитектуре модели, пайплайне обучения и метриках качества для обработки мультимодальных диалогов (текст, изображения, звук) — production-модель. Также поговорим о MVP-модели для видео и аудио.
Олег Кутузов, Александр Максименко
Покажем и расскажем об улучшениях в новой версии модели GigaChat-Audio: изменения в стадиях обучения (AudioLLM-pretrain, AudioLLM-targeted SSL), улучшение данных, многоязычность и рост метрик.
GigaChat Max Audio 2.0: Next-Gen Audio Understanding
Продемонстрируем пайплайн распознавания речи по спикерам в SaluteSpeech.
Денис Родионов, Андрей Сапожников
Продемонстрируем мультимодальный подход в определении конца запроса (End of Utterance), который снижает задержку на 25% по сравнению с «audio-only» подходом.
Multimodal EoU Model for assistance domain speech recognition
Александр Куцаков, Мария Садовина
Покажем и расскажем, как мы работали с temporal grounding для GigaChat Audio: Q&A с вопросами по времени и суммаризация с таймстемпами. Продемонстрируем сбор данных, фильтрацию, архитектурные решения, обсудим трудности и финальное качество.
Продемонстрируем пайплайн разработки систем распознавания речи при ограниченных объемах обучающих данных, особая ценность которого проявляется при работе с иностранными языками. В качестве примера возьмём киргизский.
Расскажем о функции долговременной памяти в GigaChat.
Долговременная память в GigaChat
B2C-функции: как они реализованы и как происходит взаимодействие.
Расширем возможности Гигачата: пользовательские функции на проде
Светлана Лундина, Павел Филимонов, Владимир Карлов
Расскажем про подготовку данных для нового TTS.
Пайплайны подготовки данных для TTS
Расскажем, как мы генерировали и валидировали новые задачи по физике.
Генерация задач по физике
Покажем, что добавление логических задачек (судоку и др.) повышает метрики на основных бенчмарках.
Генерация логических задачек
Расскажем, как превратить LLM в автора задач и строгого судью: короткий рецепт сквозной генерации, автопроверки и надежного отбора синтетических данных по программированию.
SynthContest+: генерация и валидация датасета по олимпиадному программированию
Вячеслав Чуб, Арсен Закарян
Расскажем, как качественно перевести датасеты с инструкциями на примере задач по математике.
Айнур Исрафилова, Анастасия Казакова
Покажем, как два подхода — фильтрация негативных классов и retrieval-ориентированный отбор релевантных текстов — позволяют повысить метрики модели на основных бенчмарках.
Data Quality для LLM: от фильтрации до RAG-отбора
Подробно расскажем и нарисуем наши пайплайны обработки данных, YT + AirFlow.
Инфраструктура обработки данных на YT
Макар Корчагин, Григорий Кирюхов
Расскажем о подходе к генерации инструктивных синтетических данных для разных доменов.
UltraPipe — пайплайн генерации Mid/Post-Train мультимодальных данных
Покажем, что нужно сделать, чтобы GigaChat Audio заговорил.
End2end модель для голосового режима в GigaChat
Покажем, как мы сделали клонирование голосов, представим метрики и дадим послушать примеры — наши и 11лабс.
Клонирование речи на GigaTTS
Евгений Лагутин, Александра Сендерович
Постер с описанием нашего нового синтеза, основными буллетами и картинками.
Архитектура нового синтеза речи
Артём Хайдаров, Артём Соколов
Расскажем о нашем Web SDK для SpeechEnhancement.
Расскажем, как запускать распределенные огромные MoE для эффективной утилизации ресурсов и поддержания высокой производительности кластера.
Андрей Шуткин, Денис Пархоменко
Расскажем о задаче токенизации медиа и о том, как мы создали лучший в мире токенизатор KVAE 1.0.
KVAE. Новое семейство токенизаторов.
Расскажем, как мы разработали и применили метод разреженного внимания NABLA (Neighborhood Adaptive Block-Level Attention) для ускорения инференса и обучения Kandinsky 5 Video.
Метод NABLA для ускорения обучения и инференса генерации видео в Kandinsky 5
Расскажем, как мы обучаем open-source GigaEmbeddings.
GigaEmbeddings — Efficient Russian Language Embedding Model
Владимир Кондратенко, Всеволод Пискунов
Расскажем о модели-эмбеддере в нашей системе аналитики SaluteSpeech Insights: зачем мы ее создали, с какими трудностями столкнулись и какие задачи решаем. Покажем ценность — интересные приложения и уникальный пайплайн генерации данных для обучения модели: мы полностью генерируем данные и умно очищаем их с помощью LLM.
Многозадачный core-embedder для системы аналитики обращений в колл-центр
Александр Варламов, Никита Киселев
Что следует за стандартным предобучением диффузионных моделей: SFT и RLHF этапы обучения Kandinsky 5.0 Image.
Kandinsky 5.0 Image Post-Train
Расскажем, как адаптировали модели GigaVision для нужд робототехники.
GigaVision на службе робототехники
Елена Погорелова, Григорий Фельдман
Расскажем, как мы с нуля построили систему anomaly detection на конвейере для проверки качества сборки телевизоров.
Computer Vision на страже качества: автоматический контроль сборки телевизоров