Ведущий AI data инженер

Обязанности

Сбор и агрегация данных:
Разработка и сопровождение краулеров и парсеров для сбора текстовых данных из интернета и корпоративных источников.
Интеграция разнородных источников данных в централизованное хранилище (data lake, базы данных, облачные сервисы).
Очистка и препроцессинг:
Автоматизированная очистка данных с использованием регулярных выражений, правил фильтрации и библиотек.
Применение LLM и специализированных моделей для фильтрации данных, нерелевантных или неэтичных данных, а также для детектирования персональной информации.
Удаление дубликатов, исправление разметки и других артефактов.
Аннотация и структурирование:
Организация процесса ручной и полуавтоматической разметки данных для задач SFT (инструкции, ответы, ролевая разметка и др.).
Построение пайплайнов аннотаций и взаимодействие с внешними и внутренними командами/инструментами.
Генерация и обогащение данных:
Использование LLM и других генеративных моделей для создания синтетических данных, аугментации датасетов, генерации пар “инструкция — ответ”.
Автоматизация процессов генерации данных и контроль качества синтетических примеров.

Условия работы

Официальное трудоустройство и полный пакет социальных льгот (ДМС, компенсация фитнеса/обучения/путешествия, скидки и бонусы от партнеров, специальные условия и тарифы на продукты «Финама»).
Стабильная заработная плата и социальные гарантии, которые дают уверенность в настоящем и открывают перспективы в будущее.
Возможность профессионального роста, обучения и постоянного развития в области digital-innovations вместе с дружной командой. Лучшие конференции и мастер-классы за счет компании.
Участие в проектах, которые формируют цифровую трансформацию финансового сектора.
Возможность удалённой работы.
Комфортный офис в центре Москвы с зоной отдыха на крыше, кофе-поинтами с ароматным кофе, а также собственный тренажерный зал.
Богатая корпоративная культура: классные внутрикорпоративные мероприятия, сообщества по интересам, возможность проявлять свои творческие, спортивные, интеллектуальные, социальные интересы и участвовать в креативных проектах.

Требования

Опыт написания краулеров и парсеров (Python, scrapy, BeautifulSoup, Selenium и пр.).
Глубокое понимание процессов препроцессинга и очистки текстовых данных для обучения моделей LLM, в том числе с помощью LLM и вспомогательных моделей.
Навыки работы с большими объемами данных, ETL-процессами и их автоматизацией.
Опыт генерации синтетических текстовых данных с помощью LLM.
Владение Python, pandas, SQL, знание работы с API LLM и облачными хранилищами (AWS S3, GCP, Azure).

Ведущий AI data инженер

Обязанности

Условия работы

Требования

Инвестируй в себя

Присоединяйтесь к команде Финам!