Ведущий AI data инженер
Обязанности
- Сбор и агрегация данных:
Разработка и сопровождение краулеров и парсеров для сбора текстовых данных из интернета и корпоративных источников.
Интеграция разнородных источников данных в централизованное хранилище (data lake, базы данных, облачные сервисы). - Очистка и препроцессинг:
Автоматизированная очистка данных с использованием регулярных выражений, правил фильтрации и библиотек.
Применение LLM и специализированных моделей для фильтрации данных, нерелевантных или неэтичных данных, а также для детектирования персональной информации.
Удаление дубликатов, исправление разметки и других артефактов. - Аннотация и структурирование:
Организация процесса ручной и полуавтоматической разметки данных для задач SFT (инструкции, ответы, ролевая разметка и др.).
Построение пайплайнов аннотаций и взаимодействие с внешними и внутренними командами/инструментами. - Генерация и обогащение данных:
Использование LLM и других генеративных моделей для создания синтетических данных, аугментации датасетов, генерации пар “инструкция — ответ”.
Автоматизация процессов генерации данных и контроль качества синтетических примеров.
Условия работы
- Официальное трудоустройство и полный пакет социальных льгот (ДМС, компенсация фитнеса/обучения/путешествия, скидки и бонусы от партнеров, специальные условия и тарифы на продукты «Финама»).
- Стабильная заработная плата и социальные гарантии, которые дают уверенность в настоящем и открывают перспективы в будущее.
- Возможность профессионального роста, обучения и постоянного развития в области digital-innovations вместе с дружной командой. Лучшие конференции и мастер-классы за счет компании.
- Участие в проектах, которые формируют цифровую трансформацию финансового сектора.
- Возможность удалённой работы.
- Комфортный офис в центре Москвы с зоной отдыха на крыше, кофе-поинтами с ароматным кофе, а также собственный тренажерный зал.
- Богатая корпоративная культура: классные внутрикорпоративные мероприятия, сообщества по интересам, возможность проявлять свои творческие, спортивные, интеллектуальные, социальные интересы и участвовать в креативных проектах.
Требования
- Опыт написания краулеров и парсеров (Python, scrapy, BeautifulSoup, Selenium и пр.).
- Глубокое понимание процессов препроцессинга и очистки текстовых данных для обучения моделей LLM, в том числе с помощью LLM и вспомогательных моделей.
- Навыки работы с большими объемами данных, ETL-процессами и их автоматизацией.
- Опыт генерации синтетических текстовых данных с помощью LLM.
- Владение Python, pandas, SQL, знание работы с API LLM и облачными хранилищами (AWS S3, GCP, Azure).