Перейти на главную

Ведущий AI data инженер

Обязанности

  • Сбор и агрегация данных:
    Разработка и сопровождение краулеров и парсеров для сбора текстовых данных из интернета и корпоративных источников.
    Интеграция разнородных источников данных в централизованное хранилище (data lake, базы данных, облачные сервисы).
  • Очистка и препроцессинг:
    Автоматизированная очистка данных с использованием регулярных выражений, правил фильтрации и библиотек.
    Применение LLM и специализированных моделей для фильтрации данных, нерелевантных или неэтичных данных, а также для детектирования персональной информации.
    Удаление дубликатов, исправление разметки и других артефактов.
  • Аннотация и структурирование:
    Организация процесса ручной и полуавтоматической разметки данных для задач SFT (инструкции, ответы, ролевая разметка и др.).
    Построение пайплайнов аннотаций и взаимодействие с внешними и внутренними командами/инструментами.
  • ​​​​​​​Генерация и обогащение данных:
    Использование LLM и других генеративных моделей для создания синтетических данных, аугментации датасетов, генерации пар “инструкция — ответ”.
    ​​​​​​​Автоматизация процессов генерации данных и контроль качества синтетических примеров.

Условия работы

  • Официальное трудоустройство и полный пакет социальных льгот (ДМС, компенсация фитнеса/обучения/путешествия, скидки и бонусы от партнеров, специальные условия и тарифы на продукты «Финама»).
  • Стабильная заработная плата и социальные гарантии, которые дают уверенность в настоящем и открывают перспективы в будущее.
  • Возможность профессионального роста, обучения и постоянного развития в области digital-innovations вместе с дружной командой. Лучшие конференции и мастер-классы за счет компании.
  • Участие в проектах, которые формируют цифровую трансформацию финансового сектора.
  • Возможность удалённой работы.
  • Комфортный офис в центре Москвы с зоной отдыха на крыше, кофе-поинтами с ароматным кофе, а также собственный тренажерный зал.
  • Богатая корпоративная культура: классные внутрикорпоративные мероприятия, сообщества по интересам, возможность проявлять свои творческие, спортивные, интеллектуальные, социальные интересы и участвовать в креативных проектах.

Требования

  • Опыт написания краулеров и парсеров (Python, scrapy, BeautifulSoup, Selenium и пр.).
  • Глубокое понимание процессов препроцессинга и очистки текстовых данных для обучения моделей LLM, в том числе с помощью LLM и вспомогательных моделей.
  • Навыки работы с большими объемами данных, ETL-процессами и их автоматизацией.
  • Опыт генерации синтетических текстовых данных с помощью LLM.
  • Владение Python, pandas, SQL, знание работы с API LLM и облачными хранилищами (AWS S3, GCP, Azure).

Инвестируй в себя

Пройди собеседование, получи оффер и развивай продукты «Финама» вместе с нами