avatar
Клуб CDO
@cdo_club
04.09.2025 13:05
Optimizing LinkedIn Sales Navigator’s search pipeline with Spark

LinkedIn провёл масштабную оптимизацию поискового пайплайна для Sales Navigator, переведя обработку данных с MapReduce на Spark и сократив время выполнения с 6–7 часов до примерно 3 часов. Это позволило пользователям быстрее получать обновлённые результаты поиска и принимать решения на основе актуальных данных.

Технически интересные моменты ?
- Централизованный сервис поиска: Перевод отдельных поисковых кейсов на единую платформу Search-as-a-Service.
- Масштаб Spark-процессинга: Более 100 Spark-джобов, крупнейший из которых использует ~5000 исполнителей (executors).
- Работа с большими объёмами данных: Джобы обрабатывают данные в формате Avro, хранящиеся в HDFS, с последующей записью обратно.
- Оркестрация пайплайна: Используется Azkaban для управления зависимостями и запуском джобов.

https://www.linkedin.com/blog/engineering/infrastructure/optimizing-linkedin-sales-navigators-search-pipeline-with-spark
Linkedin
Accelerating LinkedIn Sales Navigator's search system with Spark transformations
? 2
? 2
??? 1
? 1
5 3 1.2K

Обсуждение 5

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram