??Типичная задача аналитика — посчитать и выгрузить что-то на pySpark. Способов несколько — от маленьких табличек в Excel до объемных датасетов.
Делать все быстро и правильно поможет
этот гайд от Александра Ледовского — тимлида команды аналитики и DS, который строит рекламные аукционы в Авито. Он рассказывает, как работать в Apache Spark, в том числе:
?как использовать функцию toPandas вместе с библиотекой pyArrow;
?как обходить ограничения Arrow;
?когда toPandas не стоит использовать и какие еще есть варианты.
Справиться с проблемами гораздо легче, перенимая опыт лучших. Так что переходите
по ссылке и пользуйтесь — там все доступно, понятно и четко.
Обсуждение 0
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram