Вышел pandas 2.0.0, который был во многом ориентирован на улучшение производительности. Что интересного:

- Если раньше pandas работал только поверх numpy, теперь можно выбрать в качестве бекенда apache arrow
- Работа с отсутствующими значениями и строками стала эффективнее при использовании arrow backend
- Copy-on-write - ленивое копирование, при котором реальное копирование данных откладывается до тех пор, пока мы не начнем изменять данные. Это уменьшит количество ошибок, когда меняя данные в срезе мы на самом деле меняем исходный фрейм и при этом не скажется на производительности, когда нам нужно только читать данные
- Числовые индексы теперь могут быть не только 64-х разрядные (int64, uint64, float64), но и любых других числовых типов
- У datetime и timedelta теперь можно указывать единицу измерения. Если раньше pandas приводил все к наносекундам, теперь можно явно указать что-то типа dtype="datetime64[s]"

Полный список изменений: https://pandas.pydata.org/docs/dev/whatsnew/v2.0.0.html

Более подробно про изменения можно прочитать в статье pandas 2.0 and the Arrow revolution.

@tricky_python118
@dataeng522
#pandas #pandas2 #release #release_notes
datapythonista blog
pandas 2.0 and the Arrow revolution (part I)
Introduction At the time of writing this post, we are in the process of releasing pandas 2.0. The project has a large number of users,...
11 592

Обсуждение 0

Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.

Обсудить в Telegram