Вышел pandas
2.0.0, который был во многом ориентирован на улучшение производительности. Что интересного:
- Если раньше pandas работал только поверх
numpy, теперь можно выбрать в качестве бекенда
apache arrow
- Работа с отсутствующими значениями и строками стала эффективнее при использовании
arrow backend
- Copy-on-write - ленивое копирование, при котором реальное копирование данных откладывается до тех пор, пока мы не начнем изменять данные. Это уменьшит количество ошибок, когда меняя данные в срезе мы на самом деле меняем исходный фрейм и при этом не скажется на производительности, когда нам нужно только читать данные
- Числовые индексы теперь могут быть не только 64-х разрядные (
int64,
uint64,
float64), но и любых других числовых типов
- У datetime и timedelta теперь можно указывать единицу измерения. Если раньше pandas приводил все к наносекундам, теперь можно явно указать что-то типа
dtype="datetime64[s]"
Полный список изменений:
https://pandas.pydata.org/docs/dev/whatsnew/v2.0.0.html
Более подробно про изменения можно прочитать в статье
pandas 2.0 and the Arrow revolution.
@tricky_python118
@dataeng522
#pandas #pandas2 #release #release_notes
Обсуждение 0
Обсуждение не доступно в веб-версии. Чтобы написать комментарий, перейдите в приложение Telegram.
Обсудить в Telegram