ML Career (@ML_career): Вышел pandas , который был во многом ориентирован на улучшение производительности. Что инт…

Вышел pandas 2.0.0, который был во многом ориентирован на улучшение производительности. Что интересного:

- Если раньше pandas работал только поверх numpy, теперь можно выбрать в качестве бекенда apache arrow
- Работа с отсутствующими значениями и строками стала эффективнее при использовании arrow backend
- Copy-on-write - ленивое копирование, при котором реальное копирование данных откладывается до тех пор, пока мы не начнем изменять данные. Это уменьшит количество ошибок, когда меняя данные в срезе мы на самом деле меняем исходный фрейм и при этом не скажется на производительности, когда нам нужно только читать данные
- Числовые индексы теперь могут быть не только 64-х разрядные (int64, uint64, float64), но и любых других числовых типов
- У datetime и timedelta теперь можно указывать единицу измерения. Если раньше pandas приводил все к наносекундам, теперь можно явно указать что-то типа dtype="datetime64[s]"

Полный список изменений: https://pandas.pydata.org/docs/dev/whatsnew/v2.0.0.html

Более подробно про изменения можно прочитать в статье pandas 2.0 and the Arrow revolution.

@tricky_python118
@dataeng522
#pandas #pandas2 #release #release_notes

Обсуждение 0

Вход в экосистему

Ваши настройки cookie