拉取不平衡数据集的开始日期、结束日期和平均数量 - 一点教程

提问者：小点点

拉取不平衡数据集的开始日期、结束日期和平均数量

我有一个由城市（列“IBGE”）、日期和数量（列“QTD”）组成的数据集（如图所示）。我试图将三件事提取到一个新列中：每个“IBGE”的开始日期、每个“IBGE”的结束日期和每个“代码”的平均值。

此外，在这样做之前，我应该更改数据集的索引吗？

面板数据不平衡，因此不同的“IBGE”值具有不同的开始和结束日期以及平均值。我如何使用以下信息以列分隔来创建一个新的数据框？我希望数据框看起来像这样：

我在想，也许for while循环可能会获取该信息，但我不确定如何编写代码。

共1个答案

匿名用户

尝试使用groupby和命名聚合：

#convert DATE column to datetime if needed
df["DATE"] = pd.to_datetime(df["DATE"])

output = df.groupby("IBGE").agg(Start=("DATE","min"),
                                End=("DATE","max"),
                                Mean_QTD=("QTD","mean"))

相关问题

热门标签

Java JavaScript Python PHP C# Android Html jQuery C++ Css IOS MySQL NodeJS