提问者:小点点

大熊猫需要使用重采样或分组比操作的具有均值的首次索引


这样的输入

 measured_at                  celsius
0 2020-05-19 01:13:40+00:00    15.00
1 2020-05-19 01:14:40+00:00    16.50
1 2020-05-20 02:13:26+00:00    30.00
2 2020-05-20 02:14:57+00:00    15.35
3 2020-05-20 02:15:19+00:00    14.00
4 2020-05-20 12:06:39+00:00    20.00
5 2020-05-21 03:13:07+00:00    15.50
6 2020-05-22 12:09:37+00:00    15.00


df['measured_at'] = pd.to_datetime(df.measured_at)
df1 = df.resample('60T', on='measured_at')['celsius'].mean().dropna().reset_index()


输出显示为此格式

     measured_at    celsius
0 2020-05-19 01:00:00+00:00  15.750000
1 2020-05-20 02:00:00+00:00  19.783333
2 2020-05-20 12:00:00+00:00  20.000000
3 2020-05-21 03:00:00+00:00  15.500000
4 2020-05-22 12:00:00+00:00  15.000000

预期输出为

     measured_at    celsius
0 2020-05-19 01:13:00+00:00  15.750000
1 2020-05-20 02:13:00+00:00  19.783333
2 2020-05-20 12:06:00+00:00  20.000000
3 2020-05-21 03:13:00+00:00  15.500000
4 2020-05-22 12:09:00+00:00  15.000000


我想要的结果像预期的输出意味着有时间2.13,2.14,2.15意味着计算和显示时间的第一个指标时间提供如果任何人有一个解决方案,请分享感谢提前。


共1个答案

匿名用户

您是否尝试过按小时对日期时间使用groupby。 然后将list应用于每组中的分钟值。

取每个列表的平均分钟数,然后将其重新应用到相应的组。