Tips#
# 过滤某些列
df.loc[:, ['A', 'C']]
# 过滤某些行、列
df.loc[0:1, ['A', 'C']]
# 提取标量
df.at[3, 'C']
df.iloc[3]
# 提取前3行,前两列
df.iloc[0:3, 0:2]
# 提取1、2整行
df.iloc[1:3]
df.iloc[1:3, :]
# 第一行第一列
df.iloc[1, 1]
df.iat[1, 1]
# 相等过滤
df.E == 'test'
df[df.E == 'test']
# 组合过滤
df[(df['len'] < 10) & (df['level_1'] == 'test')]
# 打印series
print("\t".join([k for k in df['content']]))
# 是否在列表中
df.E.isin(['A', 'test'])
# 按照level_1聚合,并计数
df3 = df.groupby(['level_1']).agg(count=('level_1', 'count'))
# or
df.groupby(['level_1'])size()
# 分箱
bins = [0, 100, 1000, 10000]
df3['bins'] = pd.cut(df3['count'], bins)
df3['bins'].value_counts().sort_index()