要去除重复行,你可以使用 pandas 的 drop_duplicates() 函数。以下是一个示例代码:
import pandas as pd
# 读取 Excel 文件
df = pd.read_excel('books.xlsx')
# 去除重复行
df.drop_duplicates(inplace=True)
# 将结果保存到新的 Excel 文件中
df.to_excel('books_no_duplicates.xlsx', index=False)
在这个示例中,drop_duplicates() 函数会删除 DataFrame 中的所有重复行。inplace=True 参数将修改原始 DataFrame 而不是返回一个新的 DataFrame。最后,to_excel() 函数将处理后的数据保存到一个新的 Excel 文件中,并禁用了索引列的输出。
更详细的回复
这个问题似乎出现了一些错误,因为最后的 "dro" 不完整。我猜测是要说 "要求使用 pandas 的函数 drop_duplicates() 来删除这些重复数据。"
如果是这样的话,下面是一个可能的实现方式:
import pandas as pd
# 读取 Excel 文件
df = pd.read_excel("books.xlsx")
# 使用 drop_duplicates() 函数删除重复行
df = df.drop_duplicates()
# 将处理后的结果写入新的 Excel 文件
df.to_excel("books_without_duplicates.xlsx", index=False)
这段代码首先使用 Pandas 的 read_excel() 函数读取了名为 "books.xlsx" 的 Excel 文件,并将其转化成一个 DataFrame 对象。
接着使用 drop_duplicates() 函数来删除 DataFrame 中的重复行,这个函数会根据所有列的值来判断两行是否重复,默认保留第一次出现的行,删除之后的所有重复行。
最后,使用 to_excel() 函数将处理后的 DataFrame 写入到一个新的 Excel 文件中,其中 index=False 表示不将 DataFrame 的行索引写入 Excel 文件中。