启明办公

用户名  找回密码
 立即注册
帖子
热搜: 活动 交友 discuz
查看: 71|回复: 1

实战|Python六行代码实现多个Excel合并

[复制链接]

1

主题

3

帖子

5

积分

新手上路

Rank: 1

积分
5
发表于 2022-12-12 21:49:52 | 显示全部楼层 |阅读模式
项目背景
事情是这样的,某事业单位员工A需要每天从业务系统中导出订单表(表结构一致),并最终汇总到一个Excel中进行数据分析。他从系统中导出的文件结构为一个主目录orders,主目录下两个子目录分别为orders1和orders2,子目录下又有很多个订单表,具体如图所示:


他想实现以下几个需求:
1.合并指定目录下的所有订单表;
2.合并指定目录下的指定订单表;3.合并指定目录下的指定订单表的指定字段;4.合并所有目录下的所有订单表。
我看完需求后,有点蒙,甚至感觉有点像在学绕口令。


我连忙喝了杯海外上市的国产咖啡冷静了一下,突然有了些许头绪。为了不让思绪溜走,赶紧打开了order1.xlsx看下表结构,长这样:


项目实操
一、合并指定目录下的所有订单表
我以合并orders1目录下的所有订单表为例来进行操作。
首先,导入文件操作相关库。
#@Time : 2020/5/25 2:18 下午
#@Author : 菜J学Python
#@File : concat_excel.py

import pandas as pd
from pathlib import Path然后,获取orders1目录下所有订单表。
files = Path("orders/orders1").glob("*.xlsx")接着,依次读取所有订单表并创建DataFrame。
dfs = []
for f in files:
    dfs.append(pd.read_excel(f))
将多个DataFrame合并为一个。
df = pd.concat(dfs)写入Excel新文件result1.xlsx,并删除索引。
df.to_excel("result1.xlsx",index = False)OK,合并成功。
细心的你可能已经发现,J哥已经写了足足8行代码。说好的6行代码能搞定呢?


咱不慌,优化以上代码,如下:
import pandas as pd
from pathlib import Path
files = Path("orders/orders1").glob("*.xlsx")
dfs = [pd.read_excel(f) for f in files]
df = pd.concat(dfs)
df.to_excel("result2.xlsx",index = False)需求1搞定。
二、合并指定目录下的指定订单表
所有订单表都会合并了,只合并几个表算啥?只要指定好对应的文件路径就好啦。废话不多说,直接上代码:
dfs = [pd.read_excel(f) for f in ('orders/orders1/order1.xlsx','orders/orders1/order2.xlsx')]
df = pd.concat(dfs)
df.to_excel("result3.xlsx",index = False)以上代码实现了orders1目录下的order1.xlsx和order2.xlsx合并。
需求2搞定。
三、合并指定目录指定订单表的指定字段
这个听起来有点绕,咱用正常人的口吻改下表述。比如还是orders1目录,咱们只合并order1.xlsx的品目字段和order2.xlsx的数量、单价字段。
table1 = pd.read_excel("orders/orders1/order1.xlsx")
table2 = pd.read_excel('orders/orders1/order2.xlsx')
part1 = table1.iloc[:,2]  #取order1.xlsx第3列的所有行
part2 = table2.iloc[:,[8,9]]  #取order2.xlsx的第9、10列的所有行
result4 = pd.concat([part1,part2],axis = 1 ) #合并以上注意axis=1表示横向合并。打印一下result4,长这样:


实现倒是简单,不过J哥转念一想,这操作完全不符合业务逻辑啊。So,不管,就这样吧。
需求3搞定。
四、合并所有目录下的所有订单表
简单说下这个需求,就是把orders目录下orders1和orders2里面的所有Excel共计10个订单表合并在一个Excel里。


好像确实说复杂了......
实现这个需求要用到os库的walk方法。
先上代码再解释:
import pandas as pd
import os
file_list = os.walk("./")
result = []

for dir_path,dirs,files in file_list:
    for f in files:
        file_path = os.path.join(dir_path,f) #重构文件路径
        print(file_path)
        if 'xlsx' in f:    #只要xlsx文件
            df = pd.read_excel(file_path) #将Excel转成DataFrame
            result.append(df)
print(result)

df = pd.concat(result) #多个DataFrame合成一个
df.to_excel("result4.xlsx",index=False) #导入到一个新的Excel中通过os.walk()方法,可以查询到目录下不同文件夹中的文件。dir_path代表的是文件路径,dirs代表的是目录下的文件夹,files代表的是目录下的文件。这里J哥加了一个条件判断,因为print(file_path)时发现里面多了个没用的东东。
需求4搞定。
结 语
感觉Excel合并在我们的日常工作和生活中还是会经常用到的,如果你只是想合并几个Excel,J哥强烈建议你手动合并,你的手速肯定比我敲代码快。当然即使有大量的表格需要合并,VBA也是可以搞定的,虽然J哥没试过,但我觉得代码量肯定比Python多,毕竟Python只要6行代码啊!
在学习python中有任何困难不懂的》》点此python交流学习《《
多多交流问题,互帮互助,这里有不错的学习教程和开发工具。

回复

举报

0

主题

5

帖子

8

积分

新手上路

Rank: 1

积分
8
发表于 2025-4-2 02:01:01 | 显示全部楼层
沙发位出租,有意请联系电话:13838384381
回复

举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|启明办公

Copyright © 2001-2013 Comsenz Inc.Template by Comsenz Inc.All Rights Reserved.

Powered by Discuz!X3.4

快速回复 返回顶部 返回列表