百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

通过实例学习Linux脚本11 查找并删除重复文件

nanshan 2025-04-07 17:06 5 浏览 0 评论

用于在指定目录及其子目录中查找并删除重复文件。脚本会根据文件内容(SHA-256 哈希值)比较文件,而不是根据文件名。脚本会告知用户找到的重复文件,并删除副本,只保留每个文件的一个实例。

Bash 脚本

 #!/bin/bash
 
 # 检查是否提供了目录作为参数
 if [ "$#" -ne 1 ]; then
     echo "用法:$0 目录"
     echo "示例:$0 /path/to/my_directory"
     exit 1
 fi
 
 directory=$1
 
 # 检查目录是否存在
 if [ ! -d "$directory" ]; then
     echo "指定的目录不存在。"
     exit 1
 fi
 
 # 创建临时文件以保存哈希值
 tempfile=$(mktemp)
 
 # 生成目录及其子目录中所有文件的 SHA-256 哈希值
 find "$directory" -type f -exec sha256sum {} + > "$tempfile"
 
 # 根据哈希值查找重复文件,忽略第一个唯一文件
 duplicates=$(awk '{print $1}' "$tempfile" | sort | uniq -d)
 
 if [ -z "$duplicates" ]; then
     echo "未找到重复文件。"
     rm "$tempfile"
     exit 0
 fi
 
 # 处理每个重复哈希值
 echo "$duplicates" | while read hash; do
     # 查找具有相同哈希值的文件
     files=$(grep "$hash" "$tempfile" | awk '{print $2}')
     first_file=$(echo "$files" | head -n 1)
     rest_files=$(echo "$files" | tail -n +2)
 
     if [ -n "$rest_files" ]; then
         echo "找到重复文件,保留:$first_file"
         echo "删除以下重复文件:"
         for file in $rest_files; do
             echo "删除:$file"
             rm "$file"
         done
     fi
 done
 
 rm "$tempfile"
 echo "处理完成。重复文件已删除。"

使用说明

  1. 保存脚本到文件:将脚本内容保存到一个文件中,例如 remove_duplicates.sh
  2. 给文件添加执行权限
  3. bash复制
  4. chmod +x remove_duplicates.sh
  5. 运行脚本:提供目标目录作为参数运行脚本。例如:
  6. bash复制
  7. ./remove_duplicates.sh /path/to/my_directory
  8. 该命令会查找 /path/to/my_directory 目录及其子目录中的重复文件,并删除副本,只保留每个文件的一个实例。

注意事项

  • 备份数据:在运行此脚本之前,请务必备份重要数据,以防止意外丢失文件。
  • 文件权限:确保脚本具有足够的权限来删除文件。如果脚本没有权限删除某些文件,可以使用 sudo 来运行脚本。
  • 脚本逻辑:脚本会保留每个重复文件的第一个实例,并删除其余的副本。如果需要保留最后一个实例,可以修改脚本逻辑,将 head -n 1tail -n +2 的顺序调换。
  • 大文件处理:如果目录中包含大量文件,脚本可能会运行较慢。可以考虑在低负载时运行脚本,或者对脚本进行优化。

相关推荐

服务器数据恢复—Raid5数据灾难不用愁,Raid5数据恢复原理了解下

Raid5数据恢复算法原理:分布式奇偶校验的独立磁盘结构(被称之为raid5)的数据恢复有一个“奇偶校验”的概念。可以简单的理解为二进制运算中的“异或运算”,通常使用的标识是xor。运算规则:若二者值...

服务器数据恢复—多次异常断电导致服务器raid不可用的数据恢复

服务器数据恢复环境&故障:由于机房多次断电导致一台服务器中raid阵列信息丢失。该阵列中存放的是文档,上层安装的是Windowsserver操作系统,没有配置ups。因为服务器异常断电重启后,rai...

服务器数据恢复-V7000存储更换磁盘数据同步失败的数据恢复案例

服务器数据恢复环境:P740+AIX+Sybase+V7000存储,存储阵列柜上共12块SAS机械硬盘(其中一块为热备盘)。服务器故障:存储阵列柜中有磁盘出现故障,工作人员发现后更换磁盘,新更换的磁盘...

「服务器数据恢复」重装系统导致XFS文件系统分区丢失的数据恢复

服务器数据恢复环境:DellPowerVault系列磁盘柜;用RAID卡创建的一组RAID5;分配一个LUN。服务器故障:在Linux系统层面对LUN进行分区,划分sdc1和sdc2两个分区。将sd...

服务器数据恢复-ESXi虚拟机被误删的数据恢复案例

服务器数据恢复环境:一台服务器安装的ESXi虚拟化系统,该虚拟化系统连接了多个LUN,其中一个LUN上运行了数台虚拟机,虚拟机安装WindowsServer操作系统。服务器故障&分析:管理员因误操作...

「服务器数据恢复」Raid5阵列两块硬盘亮黄灯掉线的数据恢复案例

服务器数据恢复环境:HPStorageWorks某型号存储;虚拟化平台为vmwareexsi;10块磁盘组成raid5(有1块热备盘)。服务器故障:raid5阵列中两块硬盘指示灯变黄掉线,无法读取...

服务器数据恢复—基于oracle数据库的SAP数据恢复案例

服务器存储数据恢复环境:某品牌服务器存储中有一组由6块SAS硬盘组建的RAID5阵列,其中有1块硬盘作为热备盘使用。上层划分若干lun,存放Oracle数据库数据。服务器存储故障&分析:该RAID5阵...

「服务器虚拟化数据恢复」Xen Server环境下数据库数据恢复案例

服务器虚拟化数据恢复环境:Dell某型号服务器;数块STAT硬盘通过raid卡组建的RAID10;XenServer服务器虚拟化系统;故障虚拟机操作系统:WindowsServer,部署Web服务...

服务器数据恢复—RAID故障导致oracle无法启动的数据恢复案例

服务器数据恢复环境:某品牌服务器中有一组由4块SAS磁盘做的RAID5磁盘阵列。该服务器操作系统为windowsserver,运行了一个单节点Oracle,数据存储为文件系统,无归档。该oracle...

服务器数据恢复—服务器磁盘阵列常见故障表现&解决方案

RAID(磁盘阵列)是一种将多块物理硬盘整合成一个虚拟存储的技术,raid模块相当于一个存储管理的中间层,上层接收并执行操作系统及文件系统的数据读写指令,下层管理数据在各个物理硬盘上的存储及读写。相对...

「服务器数据恢复」IBM某型号服务器RAID5磁盘阵列数据恢复案例

服务器数据恢复环境:IBM某型号服务器;5块SAS硬盘组成RAID5磁盘阵列;存储划分为1个LUN和3个分区:第一个分区存放windowsserver系统,第二个分区存放SQLServer数据库,...

服务器数据恢复—Zfs文件系统下误删除文件如何恢复数据?

服务器故障:一台zfs文件系统服务器,管理员误操作删除服务器上的数据。服务器数据恢复过程:1、将故障服务器所有磁盘编号后取出,硬件工程师检测所有硬盘后没有发现有磁盘存在硬件故障。以只读方式将全部磁盘做...

服务器数据恢复—Linux+raid5服务器数据恢复案例

服务器数据恢复环境:某品牌linux操作系统服务器,服务器中有4块SAS接口硬盘组建一组raid5阵列。服务器中存放的数据有数据库、办公文档、代码文件等。服务器故障&检测:服务器在运行过程中突然瘫痪,...

服务器数据恢复—Sql Server数据库数据恢复案例

服务器数据恢复环境:一台安装windowsserver操作系统的服务器。一组由8块硬盘组建的RAID5,划分LUN供这台服务器使用。在windows服务器内装有SqlServer数据库。存储空间LU...

服务器数据恢复—阿里云ECS网站服务器数据恢复案例

云服务器数据恢复环境:阿里云ECS网站服务器,linux操作系统+mysql数据库。云服务器故障:在执行数据库版本更新测试时,在生产库误执行了本来应该在测试库执行的sql脚本,导致生产库部分表被tru...

取消回复欢迎 发表评论: