在 Linux 环境下进行 C++ 编程时，多线程为程序带来了出色的并发处理能力，让程序在应对复杂任务时表现得更加高效。然而，多线程编程并非一路坦途，死锁问题宛如隐匿在暗处的 “杀手”，随时可能让程序陷入僵局。死锁一旦发生，程序就如同陷入了一个无法挣脱的循环，各个线程彼此等待对方释放资源，却又都不愿率先放手，最终致使整个程序停滞不前。

这种状况不仅会使程序的功能无法正常实现，还可能对整个系统的稳定性产生影响。以网络服务器程序为例，倘若发生死锁，服务器可能无法响应新的客户端请求，大量用户的操作被搁置，后果不堪设想。对于 C++ 开发者而言，掌握排查死锁的技巧至关重要。今天，我们将深入探讨如何借助 Linux 系统下的 Shell 命令和强大的调试工具 GDB，精准定位并解决死锁问题，让你的程序重焕生机。接下来，先让我们认识一下死锁究竟是如何产生的。

Part1死锁 —— 多线程编程的隐藏杀手

在 Linux C++ 多线程编程的领域中，死锁就像是一个隐匿在暗处的杀手，时刻威胁着程序的正常运行。多线程编程赋予了程序强大的并发处理能力，让我们能够充分利用多核处理器的性能，提高程序的执行效率。然而，正如阳光背后总有阴影，多线程带来便利的同时，也引入了死锁这个棘手的问题。

想象一下，有一座独木桥，只能容纳一个人通过。这时，有两个人分别从桥的两端同时上桥，当他们走到桥中间时，彼此都不愿意后退，就这样僵持在那里。结果就是，谁也无法继续前进，只能一直等待，这就是死锁在现实生活中的生动写照。在多线程编程里，当两个或多个线程相互等待对方释放所占用的资源时，就会陷入类似的僵局，程序无法继续推进，就如同这两个僵持在独木桥上的人一样。

死锁的危害不容小觑，尤其是在一些对实时性和稳定性要求极高的系统中，比如服务器程序。在服务器程序里，线程通常会处理大量的并发请求，如果发生死锁，部分线程被卡住，无法及时响应客户端的请求，这不仅会降低系统的吞吐量，严重时甚至可能导致整个服务器瘫痪，影响大量用户的正常使用。举个简单的例子，假设一个在线购物平台的服务器出现死锁，那么用户可能无法正常下单、支付，商家也无法处理订单，这对平台的运营和用户体验来说，无疑是一场灾难。

除了服务器程序，在一些需要频繁进行资源共享和线程协作的场景中，死锁也可能随时出现。比如在一个多线程的文件处理系统中，多个线程可能需要同时访问和修改同一个文件，如果对文件资源的访问控制不当，就很容易引发死锁，导致文件处理出错，数据丢失等严重后果。

所以，学会如何排查和解决死锁问题，对于 Linux C++ 程序员来说至关重要。只有掌握了有效的排查方法，我们才能在程序出现死锁时，迅速定位问题，找到解决方案，让程序恢复正常运行，保障系统的稳定性和可靠性。

Part2探寻死锁根源

死锁的产生并非毫无缘由，它往往是由多种因素共同作用导致的。在多线程编程中，了解死锁产生的原因，就如同找到了破解死锁谜题的钥匙，能够帮助我们更好地预防和排查死锁问题。接下来，让我们深入剖析死锁产生的常见原因，并结合具体的代码示例进行详细解释。

2.1 加锁顺序不当

当多个线程需要获取多个锁时，如果它们获取锁的顺序不一致，就如同两条交叉的轨道，很容易导致死锁的发生。假设现在有两个线程thread1和thread2，它们都需要获取锁mutex1和mutex2。thread1先获取mutex1，然后尝试获取mutex2；而thread2先获取mutex2，然后尝试获取mutex1。当thread1获取了mutex1之后，thread2获取了mutex2，此时两个线程就会像陷入了一个无法解开的死结，互相等待对方释放自己需要的锁，从而陷入死锁。

以下是具体的代码示例：

#include 
#include 
#include 

std::mutex mutex1;
std::mutex mutex2;

void thread1Function() {
    mutex1.lock();
    std::cout << "Thread 1: Acquired mutex1" << std::endl;
    std::this_thread::sleep_for(std::chrono::seconds(1));
    mutex2.lock();
    std::cout << "Thread 1: Acquired mutex2" << std::endl;
    mutex2.unlock();
    mutex1.unlock();
}

void thread2Function() {
    mutex2.lock();
    std::cout << "Thread 2: Acquired mutex2" << std::endl;
    std::this_thread::sleep_for(std::chrono::seconds(1));
    mutex1.lock();
    std::cout << "Thread 2: Acquired mutex1" << std::endl;
    mutex1.unlock();
    mutex2.unlock();
}

int main() {
    std::thread thread1(thread1Function);
    std::thread thread2(thread2Function);

    thread1.join();
    thread2.join();

    return 0;
}

在这段代码中，thread1Function和thread2Function函数中获取锁的顺序不同，这就像是埋下了一颗定时炸弹，为死锁的发生创造了条件。当两个线程同时运行时，只要它们获取锁的顺序出现不一致，就极有可能出现死锁的情况。

2.2 重复加锁

如果一个线程在已经持有某个锁的情况下，再次尝试获取该锁，而这个锁又不支持重入（即同一个线程多次获取同一把锁），那么就如同自己给自己设置了障碍，必然会导致死锁。例如，在 C++ 中使用std::mutex时，如果一个线程在已经锁定了std::mutex的情况下，再次调用lock方法，就会陷入死锁的困境。因为它无法再次获取已经持有的锁，而其他线程也无法获取该锁，就像一条被堵住的通道，所有线程都无法继续前进，从而导致整个程序陷入停滞。

以下是一个展示重复加锁引发死锁的代码示例：

#include 
#include 
#include 

std::mutex myMutex;

void recursiveFunction(int count) {
    myMutex.lock();
    std::cout << "Entering recursiveFunction, count: " << count << std::endl;
    if (count > 0) {
        recursiveFunction(count - 1);
    }
    myMutex.unlock();
    std::cout << "Exiting recursiveFunction, count: " << count << std::endl;
}

int main() {
    std::thread myThread(recursiveFunction, 3);
    myThread.join();
    return 0;
}

在这个例子中，recursiveFunction函数是递归的，每次调用都会尝试获取myMutex锁。当递归调用时，由于myMutex不支持重入，第二次获取锁时就会被阻塞，导致死锁的发生。就好像一个人走进了一个只有一个入口的迷宫，并且每次进入都把入口堵住，自己出不来，别人也进不去。

2.3 加锁后未解锁

线程获取锁后，正常情况下应该在使用完资源后及时解锁，以便其他线程能够获取锁并访问资源。然而，如果线程获取锁后，由于异常或逻辑错误未能释放锁，就如同一个人占用了公共资源却不归还，其他线程将无法获取该锁，最终导致死锁的发生。

下面是一个线程获取锁后因异常未解锁导致死锁的代码示例：

#include 
#include 
#include 

std::mutex mutex;

void someFunction() {
    mutex.lock();
    std::cout << "Locked the mutex" << std::endl;
    throw std::runtime_error("Something went wrong");
    mutex.unlock();
    std::cout << "Unlocked the mutex" << std::endl;
}

int main() {
    std::thread thread(someFunction);
    thread.join();
    return 0;
}

在这段代码中，someFunction函数在获取锁后，抛出了一个异常。由于异常的抛出，导致mutex.unlock()语句没有被执行，锁没有被释放。这样一来，其他线程如果尝试获取这个锁，就会一直等待，从而引发死锁。这就好比一个人借了别人的东西，却因为突发状况忘记归还，使得其他人无法使用这个东西，造成了资源的浪费和程序的错误运行。

Part3搭建死锁实验场：模拟死锁场景

为了更直观地感受死锁的现象，我们先来搭建一个简单的死锁实验场景。通过编写一段 C++ 代码，故意制造死锁，以便后续使用shell和gdb进行排查。

3.1 死锁代码编写

下面是一段会引发死锁的 C++ 代码：

#include 
#include 
#include 

std::mutex mutex1;
std::mutex mutex2;

void thread1Function() {
    mutex1.lock();
    std::cout << "Thread 1: Acquired mutex1" << std::endl;
    std::this_thread::sleep_for(std::chrono::seconds(1));
    mutex2.lock();
    std::cout << "Thread 1: Acquired mutex2" << std::endl;
    mutex2.unlock();
    mutex1.unlock();
}

void thread2Function() {
    mutex2.lock();
    std::cout << "Thread 2: Acquired mutex2" << std::endl;
    std::this_thread::sleep_for(std::chrono::seconds(1));
    mutex1.lock();
    std::cout << "Thread 2: Acquired mutex1" << std::endl;
    mutex1.unlock();
    mutex2.unlock();
}

int main() {
    std::thread thread1(thread1Function);
    std::thread thread2(thread2Function);

    thread1.join();
    thread2.join();

    return 0;
}

在这段代码中，我们创建了两个线程thread1和thread2，以及两个互斥锁mutex1和mutex2。thread1Function函数中，thread1先获取mutex1，然后休眠 1 秒，再尝试获取mutex2；而thread2Function函数中，thread2先获取mutex2，同样休眠 1 秒，再尝试获取mutex1。这种不同的加锁顺序，就为死锁的发生埋下了隐患。

3.2 编译运行代码

将上述代码保存为deadlock_example.cpp文件，然后使用g++进行编译：

g++ -g -o deadlock_example deadlock_example.cpp -lpthread

这里使用-g选项，是为了在可执行文件中加入调试信息，方便后续使用gdb进行调试。-lpthread选项则是链接线程库，因为我们使用了多线程编程。

编译完成后，运行可执行文件：

./deadlock_example

运行后，你会发现程序输出了 “Thread 1: Acquired mutex1” 和 “Thread 2: Acquired mutex2” 后就陷入了停滞，没有继续执行下去。这就是死锁发生的典型症状，两个线程互相等待对方释放锁，导致程序无法继续推进。

Part4Shell 初登场：进程状态洞察

在怀疑程序出现死锁后，我们首先可以借助shell命令来初步观察进程的状态，获取一些关键信息，为后续深入排查死锁提供线索。

4.1 使用ps aux查看进程概况

ps aux是一个非常实用的shell命令，它可以显示当前系统中所有用户的所有进程的详细信息。通过这个命令，我们可以获取进程的 CPU 使用率（% CPU）、内存使用情况（% MEM）等关键数据。在排查死锁时，这些信息能够帮助我们初步判断进程是否陷入了异常状态。

当我们执行ps aux | grep deadlock_example（假设我们之前编译生成的可执行文件名为deadlock_example），会得到类似下面的输出：

user     12345  0.0  0.1  123456 7890 pts/0    S    12:34   0:00 ./deadlock_example

在这个输出中，%CPU表示进程占用的 CPU 百分比，%MEM表示占用内存的百分比。如果一个进程陷入死锁，它通常无法正常执行任务，CPU 利用率会非常低，甚至接近于 0。同时，由于线程被阻塞，进程可能会保持对某些资源的占用，内存使用情况可能不会有明显变化，但也不会释放已占用的内存。所以，当我们看到一个进程的 CPU 利用率持续处于较低水平，且内存占用没有明显的波动时，就需要警惕死锁的可能性了。

4.2 top -Hp深入线程分析

top命令是一个动态实时查看进程信息的工具，而top -Hp则是top命令的一个强大扩展，它可以深入查看指定进程内每个线程的 CPU 和内存占用情况。这对于我们排查死锁非常有帮助，因为死锁往往发生在线程层面，通过查看线程的状态，我们可以更精确地识别是否存在死锁的迹象。

当我们执行top -Hp （为ps aux命令查找到的进程 ID）时，会进入一个实时更新的界面，显示该进程内各个线程的详细信息，包括线程 ID（PID）、用户（USER）、CPU 使用率（% CPU）、内存使用情况（% MEM）等。

在正常情况下，我们希望看到各个线程都在积极地工作，CPU 使用率有一定的波动，表明线程在执行任务。然而，如果发生死锁，可能会出现一些异常情况。例如，部分线程的 CPU 使用率一直为 0，处于阻塞状态，而同时又有其他线程在尝试获取被阻塞线程持有的资源，导致这些线程也无法继续执行，从而出现活跃线程与阻塞线程的矛盾。如果我们观察到这种情况，就可以进一步确认死锁的可能性，为后续使用gdb进行更深入的调试指明方向。

Part5GDB 大显身手：深度调试定位死锁

通过shell命令初步判断程序可能出现死锁后，接下来就需要借助强大的调试工具gdb进行更深入的分析，精准定位死锁发生的位置。

5.1 gdb attach 附加进程

gdb的attach命令允许我们将调试器附加到一个正在运行的进程上，就像是给正在行驶的汽车安装一个实时监测系统，能够对进程内部的运行状态进行详细的观察和调试。在使用gdb attach之前，我们需要先获取目标进程的 ID（PID），这可以通过前面提到的ps aux命令来完成。

假设我们通过ps aux | grep deadlock_example命令找到了死锁程序的进程 ID 为12345，接下来就可以使用gdb附加到该进程：

gdb -p 12345

执行上述命令后，gdb会暂停目标进程，此时我们就可以使用gdb的各种调试命令来对进程进行分析了。需要注意的是，在生产环境中使用attach命令时要格外小心，因为附加操作可能会导致进程暂停一段时间，影响其正常运行。

5.2 thread apply all bt 查看堆栈

一旦gdb成功附加到进程，我们就可以使用thread apply all bt命令来查看所有线程的堆栈信息。堆栈信息就像是程序运行的 “脚印”，记录了每个线程在执行过程中调用的函数以及函数的参数等重要信息。通过分析这些堆栈信息，我们能够了解每个线程的执行状态，进而找到死锁发生的代码行。

在gdb中执行thread apply all bt命令后，会得到类似下面的输出：

Thread 1 (Thread 0x7ffff7fde700 (LWP 12345)):
#0  0x00007ffff7b31b97 in __lll_lock_wait () from /lib64/libpthread.so.0
#1  0x00007ffff7b2db98 in _L_lock_898 () from /lib64/libpthread.so.0
#2  0x00007ffff7b2d9d0 in __GI___pthread_mutex_lock (mutex=0x555555756040) at pthread_mutex_lock.c:64
#3  0x00005555555556d2 in thread1Function () at deadlock_example.cpp:9
#4  0x00007ffff7b27a0d in start_thread (arg=0x7ffff7fde700) at pthread_create.c:311
#5  0x00007ffff7a0c41f in clone () at ../sysdeps/unix/sysv/linux/x86_64/clone.S:109

Thread 2 (Thread 0x7ffff77dd700 (LWP 12346)):
#0  0x00007ffff7b31b97 in __lll_lock_wait () from /lib64/libpthread.so.0
#1  0x00007ffff7b2db98 in _L_lock_898 () from /lib64/libpthread.so.0
#2  0x00007ffff7b2d9d0 in __GI___pthread_mutex_lock (mutex=0x555555756050) at pthread_mutex_lock.c:64
#3  0x0000555555555772 in thread2Function () at deadlock_example.cpp:16
#4  0x00007ffff7b27a0d in start_thread (arg=0x7ffff77dd700) at pthread_create.c:311
#5  0x00007ffff7a0c41f in clone () at ../sysdeps/unix/sysv/linux/x86_64/clone.S:109

在这个输出中，每一行都代表了一个函数调用，#0表示当前线程正在执行的函数，从#0往上依次是调用当前函数的其他函数。通过观察这些堆栈信息，我们可以看到线程1和线程2都卡在了__GI___pthread_mutex_lock函数处，并且它们等待的互斥锁不同（0x555555756040和0x555555756050），这就是死锁发生的关键线索。结合代码行号（deadlock_example.cpp:9和deadlock_example.cpp:16），我们可以进一步定位到死锁发生的具体代码位置。

5.3 info threads 辅助分析

除了thread apply all bt命令，info threads命令也是我们在调试多线程程序时的得力助手。info threads命令可以列出所有线程的状态和索引，方便我们逐个分析每个线程的情况。

在gdb中执行info threads命令后，会得到如下输出：

  Id   Target Id         Frame
  2    Thread 0x7ffff77dd700 (LWP 12346) "deadlock_example" 0x00007ffff7b31b97 in __lll_lock_wait () from /lib64/libpthread.so.0
* 1    Thread 0x7ffff7fde700 (LWP 12345) "deadlock_example" 0x00007ffff7b31b97 in __lll_lock_wait () from /lib64/libpthread.so.0

在这个输出中，Id列表示线程的索引，Target Id包含了线程的 LWP（轻量级进程 ID）和线程的名称，Frame则显示了线程当前所处的函数位置。通过info threads命令，我们可以快速了解每个线程的大致状态。

如果我们对某个线程特别关注，可以使用thread <线程ID>命令切换到该线程，然后再使用bt命令查看其具体的堆栈信息。例如，要查看线程2的堆栈信息，可以执行以下操作：

(gdb) thread 2
[Switching to thread 2 (Thread 0x7ffff77dd700 (LWP 12346))]
#0  0x00007ffff7b31b97 in __lll_lock_wait () from /lib64/libpthread.so.0
(gdb) bt
#0  0x00007ffff7b31b97 in __lll_lock_wait () from /lib64/libpthread.so.0
#1  0x00007ffff7b2db98 in _L_lock_898 () from /lib64/libpthread.so.0
#2  0x00007ffff7b2d9d0 in __GI___pthread_mutex_lock (mutex=0x555555756050) at pthread_mutex_lock.c:64
#3  0x0000555555555772 in thread2Function () at deadlock_example.cpp:16
#4  0x00007ffff7b27a0d in start_thread (arg=0x7ffff77dd700) at pthread_create.c:311
#5  0x00007ffff7a0c41f in clone () at ../sysdeps/unix/sysv/linux/x86_64/clone.S:109

通过这种方式，我们可以更细致地分析每个线程的执行情况，进一步确定引发死锁的代码部分。

汤科资源网

Linux C++编程:Shell+GDB死锁调试实战