本文共 1831 字,大约阅读时间需要 6 分钟。
bug描述
这是5.6中和gtid相关的一个bug,当 mysqld 收到 sighup 信号 (比如 kill -1) 的时候,会 flush binlog,但是新生成binlog开头没写 Previous_gtids_log_event,这会导致下面 2 个问题:
The binary log file 'mysql/mysql-bin.000020' is logically corrupted: The first global transaction identifier was read, but no other information regarding identifiers existing on the previous log files was found.
Last_IO_Error: Got fatal error 1236 from master when reading data from binary log: 'Error reading header of binary log while looking for the oldest binary log that contains any GTID that is not in the given gtid set'
bug 分析
mysqld 在收到 sighup 信号后,signal_hand 线程会调用 reload_acl_and_cache 函数 (sql_reload.cc),最终会调用 MYSQL_BIN_LOG::open_binlog,open_binlog 有这段逻辑:
signal_hand 没有调用 store_globals 设置 THR_THD 这个key,所以这个时候 current_thd 得到的值是空的,因此prev_gtids_event 也就不会写进新binlog中的。
2个问题的分析
mysqld 在启动的时候会通过 mysql_bin_log.init_gtid_sets 来初始化 gtid_executed 和 gtid_purged 2个set,初使化 gtid_executed 时,会读最新的binlog,将文件开头 Previous_gtids_log_event 的 gtid set 和文件里所有的 gtid_event 加起来,放进 gtid_executed,在读文件过程中,如果发现没有 Previous_gtids_log_event ,就报错,程序退出。
在gtid协议下,主库向备库发 binlog 是用 com_binlog_dump_gtid 函数,这个函数会调到 MYSQL_BIN_LOG::find_first_log_not_in_gtid_set(),这个函数的作用是找到备库需要的第一个 binlog 文件,逻辑是这样的,从编号最大的binlog 往前找,对每个binlog,读取 Previous_gtids_log_event,如果发现这个集合是备库的发来的 gtid_set 的子集,就停止,当前这个binlog文件就是备库需要的第一个binlog文件。找的过程中,如果发现没有 Previous_gtids_log_event,就把错误信息 ER_MASTER_FATAL_ERROR_READING_BINLOG 发给备库。
问题的解决方法
这个bug官方已经修复,具体可以参考 revno: 。
修复方法类似reload_acl_and_cache 中 REFRESH_GRANT 的逻辑,生成一个临时的 THD 作为 current_thd,在flush logs 完后释放掉。
转载地址:http://nvdfx.baihongyu.com/