Mysql百万量级数据高效导入Redis-枫舟驿站

(star ImportNew，提升Java技能)

来源：厦门的养成日记/黄云泉（本文来自作者投稿）

随着系统的运行，数据量越来越大。简单的将数据存储在mysql中已经不能满足查询需求了。这时候我们引入Redis作为查询缓存层，将业务中的热点数据保存到Redis中。，扩展传统关系型数据库的服务能力，用户可以通过应用快速从Redis获取常用数据mssql 数据库导入，或者在交互式应用中使用Redis保存活跃的用户会话，可以大大降低后端关系型数据库的负载，提高用户经验。

传统命令的缺点

使用传统的redis客户端命令在导入大量数据的场景下存在以下缺陷：

由于redis是单线程模型，虽然避免了多线程下线程切换的时间，单条命令执行速度很快，但是在大规模数据导入的场景下，发送命令的时间而接收服务器响应结果所花费的时间会被放大。

如果需要导入100万条数据，光是命令执行时间就需要100万 * (t1 + t2)。

除了一条一条发送命令，当然redis的设计肯定会考虑到这个问题，所以管道模式就出现了。

但是流水线在命令行上不可用，所以我们需要编写新的处理代码来接收批量响应。但是只有少数客户端代码支持，比如php-redis的扩展不支持异步。

pipelining管道模式实际上减少了TCP连接的交互时间。执行一批命令后，一次性发送结果。

实现原理是使用FIFO（先进先出）队列来保证数据的顺序。

只有一小部分客户端支持非阻塞 I/O，并且并非所有客户端都能够以有效的方式解析回复以最大化吞吐量。

由于这些原因mssql 数据库导入，将大量数据导入Redis的首选方法是生成包含Redis协议数据的格式并分批发送。

将数据导入 Redis 进行预热

使用nc命令导入数据

nc是netcat的缩写，nc的作用是：

1、实现任意TCP/UDP端口的监听。添加-l参数后，nc可以作为服务器以TCP或UDP方式监听指定端口

2.端口扫描，nc可以作为客户端发起TCP或UDP连接

3.机器之间传输文件

4.机器间网络测速

使用管道模式导入数据

但是，使用 nc 监听并不是执行大数据导入的可靠方法，因为 netcat 并不真正知道所有数据何时传输完毕，也无法检查错误。在 Redis 2.6 或更高版本中，redis-cli 脚本支持一种称为管道模式的新模式，该模式旨在执行大规模插入。使用管道模式的命令运行如下：

从上图中可以看到pipe命令的返回结果，txt文件中有多少行命令，以及返回的回复数量，errors表示执行错误的命令数量。

redis协议学习

协议格式为：

*<参数数量>  \r\n
$<参数 1 的字节数量>  \r\n
<参数 1 的数据> \r\n
...
$<参数 N 的字节数量> \r\n
<参数 N 的数据> \r\n

例如：插入一段哈希类型的数据。

HSET  id  book1  book_description1

按照Redis协议，一共有4个部分，所以开头是*4，其余解释如下：

注意：HSET 命令本身也作为协议的参数之一发送。

构建的协议数据结构：

*4\r\n$4\r\nHSET\r\n$2\r\nid\r\n$5\r\nbook1\r\n$17\r\nbook_description1\r\n

格式化一下：

*4\r\n
$4\r\n
HSET\r\n
$2\r\n
idvvvv\r\n
$5\r\n
book1\r\n
$17\r\n
book_description1\r\n

RESP协议批量

Redis 客户端使用称为 RESP（Redis 序列化协议）的协议与 Redis 服务器通信。

redis-cli管道方式需要和nc命令一样快，解决nc命令不知道命令什么时候结束的问题。

在发送数据时，它还会读取响应并尝试解析它。

一旦输入流中不再读取数据，它将发送一个特殊的 20 位回显命令，表示最后一个命令已发送。如果响应结果中匹配到相同的数据，则说明该批次发送成功。

使用这个技巧，我们不需要解析发送到服务器的协议来知道我们发送了多少命令，只需要回复。

在解析response的时候，redis会对解析出来的response进行统计，最后通过大量的insert session告诉用户向服务器发送的命令数量。也就是上面使用pipe模式实际运行的响应结果。

更改输入数据源为mysql

在上面的例子中，我们使用一个txt文本作为输入数据源，使用管道方式导入数据。

基于对上述协议的学习和理解，我们只需要把mysql中的数据按照既定的协议通过管道方式导入到Redis中即可。

实战案例--Mysql百万数据导入Redis

先创建数据

由于环境限制，这里没有使用真实数据导入，所以我们先用一个存储过程创建一百万条数据。使用存储过程如下：

DELIMITER $$
USE `cb_mon`$$

DROP PROCEDURE IF EXISTS `test_insert`$$
CREATE DEFINER=`root`@`%` PROCEDURE `test_insert`()
BEGIN

        DECLARE i INT DEFAULT 1;
        WHILE i<= 1000000
            DO
            INSERT INTO t_book(id,number,NAME,descrition)
            VALUES (i, CONCAT("00000",i) , CONCAT('book',i)
            , CONCAT('book_description',i));
            SET i=i+1;
        END WHILE ;
        COMMIT;
    END$$

DELIMITER ;
调用存储过程

CALL test_insert();

查看表数据：

通过协议构建查询语句

根据上面的redis协议，我们使用如下sql来构造协议数据：

SELECT
  CONCAT(
    "*4\r\n",
    "$",
    LENGTH(redis_cmd),
    "\r\n",
    redis_cmd,
    "\r\n",
    "$",
    LENGTH(redis_key),
    "\r\n",
    redis_key,
    "\r\n",
    "$",
    LENGTH(hkey),
    "\r\n",
    hkey,
    "\r\n",
    "$",
    LENGTH(hval),
    "\r\n",
    hval,
    "\r"
  )
FROM
  (SELECT
    "HSET" AS redis_cmd,
    id AS redis_key,
    NAME AS hkey,
    descrition AS hval
  FROM
    cb_mon.t_book
  ) AS t limit 1000000

并将内容保存到redis.sql文件中。

编写脚本使用管道方式导入redis

编写 shell 脚本。由于我在宿主机上通过docker安装了redis和mysql，以下脚本供参考：

#!/bin/bash
starttime=`date +'%Y-%m-%d %H:%M:%S'`

docker exec -i 899fe01d4dbc mysql --default-character-set=utf8
--skip-column-names --raw < ./redis.sql
| docker exec -i 4c90ef506acd redis-cli --pipe

endtime=`date +'%Y-%m-%d %H:%M:%S'`
start_seconds=$(date --date="$starttime" +%s);
end_seconds=$(date --date="$endtime" +%s);

echo "脚本执行耗时："$((end_seconds-start_seconds))"s"

执行截图：

可以看到百万数据导入redis只需要7秒，效率很高。

预防措施

如果mysql表特别大，可以考虑分批导入，或者分表，否则在导入过程中可能会出现：

lost connection to mysql server during query

由于max_allowed_packed和超时限制，在查询数据的过程中可能会断开连接。所以当数据表的数据量特别大的时候，需要分页或者分表导入。

总结

本文主要讨论如何在Mysql百万级数据级别下高效迁移到Redis。在逐步实现目标的过程中，总结了以下几点：

1、Redis单线程执行命令，避免了线程切换消耗的时间，但是在超大数据层面，发送和接收响应的延迟是不容忽视的。

2. network nc命令的应用场景，以及数据导入方面的不足。

3、redis RESP协议的理解和应用。

4、Redis快速导入百万级Mysql数据案例。

Mysql百万量级数据高效导入Redis

相关推荐

评论抢沙发

评论前必须登录！

互动交流中心

热门文章

热门标签

网站统计