2022
我们一起努力

Mysql百万量级数据高效导入Redis

(star ImportNew,提升Java技能)

来源:厦门的养成日记/黄云泉(本文来自作者投稿)

随着系统的运行,数据量越来越大。简单的将数据存储在mysql中已经不能满足查询需求了。这时候我们引入Redis作为查询缓存层,将业务中的热点数据保存到Redis中。,扩展传统关系型数据库的服务能力,用户可以通过应用快速从Redis获取常用数据mssql 数据库导入,或者在交互式应用中使用Redis保存活跃的用户会话,可以大大降低后端关系型数据库的负载,提高用户经验。

传统命令的缺点

使用传统的redis客户端命令在导入大量数据的场景下存在以下缺陷:

由于redis是单线程模型,虽然避免了多线程下线程切换的时间,单条命令执行速度很快,但是在大规模数据导入的场景下,发送命令的时间而接收服务器响应结果所花费的时间会被放大。

如果需要导入100万条数据,光是命令执行时间就需要100万 * (t1 + t2)。

除了一条一条发送命令,当然redis的设计肯定会考虑到这个问题,所以管道模式就出现了。

但是流水线在命令行上不可用,所以我们需要编写新的处理代码来接收批量响应。但是只有少数客户端代码支持,比如php-redis的扩展不支持异步。

pipelining管道模式实际上减少了TCP连接的交互时间。执行一批命令后,一次性发送结果。

实现原理是使用FIFO(先进先出)队列来保证数据的顺序。

只有一小部分客户端支持非阻塞 I/O,并且并非所有客户端都能够以有效的方式解析回复以最大化吞吐量。

由于这些原因mssql 数据库导入,将大量数据导入Redis的首选方法是生成包含Redis协议数据的格式并分批发送。

将数据导入 Redis 进行预热

使用nc命令导入数据

nc是netcat的缩写,nc的作用是:

1、实现任意TCP/UDP端口的监听。添加-l参数后,nc可以作为服务器以TCP或UDP方式监听指定端口

2.端口扫描,nc可以作为客户端发起TCP或UDP连接

3.机器之间传输文件

4.机器间网络测速

使用管道模式导入数据

但是,使用 nc 监听并不是执行大数据导入的可靠方法,因为 netcat 并不真正知道所有数据何时传输完毕,也无法检查错误。在 Redis 2.6 或更高版本中,redis-cli 脚本支持一种称为管道模式的新模式,该模式旨在执行大规模插入。使用管道模式的命令运行如下:

从上图中可以看到pipe命令的返回结果,txt文件中有多少行命令,以及返回的回复数量,errors表示执行错误的命令数量。

redis协议学习

协议格式为:

*<参数数量>  \r\n
$<参数 1 的字节数量> \r\n
<参数 1 的数据> \r\n
...
$<参数 N 的字节数量> \r\n
<参数 N 的数据> \r\n

例如:插入一段哈希类型的数据。

HSET  id  book1  book_description1	

按照Redis协议,一共有4个部分,所以开头是*4,其余解释如下:

注意:HSET 命令本身也作为协议的参数之一发送。

构建的协议数据结构:

*4\r\n$4\r\nHSET\r\n$2\r\nid\r\n$5\r\nbook1\r\n$17\r\nbook_description1\r\n

格式化一下:

*4\r\n
$4\r\n
HSET\r\n
$2\r\n
idvvvv\r\n
$5\r\n
book1\r\n
$17\r\n
book_description1\r\n

RESP协议批量

Redis 客户端使用称为 RESP(Redis 序列化协议)的协议与 Redis 服务器通信。

redis-cli管道方式需要和nc命令一样快,解决nc命令不知道命令什么时候结束的问题。

在发送数据时,它还会读取响应并尝试解析它。

一旦输入流中不再读取数据,它将发送一个特殊的 20 位回显命令,表示最后一个命令已发送。如果响应结果中匹配到相同的数据,则说明该批次发送成功。

使用这个技巧,我们不需要解析发送到服务器的协议来知道我们发送了多少命令,只需要回复。

在解析response的时候,redis会对解析出来的response进行统计,最后通过大量的i​​nsert session告诉用户向服务器发送的命令数量。也就是上面使用pipe模式实际运行的响应结果。

更改输入数据源为mysql

在上面的例子中,我们使用一个txt文本作为输入数据源,使用管道方式导入数据。

基于对上述协议的学习和理解,我们只需要把mysql中的数据按照既定的协议通过管道方式导入到Redis中即可。

实战案例--Mysql百万数据导入Redis

先创建数据

由于环境限制,这里没有使用真实数据导入,所以我们先用一个存储过程创建一百万条数据。使用存储过程如下:

DELIMITER $$
USE `cb_mon`$$

DROP PROCEDURE IF EXISTS `test_insert`$$
CREATE DEFINER=`root`@`%` PROCEDURE `test_insert`()
BEGIN

DECLARE i INT DEFAULT 1;
WHILE i<= 1000000
DO
INSERT INTO t_book(id,number,NAME,descrition)
VALUES (i, CONCAT("00000",i) , CONCAT('book',i)
, CONCAT('book_description',i))
;
SET i=i+1;
END WHILE ;
COMMIT;
END$$

DELIMITER ;

调用存储过程

CALL test_insert();

查看表数据:

通过协议构建查询语句

根据上面的redis协议,我们使用如下sql来构造协议数据:

SELECT
CONCAT(
"*4\r\n",
"$",
LENGTH(redis_cmd)
,
"\r\n",
redis_cmd,
"\r\n",
"$",
LENGTH(redis_key),
"\r\n",
redis_key,
"\r\n",
"$",
LENGTH(hkey),
"\r\n",
hkey,
"\r\n",
"$",
LENGTH(hval),
"\r\n",
hval,
"\r"
)
FROM
(SELECT
"HSET" AS redis_cmd,
id AS redis_key,
NAME AS hkey,
descrition AS hval
FROM
cb_mon.t_book
)
AS t limit 1000000

并将内容保存到redis.sql文件中。

编写脚本使用管道方式导入redis

编写 shell 脚本。由于我在宿主机上通过docker安装了redis和mysql,以下脚本供参考:

#!/bin/bash
starttime=`date +'%Y-%m-%d %H:%M:%S'`

docker exec -i 899fe01d4dbc mysql --default-character-set=utf8
--skip-column-names --raw < ./redis.sql
| docker exec -i 4c90ef506acd redis-cli --pipe

endtime=`date +'%Y-%m-%d %H:%M:%S'`
start_seconds=$(date --date="$starttime" +%s);
end_seconds=$(date --date="$endtime" +%s);

echo "脚本执行耗时:"$((end_seconds-start_seconds))"s"

执行截图:

可以看到百万数据导入redis只需要7秒,效率很高。

预防措施

如果mysql表特别大,可以考虑分批导入,或者分表,否则在导入过程中可能会出现:

lost connection to mysql server during query

由于max_allowed_pa​​cked和超时限制,在查询数据的过程中可能会断开连接。所以当数据表的数据量特别大的时候,需要分页或者分表导入。

总结

本文主要讨论如何在Mysql百万级数据级别下高效迁移到Redis。在逐步实现目标的过程中,总结了以下几点:

1、Redis单线程执行命令,避免了线程切换消耗的时间,但是在超大数据层面,发送和接收响应的延迟是不容忽视的。

2. network nc命令的应用场景,以及数据导入方面的不足。

3、redis RESP协议的理解和应用。

4、Redis快速导入百万级Mysql数据案例。

赞(0)
文章名称:《Mysql百万量级数据高效导入Redis》
文章链接:https://www.fzvps.com/56536.html
本站文章来源于互联网,如有侵权,请联系管理删除,本站资源仅供个人学习交流,请于下载后24小时内删除,不允许用于商业用途,否则法律问题自行承担。
图片版权归属各自创作者所有,图片水印出于防止被无耻之徒盗取劳动成果的目的。

评论 抢沙发

评论前必须登录!