您当前的位置: 首页 > 

君子居易

暂无认证

  • 0浏览

    0关注

    210博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

Protobuf详解

君子居易 发布时间:2020-12-30 14:50:00 ,浏览量:0

Protobuf介绍

Protocol Buffers 是一种轻便高效的结构化数据存储格式,可以用于结构化数据串行化,或者说序列化。它很适合做数据存储或 RPC 数据交换格式。可用于通讯协议、数据存储等领域的语言无关、平台无关、可扩展的序列化结构数据格式,被广泛应用在网络传输

Protobuf编码原理
  • Message Buffer Message Buffer是指protobuf序列化后的二进制文件格式如下: 如图所示,消息经过序列化后会成为一个二进制数据流,该流中的数据为一系列的 Key-Value。protobuf采用Varint编码、ZigZag编码技术,使得这种Key-Pair 结构无需使用分隔符来分割不同的 Field。对于可选的 Field,如果消息中不存在该 field,那么在最终的 Message Buffer 中就没有该 field,这些特性都有助于节约消息本身的大小,protobuf利用巧妙的编码技术,压缩传输的字节数,可大大的提升网络传输效率
  • Varint编码

    • 原理介绍 varint是一种对数字进行编码的方案,编码后的数据是不定长的,值越小的数字使用越小的字节数,编码后的一般占在1~5个字节。最高位表示是否继续,继续是1,代表后面7位仍然表示数字,否则为0,后面7位用原码补齐,小字节序
    • 小试牛刀 400对应的二进制为00000001 10010000(原码)
    1. 每个字节保留后7位,去掉最高位,有效编码向前移动,生成编码如:0000011 0010000
    2. 因为protobuf使用的是小字节序,所以要把低位字节写到高字节,最后一个字节高位补0,其余各字节高位补1,生成编码如:10010000 0000011
    • Varint编码缺点 计算机在表示负数的时候,最高位是1,导致使用varint编码的时候,会当作很大的整数处理,从而导致浪费资源,为了解决该问题,protobuf编码引入zigzag编码
  • ZigZag编码

    • 原理介绍 Zigzag 编码用无符号数来表示有符号数字,正数和负数交错,如图所示: 使用 zigzag 编码,绝对值小的数字,无论正负都可以采用较少的 byte 来表示,充分利用了 Varint 这种技术。在实际使用过程中,先用zigzag编码后,再对编码后的数据进行varint编码,可以节省很大的空间
  • 字符串类型 字符串等则采用类似数据库中的 varchar 的表示方法,即用一个 varint 表示长度,然后将其余部分紧跟在这个长度部分之后即可

  • key的计算方式

    • wireType

    • 源码展示

      1
      2
      3
      4
      
      static int (final int fieldNumber, final int wireType) {
          return (fieldNumber             
关注
打赏
1660814979
查看更多评论
立即登录/注册

微信扫码登录

0.0366s