专业篇|短网址研究及应用

2016年10月10日来源:980短网址原创分类:短网址阅读(46评论(0

  在互联网 Web3.0 以后,社交媒体等对消息体有严格的“短小”要求,长网址已经无法适应和满足用户体验的要求。短网址应运而生。

短网址服务

  从技术原理上看,短网址 服务的实现相对简单,将一个长的原始 URL 地址,使用某种映射规则(算法),变成一个相对短的代码,然后使用该短代码附加在某个较短的域名后面,即构成短网址服务。

  如有长网址,http://ganmall.com.cn/h/cat_1005_1036_3_0.html (46 字符)

  使用155短网址服务缩短后变成,http://155.so/1m0TtO (20 字符)

  使用980.so的短网址服务缩短后变成, http://980.so/18ho(18 字符)

  这样简缩之后的短网址用在社交网络能够满足 140以下的字数要求,如果用在内容出版上,也会节省版面。由于使用广泛且实现相对简单,网络上有很多短网址服务,据统计已超过 610 种,如新浪,腾讯和网易等都有短网址服务。

  1、短网址的技术实现

  短址本质上是实现了一个映射函数 f: X -> Y 。 这个映射函数具有两个特点:如果 x1 != X2,则 f (x1)! = f(x2) ;对于每一个 y, 能够找到唯一的一个 x 使得 f(x) = y。短网址编码在技术实现上主要有三种方式:使用数据 库顺序记录映射关系、规定算法实现直接映射和随机生成ID。

  2、短网址使用算法直接映射

  使用算法直接将长网址映射到生成的短网址编码上的做法,不需要处理自增长的 ID 记录——无论长网址的 数量增加到多少,使用该种算法所生成的短网址代码的长度总是一致的。比如网上常见的一种短网址代码的算法:

  ①将长网址用 MD5 算法生成 32 位特征码,将其分 为 4 段,每段 8 个字符;

  ②对这 4 段循环处理,取每段 的 8 个字符, 将他看成 16 进制字符串与 0x3FFFFFFF(30 位 1) 做位与操作,超过 30 位的忽略不计;

  ③将每段得到的这 30 位又分成 6 小段,每段 5 位的数字作为字母表 的索引取得特定字符(2 的 5 次方,32 进制),依次进 行获得 6 位字符串;

  ④这样一个 MD5 字符串可以获得 4个 6 位字符串,取里面的任意一个就可作为这个长网址的短网址代码。这样就无需关心由自增形成的 ID 号的处理。但显然,这种方式的地址表达空间是有限的。

  由此可知,这种方式最大只能表达 10 亿个长网址,超出则会发生冲突而出错。由于转换过程中丢失了 2 位, 后续又是从四个代码中随机选取,实际发生冲突的概率应该远小于 10 亿——这对于现在的互联网来说,是不能满足需求的。根据数据统计,谷歌 2012 年已经抓取了超过 500 亿个页面(-R/82SI)。

  3、短网址数据库顺序记录

  这种方式是使用数据库存储长、短网址的映射关系,根据长记录的存储先后,每存入一条长记录,则对应的 生成一个 ID 号。为了更加简短,需要将该10进制的 ID 号进行更高进制的转换,比如使用 16、32、36、62 进制 等,从而使得地址编码更加简短。从现有各个短网址服 务地址形式看,多数使用了 62 进制,也即编码字符的集 合为 {0 9, a z, A Z} 。

  数据库记录方式,是目前的主流应用形式,其难点是对唯一 ID 号的分配、使用和回收等。如果再加上自定 义地址编码,则系统负载性进一步增加。另外,需要处 理的是 ID 是与日俱增的,在系统早期的短网址相对较短, 随着时间的推移及所存储的长网址数量不断增加,可能所生成的短网址不再“短小”。

  4、短网址主要用途及优势

  短网址是由于表达空间受限而产生的服务,因此其明显的优势就是短小、简练。短网址的主要用途是在社交网络中的消息体中承担更多内容入口的功能。

  另外,在出版内容中(如书籍、报告等)的地址,应该较为短小、简练, 在不会因为超长的链接影响阅读的同时,还能够节省版面,进而节省印刷纸张油墨,在线出版亦会节约存储空间和传输字节。在下列这些方面,短网址也大有用途。

  ① 在 HTML 页面的索引页,如首页、二级页面,充 满了链接的页面,如果使用短网址代替长网址,则页面的尺寸也会随之降低(-R/H2SJ);

  ② 在使用二维码时,短网址生成的二维码具有更高的扫描效率;

  ③ 短网址可以在地址中裹带不可移除的渠道 ID、 推广 ID 等;

  ④ 对私有网络,只有 IP 地址没有域名或者在 URL 中含有特殊端口号(非 80 端口),使用短网址能够很好 地封装起来;

  ⑤ 应用层流量分发,起到 CDN 作用,可以根据流 量计负载情况在短网址解析时将流量分发到不同的地方。 在研究人员在日本大地震之后,研究人员使用短网址分发海量请求的技术应用。

  5、短网址随机生成 ID

  是以980.so为代表的,其短网址 ID 的生成,既不是数据表中记录的自动增长,也不是通过算法与长网址直接映射,而是在一定范围内随机生成(-R/02SN),然后在已有的记录表中进行挑重,如果没有使用则赋值给当前长网址,如有重复,则再随机出一个来,循此往复直至找到一个新的。

  这种方式明显的好处是无法预知下一个 ID 是多少; 不足的是需要很大的计算量能够在生成新短网址时的查重工作。980短网址的 980.so 推出在业界产生一些影响。是为网民提供一个可靠、安全和高速的地址压缩服务(-R/ X2SI)。

  据 980.so 的数据(-R/X2SI),该服务已经为超过 40 亿个长网址提供简缩服务。


标签: 短网址

上一篇:短网址服务的历史由来

下一篇:短网址优缺点及发展前景,你了解多少?

精彩评论
评论
热门文章
980安全专家教您认识短链接安全
防护恶意网址用短链接欺骗的对策
对付恶意短链接我有妙招
蓝瘦、香菇,每天和短链接技术打交道
短信利用短网址撬动移动营销市场
文章归档
2016年12月
2016年11月
2016年10月
2016年09月
2016年07月
2016年06月
热门标签
短网址
短链接
网址缩短
短网址服务
短网址应用
短网址营销
短网址生成
缩短网址
短链接生成
短网址还原
短网址检测法
自定义短网址