简体中文

base64
编码

关于 Base64 的所有知识

深入了解 Base64 编码的世界。学习它的历史、工作原理、使用场景和局限性。对于每个处理数据编码和传输的开发者来说，这都是必备知识。

Yijun

Developer

8/8/2024

不要在用户认证上浪费数周时间

使用 Logto 更快地发布安全应用。几分钟内集成用户认证，专注于您的核心产品。

立即开始

在软件开发的世界中，Base64 是一个经常被提到但不一定被完全理解的概念。无论你是这个领域的新手还是经验丰富的开发者，深入理解 Base64 都可以帮助你轻松处理数据编码和传输问题。让我们一起探索 Base64 的方方面面，从它的定义和起源到实际应用和使用注意事项。

什么是 Base64？

Base64 是一种编码方法，它使用 64 个可打印字符来表示二进制数据。这 64 个字符包括：

A-Z，a-z，0-9（62 个字母和数字）
+ 和 /（2 个特殊字符）
=（用于填充）

在我们日常的开发工作中，Base64 随处可见。你可能在以下场景中遇到过它：

在 HTML 中嵌入小的图像或图标
在 API 响应中传输二进制数据
编码电子邮件附件

例如，你可能见过类似的 HTML 代码：

这里那个长长的字符串是一个用 Base64 编码的小图像。

为什么使用 Base64？

要理解 Base64 存在的原因，我们需要回顾计算机发展的早期历史。

在早期的计算机网络中，大多数系统只能处理可打印的 ASCII 字符。ASCII 编码只使用 7 位二进制数据，代表 128 个字符。这在处理英文文本时还算可以，但在传输二进制数据（如图像或音频文件）时就会产生问题。

不同的系统可能会对某些控制字符进行不同的解释，这可能会在传输过程中破坏数据。例如，有些系统可能会把换行符从 LF（换行）改为 CR（回车）+ LF，这对二进制数据来说将是灾难性的。

为了解决这个问题，人们开始寻找一种方法，将任意的二进制数据转换为可以安全传输的字符。这就是 Base64 编码的由来。

事实上，在 Base64 之前，还有 Base16（使用 16 个字符）和 Base32（使用 32 个字符）编码方法。然而，Base64 成为最广泛使用的编码方法，因为它在编码效率和实用性之间找到了最佳平衡。

Base64 编码的工作原理

Base64 的核心思想是将 3 字节（24 位）的二进制数据编码为 4 个可打印字符。

让我们通过一个具体的例子来理解这个过程。

假设我们要编码字符串 "Logto"：

首先，我们将 "Logto" 转换为 ASCII 码：

L：76 (01001100)
o：111 (01101111)
g：103 (01100111)
t：116 (01110100)
o：111 (01101111)

我们将这些二进制数字连接起来（共 5 字节，40 位）： 0100110001101111011001110111010001101111
我们将这些二进制数字分成 6 位一组（注意最后一组只有 4 位）： 010011 | 000110 | 111101 | 100111 | 011101 | 000110 | 1111
由于最后一组只有 4 位，我们需要在末尾加两个 0 来使其成为 6 位： 010011 | 000110 | 111101 | 100111 | 011101 | 000110 | 111100
我们将每个 6 位组转换为十进制： 19 | 6 | 61 | 39 | 29 | 6 | 60
根据 Base64 编码表，我们将这些数字转换为相应的字符： T | G | 9 | n | d | G | 8
最后，由于 Base64 编码总是将 3 字节（24 位）二进制数据编码为 4 个可打印字符，并且 "Logto" 转换为二进制后为 5 字节，前 3 字节被编码为 TG9n，最后 2 字节被编码为 dG8。因此，我们需要在末尾加一个 = 作为填充字符。

因此，"Logto" 的 Base64 编码结果是 TG9ndG8=。

在 Node.js 中，我们可以这样生成 Base64 编码：

这个例子演示了 Base64 编码的几个重要特性：

每 3 字节的输入会产生 4 个字符的输出。
当输入字节数不是 3 的倍数时，会使用填充字符 "="。在这个例子中，我们有 5 个输入字节，产生了 7 个 Base64 字符和 1 个填充字符。
填充字符的数量可以告诉我们原始数据的确切字节数：
- 无填充：原始数据是 3 字节的倍数
- 1 个 =：在编码前原始数据中增加了 2 个零位
- 2 个 =：在编码前原始数据中增加了 4 个零位

何时以及为什么使用 Base64

Base64 在以下场景中特别有用：

在 HTML 中嵌入小的二进制数据（例如小图像或图标）
在只能传输文本的协议中传输二进制数据
在对特殊字符有限制的系统中传输数据
简单的数据混淆（注意：这不是加密！）

使用 Base64 的主要优点是：

良好的跨平台兼容性：Base64 编码的数据可以在任何支持 ASCII 的系统中正确解析
在某些情况下可以提高传输效率：例如，当传输的数据包含大量重复的二进制模式时

除标准 Base64 外，还有一些值得了解的变种：

URL 安全 Base64：将 + 替换为 -，将 / 替换为 _，并去除 =。这种编码可以直接用于 URL 中，无需额外编码。

Base64 的局限性和注意事项

虽然 Base64 很有用，但它也有一些局限性：

数据膨胀：Base64 编码会将数据量增加约 33%。对于大量数据，这会导致显著的存储和带宽开销。
性能影响：编码和解码过程需要占用 CPU 时间。对于大量数据或高频操作，这可能成为性能瓶颈。
安全性误解：许多人错误地认为 Base64 是一种加密形式。事实上，Base64 只是编码，可以很容易被解码。不要用它来保护敏感信息！
可读性：Base64 编码的数据是不可读的，这会使调试变得困难。

在大型应用中使用 Base64 时，请考虑以下优化策略：

只对必要的数据进行 Base64 编码
考虑使用专门的 Base64 编码/解码库，它们通常比通用库更高效
在客户端执行 Base64 编码/解码，以减少服务器负载

结论

Base64 是一个简单而强大的工具，当在合适的场景下使用时，它可以解决很多问题。理解其工作原理、适用场景和局限性，可以帮助你在软件开发中做出更明智的决策。希望本文能帮助你全面理解 Base64，从而更轻松地处理相关问题。

记住，像所有技术工具一样，关键是在合适的时间和场合使用 Base64。祝你编程之旅顺利！

免费试用 Logto 云

什么是 Base64？#

为什么使用 Base64？#

Base64 编码的工作原理#

何时以及为什么使用 Base64#

Base64 的局限性和注意事项#

结论#

什么是 Base64？

为什么使用 Base64？

Base64 编码的工作原理

何时以及为什么使用 Base64

Base64 的局限性和注意事项

结论