大师兄

09 | 外存管理与文件系统

你好,我是七牛云许式伟。

在 “07 | 软件运行机制及内存管理”中,我们已经聊了内存管理,这一讲我们聊聊外置存储设备的管理。

外存的分类

计算机有非常多样化的外置存储设备,比如:磁带、光盘、硬盘、U盘、SSD 等等。外置存储设备的种类是不可穷尽的。随着科技的发展,新的存储设备会不断涌现,有着更低的单位能耗(存储量/每日能源消耗成本),更低的单位存储成本(存储量/可存储的时间/设备价格),或者更高的访问性能。

但不管这些存储设备内部如何存储数据的原理怎么变,改变的主要是质量,而不是它的功能。对操作系统来说,管理它们的方式是非常一致的。这些外置存储设备依据其功能特性不同,简单可以分为如下三类。

  • 顺序读写型。如:磁带。
  • 随机只读型。更准确说是单次完整写入多次读取型,也就是每次写数据都是整个存储介质一次性完整写入数据。如:光盘(含可擦写光盘)。
  • 随机读写型。如:软盘、硬盘、U盘、SSD 等等。

顺序读写型的外置存储(如磁带)我们日常并不常见,它的主要应用场景是归档,也就是数据备份。今天我们略过不提。

随机只读型的外置存储(如光盘)我们日常有较多应用,常见的应用场景是资料分发和归档。资料发布的内容很广泛,比如:软件、娱乐媒体包括电影、MTV、音乐等等。

随机读写型的外置存储最为常见,我们今天在所有“能够称得上叫电脑”的设备上,无论是PC、笔记本、手机,还是手表、汽车,随处可见它们的身影。

外存的数据格式

外置存储和内存最大的区别是什么?

毫无疑问,外置存储是持久存储,它的目的是用来存储资料的。而内存是临时存储,虽然是存储,但是它实质上是为 CPU 的计算服务的。

那么,怎么让很多的软件进程同时使用这些外置存储设备,而不会乱呢?直接基于物理的存储地址进行读写肯定是行不通的,过上几个月你自己可能都不记得什么数据写到哪里了。

所以和内存管理不同,外部存储的管理,我们希望这些写到存储中的数据是“自描述”的某种数据格式,我们可以随时查看之前写了哪些内容,都什么时候写的。

这就是文件系统的来源。

文件系统把存储设备中的数据组织成为了一棵树。节点可以是目录(也叫“文件夹”),也可以是文件。

树的根节点为目录,我们叫根目录。如果是目录,那么它还可以有子节点,子节点同样可以是子目录或文件。文件则是叶节点,保存我们希望存储的资料。

每个节点,无论是目录还是文件,都有自己的名字、创建时间、最后编辑时间、最后访问时间等信息。有些文件系统还会提供最近一段时间的操作日志。这些信息有助于提醒我们有什么内容,以前都做过什么。

尽管几乎所有文件系统的接口是非常一致的,但文件系统的实现却有很多。对于随机只读型的外置存储(如光盘),常见的文件系统有如下这些。

由于这类存储设备的写特征是批量写,一次把所有的数据写完,所以它的数据格式通常偏向于读优化(存储系统一般都有读写操作,所谓读优化是指在数据结构和算法设计时尽可能考虑让读操作更高效)。整个文件系统的元数据和文件数据都会非常紧凑,比如文件数据不必支持分块等等。

对于随机读写型的存储(如硬盘),常见的文件系统有如下这些。

从文件系统格式的设计角度来说,它和架构关联性不大,更多的是数据结构与算法的问题;而且,不是基于内存的数据结构,而是基于外存的数据结构,这两者非常不同。

尽管文件系统的种类非常多,但是它们的设计思路其实基本相似。大部分现代文件系统都基于日志(journal)来改善文件系统的防灾难能力(比如突然断电,或不正常的 unmount 行为),基于 B 树或 B+ 树组织元数据。

古老的 DOS 引入的 FAT 文件系统(典型代表为 FAT32)是个例外,它直接把目录当作一个特殊的文件,里面依次列出了这个目录里的所有子节点的元信息。

这个结构简单是简单了,但是缺点非常明显,如果目录树深、目录里的子节点数量多,都会大幅降低文件系统的性能。

对于随机读写型的存储设备,操作系统往往还支持对其进行分区,尤其是在这个存储设备的容量非常大的情况下。分区是一个非常简单而容易理解的行为,本质上只是把一个存储设备模拟成多个存储设备来使用而已。

一般来说,拿到一块存储设备,我们往往第一步是对其进行分区(当然也可以省略这一步,把整个设备看做一个分区)。

**第二步是对每个分区进行格式化。**所谓格式化就是给这个分区生成文件系统的初始状态。格式化最重要的是标记分区的文件系统格式(用来告诉别人这个分区是数据是怎么组织的),并且生成文件系统的根目录。

**第三步是把该分区挂载(mount)到操作系统管理的文件系统名字空间中。**完成挂载后,该分区的文件系统管理程序就工作起来了,我们可以对这个文件系统进行目录和文件的读取、创建、删除、修改等操作。

外存的使用接口

怎么使用这些外置存储设备?

最简单的方式是用操作系统提供的命令行工具。例如:

  • 目录相关:ls, mkdir, mv, cp, rmdir 等。
  • 文件相关:cat, vi, mv, cp, rm 等。

当然,最原始的方式还是我们上一讲介绍的 “系统调用”。但大部分编程语言对此都有相应的封装,例如 Go 语言中的相关功能如下所示。

  • 目录相关:os.Mkdir, os.Rename, os.Remove 等。
  • 文件相关:os.Open/Create/OpenFile, os.Rename, os.Remove 等。

有意思的是,在早期,操作系统试图将所有的输入输出设备的接口都统一以 “文件” 来抽象它。

最典型的代表就是标准输入(stdin)和标准输出(stdout)这两个虚拟的文件,分别代表了键盘和显示器。在 UNIX 系里面有个 “一切皆文件” 的口号,便由此而来。

但事实证明 UNIX 错了。输入输出设备太多样化了,所谓的 “一切皆文件” 不过是象牙塔式的理想。就拿键盘和显示器来说,图形界面时代到来,所谓标准输入和标准输出就被推翻了,编程接口产生颠覆性的变化。

有了文件系统的使用接口,进程就可以互不影响地去使用这些外置存储设备。除非这些进程要操作的文件或目录的路径产生冲突(所谓路径,是指从根目录到该节点的访问序列。例如路径 /a/b/c 是从根目录访问子目录a,再访问子子目录b,最后访问节点c),一般情况下它们并不需要感知到其他进程的存在。

路径冲突是可以避免的,只要我们对路径取名进行一些基础的名字空间约定,但有时候也会故意利用这种路径的冲突,来实现进程间的通讯。

操作系统提供了一些冲突检查的机制。例如 “检查文件是否存在,不存在就创建它”,这个语义在保证原子性的前提下,就可以用于做进程间的互斥。例如,我们希望一个软件不要运行多个进程实例,就可以基于这个机制来实现。

虚拟内存的支持

前面我们在 “07 | 软件运行机制及内存管理” 一讲中提到,在物理内存不足的时候,操作系统会利用外存把一些很久没有使用的内存页的数据,保存到外存以进行淘汰。

在 UNIX 系的操作系统中,操作系统为此分配了一个磁盘分区叫 swap 分区,专门用于内存页的保存和恢复。在 Windows 操作系统中则通过一个具有隐藏属性的 .swp 文件来实现。

在缺页发生比较频繁时,内存页的数据经常性发生保存和恢复,这会发生大量的磁盘 IO 操作,非常占用 CPU 时间,这时候我们通常能够非常明显感觉到计算机变得很慢。

在计算机变慢,并且计算机的硬盘灯不停闪烁的时候,我们基本可以确定是物理内存严重不足,不能满足运行中的软件的内存需要。

结语

回顾一下我们今天的内容。整体来说,外存管理从架构角度来说比较简单,复杂性主要集中在外存数据格式,也就是文件系统的设计上。

文件系统的实现非常多。如果你希望进一步研究某个文件系统的具体实现细节,我这里推荐一个由七牛云开源的 BPL 语言(Binary Processing Language,二进制处理语言)。地址如下:

顾名思义,BPL 语言主要用于分析二进制数据格式。应用场景包括:文件格式分析(含磁盘分区格式,因为一个磁盘分区可以把它理解为一个大文件)、网络协议分析。

我们在后面的介绍文本处理相关的章节,还会专门拿出 BPL 语言进行讨论。

如果你对今天的内容有什么思考与解读,欢迎给我留言,我们一起讨论。如果你觉得有所收获,也欢迎把文章分享给你的朋友。感谢你的收听,我们下期再见。