读数据流程关于如何从用户态到Ext2文件系统公共部分(VFS)的流程本文不再详细介绍,这一部分与写流程基本一致,具体可以参考文末的相关文章介绍。如图是从用户态到Ext2文件系统的函数调用图,从图上可以看到对于Ext2文件系统在读数据流程中调用了大量VFS的函数,这主要原因是Ext2是Linux的原生文件系统,其实耦合还是比较大的。我们仔细观察一下,实际起作用的函数是Ext2文件系统的ext2_file_read_iter函数。
图1 读数据整体流程
像写数据一样,读数据也分为Direct读和缓存读两种形式,Direct读是从磁盘直接读取数据,而缓存读则需要先将磁盘数据读到页缓存,然后在将数据拷贝到用户的缓冲区。本文照例只介绍缓存读的场景,对于Direct读请自行阅读代码理解。
对于缓存读的流程,概括起来分为两个主要步骤,一个是查找页缓存(如果没有则分配新的),第二步是根据页缓存的状态从磁盘读取数据并填充页缓存(如果页缓存数据最新则不需要从磁盘读取数据)。
缓存命中
其实上图是一个比较复杂的函数调用关系图,这里处理了缓存没有命中的情况下的读数据的流程。如果缓存命中,整个读数据的流程将非常简单,我们可以简化为图2所示。可以看出此时在VFS的函数do_generic_file_read中即可完成整个数据的读取过程。
图2 读数据缓存命中
在VFS函数do_generic_file_read中的主要流程如图3所示。这里假设缓存中存储的数据是最新的,也即页缓存的数据新于磁盘的数据。这样整个读取过程可以分为两步,首先通过find_get_page获取缓存页;然后判断页缓存的标记满足条件后直接调用copy_page_to_iter将页缓存的内容拷贝到用户态的缓冲区。当然实际还有其它一些情况的存在,比如虽然页缓存存在但不是最新,则需要从磁盘读取数据。或者页缓存存在,但正在进行预读操作,则需要等待预读完成等。
图3 读数据缓存命中
总之来说,缓存命中的常见还是比较简单的,下面我们介绍一下缓存不命中的场景。
非缓存命中
如果没有缓存命中,此时就需要做两件事情,一个是分配页缓存并建立与磁盘位置映射,另一个是向磁盘提交读取数据的请求,完成数据的读取。为了提高读取数据的效率,这里其实实现了一个称为“预读”的功能,所谓预读就是提前从磁盘读取比较多的数据,为下次读数据做准备。这个特性对顺序读非常有效,可以明显的减少磁盘请求的数量,从而提升读数据的性能。
图4 读数据缓存命中
预读的基本规则主要包含两个,一个是在读请求中读到缺失页面(missing page),进行同步预读;另一个是读到预读页面(PG_readahead page),则进行异步预读。如图4是预读的基本示意图,tx代表请求时间序列。
1) t0触发同步预读,也就是文件系统除了读取请求的数据外,还会额外读取一部分数据;
2) t1时由于读到的缓存页有预读标记,因此会触发异步预读;
3) t2时由于缓存已经存在,因此直接从缓存读取后返回;
以此类推,当再次碰到有预读标记的页时进行异步预读。另外,这里面有个概念叫“预读窗口”,预读窗口是指一次从磁盘预读数据的多少。预读窗口是滑动的,也就是大小会根据命中情况进行变化,如果命中则会变大,这样可以有效的提高读取的效率。如下是用于滑动窗口的数据结构。
struct file_ra_state { pgoff_t start; /* where readahead started */ unsigned int size; /* # of readahead pages */ unsigned int async_size; /* do asynchronous readahead when there are only # of pages ahead */ unsigned int ra_pages; /* Maximum readahead window */ unsigned int mmap_miss; /* Cache miss stat for mmap accesses */ loff_t prev_pos; /* Cache last read() position */};
理解了上述概念之后,我们分析一下整个读操作的流程。由图1,同步预读和异步预读的起始逻辑在函数do_generic_file_read中。其中find_get_page用于查找是否有缓存并返回找到的缓存页。如果没有找到缓存页则运行红色方框的流程,进行同步预读。如果找到缓存页,并且该缓存页有预读标记则运行绿色方框的流程,进行异步预读。
图5 读数据缓存基本逻辑
对比一下同步预读和异步预读的主要调用流程,可以看出最终都会调用到__do_page_cache_readahead函数。实现逻辑的差异主要在ondemand_readahead函数中。基本差异是对滑动窗口的计算,对于同步预读由于要考虑随机读的情况,避免读过多的内容;而对于异步预读则根据达到预读标记则调整一个比较大的滑动窗口。
page_cache_sync_readahead->ondemand_readahead->__do_page_cache_readahead
page_cache_async_readahead->ondemand_readahead->__do_page_cache_readahead
数据读取操作的最终实现在__do_page_cache_readahead函数中,这里面主要完成两个功能,一个是分配页缓存(page_cache_alloc_readahead),另一个是提交读请求到块设备层(read_pages)。
图6 读数据缓存基本逻辑
上图中的函数指针具体实现是Ext2文件系统ext2_readpages函数,该函数的调用流程大致如图7所示。该函数主要实现缓存页的映射和从磁盘读取数据的操作。磁盘读取调用的块设备层的submit_bio函数。
图7 读数据缓存基本逻辑
至此,将磁盘上的数据读取到了页缓存中,其后的流程与缓存命中场景一致,也即拷贝页缓存的内容到用户态缓冲区等。