2023-06-11  阅读(6)
原文作者:奇小葩 原文地址:https://blog.csdn.net/u012489236/category_9614673.html

伙伴系统是以页面为单位管理内存,内存碎片也是基于页面,即由大量离散且不连续的页面组成。从内核的角度,出现内存碎片不是什么好的事情,例如

  • 有些情况下物理设备需要大量的连续的物理内存,如果内核无法满足,就会发生内核错误

所以内核对于内存碎片化,需要重新规划调整,因此就出现了本章的主题,内存规整技术,它是为了解决内存碎片化而出现的。本章主要是了解如下内容

    1. 内存规整的基本原理
    1. 如何触发内存规整
    1. 内存规整的使用方法
    1. 内存碎片的优化方法

1. 内存规整的基本原理

Linux使用的是虚拟地址,以提供进程地址空间的隔离。它还带来一个好处,就是像vmalloc这种分配,不用太在乎实际使用的物理内存的分配是否连续,因此也就弱化了物理内存才会面临的内存碎片化问题。但是如果使用的时kmalloc,则要求物理内存必须连续,系统中空闲内存的总量(比如空闲时10个page),大于申请的内存大小,但是没有连续的物理内存,我们就可以通过migrate(迁移/移动)空闲的page frame,来聚合形成满足需求的连续的物理内存。

多年来,内核开发人员已经做出各种尝试来缓解这个问题;这些尝试包括[定义新的域 ZONE_MOVABLE和引入 块状回收(lumpy reclaim这样的技术。但是,光有这些还不够,特别是在解决内存碎片以及生成更大的内存块方面。在该领域淡出了一段时间的 Mel Gorman 最近又回来了,并带来了一个新的补丁用于实现 内存规整(memory compaction)。在这里,给大家简短介绍一下这个补丁的工作原理。

假设存在一个非常小的内存域(zone),如下图所示:

202306111245039551.png

页框为白色表示空闲,而红色的是由于某种用途被分配了的页框。可以看出,该域(zone)中的空闲页框非常分散,没有大于两页的连续内存块;如果要从该域中分配包含连续四页的内存块必将失败。实际上,即便是分配包含两页连续的内存也会失败,因为所有连续两页的内存块都不满足伙伴系统对内存分配的对齐要求。

下面来演示一下规整(compaction)算法的工作原理。代码中会运行两个独立的扫描;第一个扫描从域的底部(bottom)开始(如下图所示从左往右进行扫描),一边扫描一边将可以移动(movable)的页框记录到一个列表中:

202306111245050942.png

时,在区域的顶部(top),另一个扫描(如下图所示从右往左)创建另一个列表,用于记录可作为页框迁移目标的空闲页框位置:

202306111245058383.png

最终,两个扫描会在域中间的某个位置相遇(意味着扫描结束)。此时,剩下的工作主要是调用 页面迁移(page migration)功能 (从这里我们可以看到页面迁移的功能已经不仅仅只针对 NUMA 系统)将左边扫描得到的已分配的页框上的内容转移到右边空闲的空间中,产生的结果如下如下所示,规整后的内存看上去是不是很整齐?

202306111245080834.png

现在我们得到了一个拥有大小为 8 页并且连续的可用空间,可用于满足更 “高阶” 的内存分配。当然,这里展示的流程和真实系统比起来已经大大简化了。特别地,实际的内存域会大得多;这意味着扫描的工作量也会大很多,但由此获得的空闲区也可能更大。

对于内存规整技术,其核心的思想是把内存页面按照可移动、可回收、不可移动等特性进行分类

  • 可移动的页面:是指用户程序分配的内存,移动这些页面仅仅是需要修改页表映射关系,代价很低
  • 可回收的页面:是指不可以移动但可以释放的内存
  • 不可移动的页面:目前的内核使用的物理页面

所以Linux物理页面规整机制,类似于磁盘整理,主要是应用了内核的页面迁移机制,是一种将可移动页面进行迁移后腾出连续物理内存的方法。

2. 触发内存规整

Linux内核中触发内存规整途径有3个途径

  • 手动触发:通过写1到/proc/sys/vm/compact_memory节点,会手动内存规整。它会扫面系统中所有的内存节点上的zone,对每个zone都会做一次内存规整。
  • kcompactd内核线程:和页面回收kswapd内核线程一样,每个内存节点都会创建一个kcompactd内核线程,名称为"kcompactd0",“kcompactd1"等。
  • 直接内存规整:和页面回收一样,当页面分配器发现在低水位的情况下无法满足页面分配时,会进入慢速路径,在慢速路径中,除了唤醒kswapd内核线程外,还会调用函数__alloc_pages_direct_compact(),尝试整合出一大块空闲内存。

3. 内存规整的使用方法

如果想打开内存规整,内核需要打开相关的配置(默认为y)

202306111245087265.png

3.1 直接内存规整

进程分配内存时发现内存不足从而启动直接回收内存操作,这种模式下分配和回收是同步的关系,也就是说分配内存的进程会因为等待内存回收而被阻塞。

内存规整的一个重要应用场景是分配大块连续物理内存,低水位情况下分配失败时唤醒kswapd内核线程,但依然无法分配出内存,因此调用__alloc_pages_direct_compact,其处理流程如下所示

202306111245095576.png

3.2 kcompactd内核线程

kcompactd是一个内核规整的后台进程,它跟memory compaction的区别在于:

  • memory compaction的触发途径是内存分配进入direct_reclaim(暂不分析costly_order情况)后系统会根据内存剩余判断是否触发内存规整,或者用户手动触发;
  • kcompactd在唤醒kswapd或者kswapd进入休眠时,主动触发内存规整。

kcompactd的触发路径如下:主要有如下两个途径:

  • 唤醒kswapd之前触发规整,触发的条件是:本次分配不支持direct_reclaim,node内存节点是平衡的,并且kswapd失败的次数大于MAX_RECLAIM_RETRIES(默认16)。

202306111245113877.png

  • kswapd即将进入睡眠时:

202306111245121488.png

4. 使用局限

由于要保持虚拟地址不变,像kernel space中线性映射的这部分物理内存就不能被migrate,因为线性映射中虚拟地址和物理地址之间是固定的偏移,migration导致的物理地址更改势必也造成虚拟地址的变化。也就是说,并非所有的page都是“可移动”的,这也是为什么buddy系统中划分了"migrate type"。

202306111245137489.png

5. 优化方法

内核经过不断的优化,那为何Linux为何还有物理内存外碎片化呢?那是因为物理内存外碎片化虽然是可以不断优化的,但却无法得到根除。目前的内核,我觉得导致物理外碎片化还有以下两个主要原因:

  • 不可移动页面污染了内存环境,导致页面规整失败;
  • 随着系统不断申请和释放的页面,导致伙伴系统分配的物理内存页帧号越发随机,从而导致内存被隔断的概率越高,碎片化的程度越高

针对以上两个原因,以下的优化措施可能达到一定的优化效果:

  • 预留法

根据这种情况,可以通过预留的方式进行相应的优化。

  • 预留一定的内存专门用于小块内存分配,经过这个优化措施后,可以有效降低小块内存分配的物理页帧号的随机性,从而降低小块内存污染内存环境的概率。
  • 预留一定的内存专门用于大块内存分配,经过该优化措施后,预留的内存被小块内存污染的概率就会降低,可以提升预留内存分配大块内存的成功率。

目前内核使用CMA和reserve memory的方法可以解决这个问题,CMA也会预留一块内存区域,但在DMA设备不使用这段内存的时候,它也可以被OS的其他模块所使用。而在DMA设备真正需要的时候,可以对其他模块使用的page frame做migration操作,以腾出CMA区域中的空间。

2023061112451550410.png

6. 参考文档

Linux中的Memory Compaction [一]

Linux 物理内存外碎片化浅析


Java 面试宝典是大明哥全力打造的 Java 精品面试题,它是一份靠谱、强大、详细、经典的 Java 后端面试宝典。它不仅仅只是一道道面试题,而是一套完整的 Java 知识体系,一套你 Java 知识点的扫盲贴。

它的内容包括:

  • 大厂真题:Java 面试宝典里面的题目都是最近几年的高频的大厂面试真题。
  • 原创内容:Java 面试宝典内容全部都是大明哥原创,内容全面且通俗易懂,回答部分可以直接作为面试回答内容。
  • 持续更新:一次购买,永久有效。大明哥会持续更新 3+ 年,累计更新 1000+,宝典会不断迭代更新,保证最新、最全面。
  • 覆盖全面:本宝典累计更新 1000+,从 Java 入门到 Java 架构的高频面试题,实现 360° 全覆盖。
  • 不止面试:内容包含面试题解析、内容详解、知识扩展,它不仅仅只是一份面试题,更是一套完整的 Java 知识体系。
  • 宝典详情:https://www.yuque.com/chenssy/sike-java/xvlo920axlp7sf4k
  • 宝典总览:https://www.yuque.com/chenssy/sike-java/yogsehzntzgp4ly1
  • 宝典进展:https://www.yuque.com/chenssy/sike-java/en9ned7loo47z5aw

目前 Java 面试宝典累计更新 400+ 道,总字数 42w+。大明哥还在持续更新中,下图是大明哥在 2024-12 月份的更新情况:

想了解详情的小伙伴,扫描下面二维码加大明哥微信【daming091】咨询

同时,大明哥也整理一套目前市面最常见的热点面试题。微信搜[大明哥聊 Java]或扫描下方二维码关注大明哥的原创公众号[大明哥聊 Java] ,回复【面试题】 即可免费领取。

阅读全文