2023-06-11
原文作者:奇小葩 原文地址:https://blog.csdn.net/u012489236/category_9614673.html

对于内存释放函数也可以归纳到一个主要的函数(__free_pages),只是用不同的参数调用而已,前者是通过page,后者是通过虚拟地址addr,其定义如下

    extern void __free_pages(struct page *page, unsigned int order);
    extern void free_pages(unsigned long addr, unsigned int order);

对于free_pages和__free_pages之间的关系,首先需要将虚拟地址转换成指向struct page的指针

    void free_pages(unsigned long addr, unsigned int order)
    {
    	if (addr != 0) {
    		VM_BUG_ON(!virt_addr_valid((void *)addr));
    		__free_pages(virt_to_page((void *)addr), order);
    	}
    }

对于__free_pages是一个基础函数,用于实现内核API中所有涉及到内存释放的接口函数,其代码流程如下:

    void __free_pages(struct page *page, unsigned int order)
    {
    	if (put_page_testzero(page)) {//检查页框是否还有进程在使用,就是检查_count变量的值是否为0
    		if (order == 0) //如果是1个页框,则放回每CPU高速缓存中
    			free_hot_cold_page(page, false);
    		else  //如果是多个页框,则放回伙伴系统
    			__free_pages_ok(page, order);
    	}
    }
  • 首先,调用put_page_testzero来查看该页是否还有其他引用(struct page结构中的_count),如果没有被引用,就走到对应的页面释放流程中,如果还被引用,就啥也不做
  • 由申请页面的时候,会区分是申请的单页还是多页,那么释放的时候,就也做同样的处理。会判断所需释放的内存是单页还是较大的内存块。
  • 如果释放的是单页,则不还给伙伴系统,还是放回per-cpu缓存中。
  • 如果释放的时多页,就直接调用__free_pages_ok归还到伙伴系统中

1. free_hot_cold_page流程

    void free_hot_cold_page(struct page *page, bool cold)
    {
    	struct zone *zone = page_zone(page);	//用于根据page得到所在zone
    	struct per_cpu_pages *pcp;
    	unsigned long flags;
    	unsigned long pfn = page_to_pfn(page);	//根据给出页地址求出对应的页帧号
    	int migratetype;
    	//释放前pcp的准备工作,检查释放满足释放条件
    	if (!free_pcp_prepare(page))
    		return;
    	//获取页框所在pageblock的页框类型
    	migratetype = get_pfnblock_migratetype(page, pfn);
        //设置页框类型为pageblock的页框类型,因为在页框使用过程中,这段pageblock可以移动到了其他类型
    	set_pcppage_migratetype(page, migratetype);
    	local_irq_save(flags);
    	__count_vm_event(PGFREE);
    	//如果不是高速缓存类型,就放回到伙伴系统中
    	if (migratetype >= MIGRATE_PCPTYPES) {
    		if (unlikely(is_migrate_isolate(migratetype))) {
    			free_one_page(zone, page, pfn, 0, migratetype);
    			goto out;
    		}
    		migratetype = MIGRATE_MOVABLE;
    	}
    	//获取当前cpu页列表的zone->pageset->pcp
    	pcp = &this_cpu_ptr(zone->pageset)->pcp;
    	if (!cold) //hot page加入list 头部,便于优先使用
    		list_add(&page->lru, &pcp->lists[migratetype]);
    	else //对于cold page,将其加入list尾部
    		list_add_tail(&page->lru, &pcp->lists[migratetype]);
    	pcp->count++;
        //当前CPU高速缓存中页框数量高于最大值,将pcp->batch数量的页框放回伙伴系统
    	if (pcp->count >= pcp->high) {
    		unsigned long batch = READ_ONCE(pcp->batch);
    		free_pcppages_bulk(zone, batch, pcp);
    		pcp->count -= batch;
    	}
    
    out:
    	local_irq_restore(flags);
    }

对于冷页和热页,主要表现是当一个页被释放时,默认设置为热页的话,因为该页可能有些地址的数据还是处于映射到CPU cache,当该CPU上有进程申请单个页框时,优先把这些热页分配出去,这样能提高cache的命中率,提高效率,则软件上的实现方式也比较简单,热页,则直接加入到CPU页框高速缓存链表的链表头,冷页则直接加入到链表尾。

2. __free_pages_ok流程

再看看连续页框的释放,连续页框释放主要是__free_pages_ok()函数

    static void __free_pages_ok(struct page *page, unsigned int order)
    {
    	unsigned long flags;
    	int migratetype;
    	unsigned long pfn = page_to_pfn(page);       //根据给出页地址求出对应的页帧号
    
    	if (!free_pages_prepare(page, order, true))  //释放前pcp的准备工作,检查释放满足释放条件
    		return;
    
    	migratetype = get_pfnblock_migratetype(page, pfn);//获取页框所在pageblock的页框类型
    	local_irq_save(flags);
    	__count_vm_events(PGFREE, 1 << order);       //统计当前CPU一共释放的页框数
    	free_one_page(page_zone(page), page, pfn, order, migratetype); //释放函数
    	local_irq_restore(flags);
    }

对于该接口无论是释放单页还是连续页,在释放时,会获取该页所载的pageblock的类型,然后把此页设置成pageblock一致的类型,因为有一种情况,比如一个pageblock为MIGRATE_MOVABLE类型,并且有部分页已经被使用(这些正在被使用的页都为MIGRATE_MOVABLE),然后MIGRATE_RECLAIMABLE类型的页不足,需要从MIGRATE_MOVABLE这里获取这个pageblock到MIGRATE_RECLAIMABLE类型中,这个pageblock的类型就被修改成了MIGRATE_RECLAIMABLE,这样就造成了正在使用的页的类型会与pageblock的类型不一致。最后调用free_one_page函数,其定义如下

    static void free_one_page(struct zone *zone,
    				struct page *page, unsigned long pfn,
    				unsigned int order,
    				int migratetype)
    {
    	unsigned long nr_scanned;
    	spin_lock(&zone->lock);
    	nr_scanned = node_page_state(zone->zone_pgdat, NR_PAGES_SCANNED);//数据更新
    	if (nr_scanned)
    		__mod_node_page_state(zone->zone_pgdat, NR_PAGES_SCANNED, -nr_scanned);
    	//内存隔离
    	if (unlikely(has_isolate_pageblock(zone) ||
    		is_migrate_isolate(migratetype))) {
    		migratetype = get_pfnblock_migratetype(page, pfn);
    	}
    	__free_one_page(page, pfn, zone, order, migratetype);//释放page开始的order次方个页框到伙伴系统,这些页框的类型时migratetype
    	spin_unlock(&zone->lock);
    }

整个释放过程的核心函数使__free_one_page,依据申请的算法,那么释放就涉及到对页面能够进行合并的。相关的内存区被添加到伙伴系统中适当的free_area列表中,在释放时,该函数将其合并为一个连续的内存区,放置到高一阶的free_are列表中。如果还能合并一个进一步的伙伴对,那么也进行合并,转移到更高阶的列表中。该过程会一致重复下去,直至所有可能的伙伴对都已经合并,并将改变尽可能向上传播。

    static inline void __free_one_page(struct page *page,
    		unsigned long pfn,
    		struct zone *zone, unsigned int order,
    		int migratetype)
    {
    	unsigned long page_idx;
    	unsigned long combined_idx;
    	unsigned long uninitialized_var(buddy_idx);
    	struct page *buddy;
    	unsigned int max_order;
    	//则最大的order应该为MAX_ORDER与pageblock_order+1中最小那个
    	max_order = min_t(unsigned int, MAX_ORDER, pageblock_order + 1);                
    	//检查
    	VM_BUG_ON(!zone_is_initialized(zone));
    	VM_BUG_ON_PAGE(page->flags & PAGE_FLAGS_CHECK_AT_PREP, page);
    	//
    	VM_BUG_ON(migratetype == -1);
    	if (likely(!is_migrate_isolate(migratetype)))
    		__mod_zone_freepage_state(zone, 1 << order, migratetype);
    	//将释放的页面转换成page idx
    	page_idx = pfn & ((1 << MAX_ORDER) - 1);
    	//如果被释放的页不是所释放阶的第一个页,则说明参数有误
    	VM_BUG_ON_PAGE(page_idx & ((1 << order) - 1), page);
    	VM_BUG_ON_PAGE(bad_range(zone, page), page);//检查页面是否处于zone之中
    
    continue_merging://释放页以后,当前页面可能与前后的空闲页组成更大的空闲页面,直到放到最大阶的伙伴系统中
    	while (order < max_order - 1) {
    		buddy_idx = __find_buddy_index(page_idx, order);//找到与当前页属于同一个阶的伙伴页面索引
    		buddy = page + (buddy_idx - page_idx);//计算伙伴页面的页地址
            //检查buddy是否描述了大小为order的空闲页框块的第一个页
    		if (!page_is_buddy(page, buddy, order))
    			goto done_merging;
    		//页面调试功能,页面被释放时是整个的从内核地址空间中移除的。该选项显著地降低了速度,但它也能迅速指出特定类型的内存崩溃错误,需要配置CONFIG_DEBUG_PAGEALLOC
    		if (page_is_guard(buddy)) {
    			clear_page_guard(zone, buddy, order, migratetype);
    		} else {
    			list_del(&buddy->lru);//如果能够合并,则将伙伴页从伙伴系统中摘除
    			zone->free_area[order].nr_free--;//同时减少当前阶中的空闲页计数
    			rmv_page_order(buddy);//清除伙伴页的伙伴标志,因为该页会被合并
    		}
    		combined_idx = buddy_idx & page_idx;//将当前页与伙伴页合并后,新的页面起始地址
    		page = page + (combined_idx - page_idx);
    		page_idx = combined_idx;
    		order++;
    	}
    	if (max_order < MAX_ORDER) {
    	
    		if (unlikely(has_isolate_pageblock(zone))) {
    			int buddy_mt;
    
    			buddy_idx = __find_buddy_index(page_idx, order);
    			buddy = page + (buddy_idx - page_idx);
    			buddy_mt = get_pageblock_migratetype(buddy);
    
    			if (migratetype != buddy_mt
    					&& (is_migrate_isolate(migratetype) ||
    						is_migrate_isolate(buddy_mt)))
    				goto done_merging;
    		}
    		max_order++;
    		goto continue_merging;
    	}
    
    done_merging:
    	set_page_order(page, order);//设置伙伴页中第一个空闲页的阶
    
     	 /**
         * 如果当前合并后的页不是最大阶的,那么将当前空闲页放到伙伴链表的最后。
         * 这样,它将不会被很快被分配,更有可能与更高阶页面进行合并。
         */
    	if ((order < MAX_ORDER-2) && pfn_valid_within(page_to_pfn(buddy))) {
    		struct page *higher_page, *higher_buddy;
    		combined_idx = buddy_idx & page_idx;//计算更高阶的页面索引及页面地址
    		higher_page = page + (combined_idx - page_idx);
    		buddy_idx = __find_buddy_index(combined_idx, order + 1);
    		higher_buddy = higher_page + (buddy_idx - combined_idx);
    		if (page_is_buddy(higher_page, higher_buddy, order + 1)) {//更高阶的页面是空闲的,属于伙伴系统 
    			//将当前页面合并到空闲链表的最后,尽量避免将它分配出去
                list_add_tail(&page->lru,
    				&zone->free_area[order].free_list[migratetype]);
    			goto out;
    		}
    	}
    	//更高阶的页面已经分配出去,那么将当前页面放到链表前面
    	list_add(&page->lru, &zone->free_area[order].free_list[migratetype]);
    out:
    	zone->free_area[order].nr_free++;//将当前阶的空闲计数加
    }

但内核如何知道一个伙伴对的两个部分都位于空闲页的列表中呢?为将内存块放回伙伴系统,内核必须计算潜在的伙伴地址,以及在有可能合并的情况下合并后内存块的索引。内核提供辅助函数用于计算

    static inline unsigned long
    __find_buddy_index(unsigned long page_idx, unsigned int order)
    {
    	return page_idx ^ (1 << order);
    }

对于__free_one_page试图释放一个order的一个内存块,有可能不只是当前内存块与能够与其合并的伙伴直接合并,而且高阶的伙伴也可以合并,因此内核需要找到可能的最大分配阶。假设释放一个0阶内存块,即一页,该页的索引值为10,假设页10是合并两个3阶伙伴最后形成一个4阶的内存块,计算如下图所示

ordrr page_idx buddy_index-page-index __find_combined_index
0 10 1 10
1 10 -2 8
2 8 4 8
3 8 -8 0

第一遍寻找到页10的伙伴页11,由于需要的不是伙伴的页号,而是指向对应page的实例指针,buddy_index-page_idx就派上用场了,该值表示当前页与伙伴系统的差值,page指针加上该值,即可得到伙伴page的实例。

然后通过page_is_buddy需要改指针来检查伙伴系统是否是空闲,如果恰好是空闲,那么久可以合并这两个伙伴。这时候就需要将页11从伙伴系统中移除,重新合并形成一个更大的内存块,而rmv_page_order负责清楚PG_buddy标志和private数据。然后下一遍循环工作类似,但这一次order=1,也就是说,内核试图合并两个2页的伙伴,得到一个4页的内存块,其合并图如下图所示

202306111242591801.png

到此,伙伴系统的页释放流程也梳理完毕,其实现过程也比较简单。

阅读全文