标准库容器的内存分配器:allocator

前因

近期接触到了网络网络数据包的开发,需要频繁的申请和释放小块的内存,原本想着使用内存池,查看了几个现有的内存池,发现了这个:

https://github.com/cacay/MemoryPool

看到接口的时候,就比较纳闷,这个内存池的实现怎么有点奇怪。MemoryPool的实现逻辑,是在申请固定大小的内存空间。看过boost的内存池接口,提供的是一个模板,用的时候进行实例化。正巧这个库已经有文章进行过介绍,提到了allocator这个概念。

wiki

在C++编程中,分配器(英语:allocator)是C++标准库的重要组成部分。C++的库中定义了多种被统称为“容器”的数据结构(如链表、集合等),这些容器的共同特征之一,就是其大小可以在程序的运行时改变;为了实现这一点,进行动态内存分配就显得尤为必要,在此分配器就用于处理容器对内存的分配与释放请求。换句话说,分配器用于封装标准模板库(STL)容器在内存管理上的低层细节。默认情况下,C++标准库使用其自带的通用分配器,但根据具体需要,程序员也可自行定制分配器以替代之。

分配器最早由亚历山大·斯特潘诺夫作为C++标准模板库(Standard Template Library,简称STL)的一部分发明,其初衷是创造一种能“使库更加灵活,并能独立于底层数据模型的方法”,并允许程序员在库中利用自定义的指针和引用类型;但在将标准模板库纳入C++标准时,C++标准委员会意识到对数据模型的完全抽象化处理会带来不可接受的性能损耗,为作折中,标准中对分配器的限制变得更加严格,而有鉴于此,与斯特潘诺夫原先的设想相比,现有标准所描述的分配器可定制程度已大大受限。

虽然分配器的定制有所限制,但在许多情况下,仍需要用到自定义的分配器,而这一般是为封装对不同类型内存空间(如共享内存与已回收内存)的访问方式,或在使用内存池进行内存分配时提高性能而为。除此以外,从内存占用和运行时间的角度看,在频繁进行少量内存分配的程序中,若引入为之专门定制的分配器,也会获益良多。

使用需求

定义自定义分配器的主要原因之一是提升性能。利用专用的自定义分配器可以提高程序的性能,又或提高内存使用效率,亦或两者兼而有之[4][8]。默认分配器使用new操作符分配存储空间[文 5],而这常利用C语言堆分配函数(malloc())实现[9]。由于堆分配函数常针对偶发的内存大量分配作优化,因此在为需要一次分配大量内存的容器(如向量、双端队列)分配内存时,默认分配器一般效率良好[8]。但是,对于关联容器与双向链表这类需要频繁分配少量内存的容器来说,若采用默认分配器分配内存,则通常效率很低[4][9]。除此之外,基于malloc()的默认分配器还存在许多问题,诸如较差的引用局部性[4],以及可能造成内存碎片化[4][9]。

简言之,此段(……)(如同)是这一标准针对分配器的一场《我有一个梦想》的演讲。在梦想成真之前,关心可移植性的程序员将把自己局限于(使用)无状态的自定义分配器上。 ——斯科特 梅耶斯,《Effective STL》 有鉴于此,在这一情况下,人们常使用基于内存池的分配器来解决频繁少量分配问题[8]。与默认的“按需分配”方式不同,在使用基于内存池的分配器时,程序会预先为之分配大块内存(即“内存池”),而后在需要分配内存时,自定义分配器只需向请求方返回一个指向池内内存的指针即可;而在对象析构时,并不需实际解除分配内存,而是延迟到内存池的生命周期完结时才真正解除分配[注 1][8]。

在“自定义分配器”这一话题上,已有诸多C++专家与相关作者参与探讨,例如斯科特·梅耶斯的作品《Effective STL》与安德烈·亚历山德雷斯库的《Modern C++ Design》都有提及。梅耶斯洞察到,若要求针对某一类型T的分配器的所有实例都相等,则可移植的分配器的实例必须不包含状态。虽然C++标准鼓励库的实现者支持带状态的分配器[文 4],但梅耶斯称,相关段落是“(看似)美妙的观点”,但也几乎是空话,并称分配器的限制“过于严苛”[4]。例如,STL的list允许splice方法,即一个list对象A的节点可以被直接移入另一个list对象B中,这就要求A的分配器申请到的内存,可被B的分配器释放掉,从而推导出A与B的分配器实例必须相等。梅耶斯的结论是,分配器最好定义为使用静态方法的类型。例如,根据C++标准,分配器必须提供一个实现了rebind方法的other类模板。

另外,在《C++程序设计语言》中,比雅尼·斯特劳斯特鲁普则认为“‘严格限制分配器,以免各对象信息不同’,这点显然问题不大”(大意),并指出大部分分配器并不需要状态,甚至没有状态情形下性能反倒更佳。他提出了三个自定义分配器的用例:内存池型的分配器、共享内存型分配器与垃圾回收型分配器,并展示了一个分配器的实现,此间利用了一个内部内存池,以快速分配/解除分配少量内存。但他也提到,如此优化可能已经在他所提供的样例分配器中实现[3]。

自定义分配器的另一用途是调试内存相关错误[10]。若要做到这一点,可以编写一个分配器,令之在分配时分配额外的内存,并借此存放调试信息。这类分配器不仅可以保证内存由同类分配器分配/解除分配内存,还可在一定程度上保护程序免受缓存溢出之害[11]。

Avatar
向天龙

年轻嘛,你让我安安静静看书,不可能的!必须要写出来。