文件读取效率研究 | marstau's blog

生成一千万个随机整数到data.txt中，一共55MB:

程序主干

# include <ctime>
int main()
{
    int start = clock();
    //DO SOMETHING
    printf("%.3lf\n",double(clock()-start)/CLOCKS_PER_SEC);
}

scanf

耗时2.01s

const int MAXN = 10000000;

int numbers[MAXN];

void scanf_read()
{
    freopen("data.txt","r",stdin);
    for (int i=0;i<MAXN;i++)
        scanf("%d",&numbers[i]);
}

cin

耗时:6.38s

const int MAXN = 10000000;

int numbers[MAXN];

void cin_read()
{
    freopen("data.txt","r",stdin);
    for (int i=0;i<MAXN;i++)
        std::cin >> numbers[i];
}

cin慢是有原因的，其实默认的时候，cin与stdin总是保持同步的，也就是说这两种方法可以混用，而不必担心文件指针混乱，同时cout和stdout也一样，两者混用不会输出顺序错乱。正因为这个兼容性的特性，导致cin有许多额外的开销，如何禁用这个特性呢？只需一个语句

std::ios::sync_with_stdio(false);

这样就可以取消cin于stdin的同步了,

取消同步后,耗时2.05s

const int MAXN = 10000000;

int numbers[MAXN];

void cin_read_nosync()
{
    freopen("data.txt","r",stdin);
    std::ios::sync_with_stdio(false);
    for (int i=0;i<MAXN;i++)
        std::cin >> numbers[i];
}

接下来让我们测试一下读入整个文件再处理的方法，首先要写一个字符串转化为数组的函数，代码如下:

const int MAXS = 60*1024*1024;
char buf[MAXS];

void analyse(char *buf,int len = MAXS)
{
    int i;
    numbers[i=0]=0;
    for (char *p=buf;*p && p-buf<len;p++)
        if (*p == ' ')
            numbers[++i]=0;
        else
            numbers[i] = numbers[i] * 10 + *p - '0';
}

把整个文件读入一个字符串最常用的方法是用fread，代码如下：

const int MAXN = 10000000;
const int MAXS = 60*1024*1024;

int numbers[MAXN];
char buf[MAXS];

void fread_analyse()
{
    freopen("data.txt","rb",stdin);
    int len = fread(buf,1,MAXS,stdin);
    buf[len] = '\0';
    analyse(buf,len);
}

上述代码有着惊人的效率，经测试读取这10000000个数只用了0.29秒，效率提高了几乎10倍！掌握着种方法简直无敌了，不过，我记得fread是封装过的read，如果直接使用read，是不是更快呢？代码如下：

const int MAXN = 10000000;
const int MAXS = 60*1024*1024;

int numbers[MAXN];
char buf[MAXS];

void read_analyse()
{
    int fd = open("data.txt",O_RDONLY);
    int len = read(fd,buf,MAXS);
    buf[len] = '\0';
    analyse(buf,len);
}

测试发现运行时间仍然是0.29秒，可见read不具备特殊的优势。到此已经结束了吗？不，我可以调用Linux的底层函数mmap，这个函数的功能是将文件映射到内存，是所有读文件方法都要封装的基础方法，直接使用mmap会怎样呢？代码如下：

const int MAXN = 10000000;
const int MAXS = 60*1024*1024;

int numbers[MAXN];
char buf[MAXS];
void mmap_analyse()
{
    int fd = open("data.txt",O_RDONLY);
    int len = lseek(fd,0,SEEK_END);
    char *mbuf = (char *) mmap(NULL,len,PROT_READ,MAP_PRIVATE,fd,0);    
    analyse(mbuf,len);
}

经测试，运行时间缩短到了0.25秒，效率继续提高了14%。到此为止我已经没有更好的方法继续提高读文件的速度了。

为确保准确性，我又换到Windows平台上测试了一下。结果如下表：

</table> ## ifstream和fread 也有类似的情况,使用888MB的整型文件测试了一下两者一次性读取的效率: #### ifstream ``` long start = clock(); ifstream inFile("/Users/mars/Downloads/sprite_character_swordman_equipment_avatar_skin/data.txt"); inFile.seekg(0, std::ios::end); std::streamsize fileSize = inFile.tellg(); inFile.seekg(0, std::ios::beg); std::vector buffer(fileSize); if (inFile.read(buffer.data(), fileSize)) { /* worked! */ } cout << "fileSize=" << fileSize << ", buffer size=" << buffer.size() << endl; printf("ifsteam %.3lf\n",double(clock()-start)/CLOCKS_PER_SEC); ``` 耗时9.334s 而使用 ``` long start = clock(); ifstream inFile("/Users/mars/Downloads/sprite_character_swordman_equipment_avatar_skin/data.txt"); std::string str((std::istreambuf_iterator(inFile)), std::istreambuf_iterator()); cout << str.size() << endl; printf("ifsteam %.3lf\n",double(clock()-start)/CLOCKS_PER_SEC); ``` 则耗时30.425s #### fread ``` long start = clock(); freopen("/Users/mars/Downloads/sprite_character_swordman_equipment_avatar_skin/data.txt", "r", stdin); long len = fread(buf,1,MAXS,stdin); buf[len] = '\0'; analyse(buf,len); printf("fread %.3lf\n",double(clock()-start)/CLOCKS_PER_SEC); ``` 耗时4.478s ## Reference * <https://www.byvoid.com/blog/fast-readfile/> *

方法/平台/时间(秒)</>	Linux gcc</>	Windows mingw</>	Windows VC2008</> </tr>
scanf	2.010	3.704	3.425
cin	6.380	64.003	19.208
cin取消同步	2.050	6.004	19.616
fread	0.290	0.241	0.304
read	0.290	0.398	不支持
mmap	0.250	不支持	不支持
---------------------------	---------------------------	---------------------------	---------------------------

软件工具

编程开发

errors

左右互搏

点滴知识

数据结构与算法

undo

todo

标签

software 159

framework 14

hacker 4

php 6

android 64

back-end 11

block-chain 12

cpp 1

cocos2dx 22

error-unresolved 92

lua 9

operating-system 1

python 3

unity3d 32

algorithm 86

assembly 2

css 2

c＃ 3

html 1

javascript 2

kotlin 1

solidity 2

golang 1

game-engine 57

objective-c 2

seo 1

undo 1

java 59

c＋＋ 43

normal-knowledge 22

mac 7

ios 12

game-design 15

Bootstrap 1

CentOS 1

ETCD 1

Kafka 1

database 4

go 2

mysql 1

易语言 1

team 1

app 1

log 1

dropbox 2

SDK 1

h5 1

btc 9

web 4

protocol 1

googleplay 1

pay 1

root 1

html5 1

loom-network 1

metamask 2

blockchain 5

js 3

tools 2

c++ 2

domain 1

宝塔 1

server 2

quick-cocos2d-x 1

spider 1

jailbreak 2

tool 1

rom 1

gateway 1

git 2

github 1