Merge branch 'akpm' (patches from Andrew)
[cascardo/linux.git] / fs / binfmt_elf.c
1 /*
2  * linux/fs/binfmt_elf.c
3  *
4  * These are the functions used to load ELF format executables as used
5  * on SVr4 machines.  Information on the format may be found in the book
6  * "UNIX SYSTEM V RELEASE 4 Programmers Guide: Ansi C and Programming Support
7  * Tools".
8  *
9  * Copyright 1993, 1994: Eric Youngdale (ericy@cais.com).
10  */
11
12 #include <linux/module.h>
13 #include <linux/kernel.h>
14 #include <linux/fs.h>
15 #include <linux/mm.h>
16 #include <linux/mman.h>
17 #include <linux/errno.h>
18 #include <linux/signal.h>
19 #include <linux/binfmts.h>
20 #include <linux/string.h>
21 #include <linux/file.h>
22 #include <linux/slab.h>
23 #include <linux/personality.h>
24 #include <linux/elfcore.h>
25 #include <linux/init.h>
26 #include <linux/highuid.h>
27 #include <linux/compiler.h>
28 #include <linux/highmem.h>
29 #include <linux/pagemap.h>
30 #include <linux/vmalloc.h>
31 #include <linux/security.h>
32 #include <linux/random.h>
33 #include <linux/elf.h>
34 #include <linux/elf-randomize.h>
35 #include <linux/utsname.h>
36 #include <linux/coredump.h>
37 #include <linux/sched.h>
38 #include <linux/dax.h>
39 #include <asm/uaccess.h>
40 #include <asm/param.h>
41 #include <asm/page.h>
42
43 #ifndef user_long_t
44 #define user_long_t long
45 #endif
46 #ifndef user_siginfo_t
47 #define user_siginfo_t siginfo_t
48 #endif
49
50 static int load_elf_binary(struct linux_binprm *bprm);
51 static unsigned long elf_map(struct file *, unsigned long, struct elf_phdr *,
52                                 int, int, unsigned long);
53
54 #ifdef CONFIG_USELIB
55 static int load_elf_library(struct file *);
56 #else
57 #define load_elf_library NULL
58 #endif
59
60 /*
61  * If we don't support core dumping, then supply a NULL so we
62  * don't even try.
63  */
64 #ifdef CONFIG_ELF_CORE
65 static int elf_core_dump(struct coredump_params *cprm);
66 #else
67 #define elf_core_dump   NULL
68 #endif
69
70 #if ELF_EXEC_PAGESIZE > PAGE_SIZE
71 #define ELF_MIN_ALIGN   ELF_EXEC_PAGESIZE
72 #else
73 #define ELF_MIN_ALIGN   PAGE_SIZE
74 #endif
75
76 #ifndef ELF_CORE_EFLAGS
77 #define ELF_CORE_EFLAGS 0
78 #endif
79
80 #define ELF_PAGESTART(_v) ((_v) & ~(unsigned long)(ELF_MIN_ALIGN-1))
81 #define ELF_PAGEOFFSET(_v) ((_v) & (ELF_MIN_ALIGN-1))
82 #define ELF_PAGEALIGN(_v) (((_v) + ELF_MIN_ALIGN - 1) & ~(ELF_MIN_ALIGN - 1))
83
84 static struct linux_binfmt elf_format = {
85         .module         = THIS_MODULE,
86         .load_binary    = load_elf_binary,
87         .load_shlib     = load_elf_library,
88         .core_dump      = elf_core_dump,
89         .min_coredump   = ELF_EXEC_PAGESIZE,
90 };
91
92 #define BAD_ADDR(x) ((unsigned long)(x) >= TASK_SIZE)
93
94 static int set_brk(unsigned long start, unsigned long end)
95 {
96         start = ELF_PAGEALIGN(start);
97         end = ELF_PAGEALIGN(end);
98         if (end > start) {
99                 unsigned long addr;
100                 addr = vm_brk(start, end - start);
101                 if (BAD_ADDR(addr))
102                         return addr;
103         }
104         current->mm->start_brk = current->mm->brk = end;
105         return 0;
106 }
107
108 /* We need to explicitly zero any fractional pages
109    after the data section (i.e. bss).  This would
110    contain the junk from the file that should not
111    be in memory
112  */
113 static int padzero(unsigned long elf_bss)
114 {
115         unsigned long nbyte;
116
117         nbyte = ELF_PAGEOFFSET(elf_bss);
118         if (nbyte) {
119                 nbyte = ELF_MIN_ALIGN - nbyte;
120                 if (clear_user((void __user *) elf_bss, nbyte))
121                         return -EFAULT;
122         }
123         return 0;
124 }
125
126 /* Let's use some macros to make this stack manipulation a little clearer */
127 #ifdef CONFIG_STACK_GROWSUP
128 #define STACK_ADD(sp, items) ((elf_addr_t __user *)(sp) + (items))
129 #define STACK_ROUND(sp, items) \
130         ((15 + (unsigned long) ((sp) + (items))) &~ 15UL)
131 #define STACK_ALLOC(sp, len) ({ \
132         elf_addr_t __user *old_sp = (elf_addr_t __user *)sp; sp += len; \
133         old_sp; })
134 #else
135 #define STACK_ADD(sp, items) ((elf_addr_t __user *)(sp) - (items))
136 #define STACK_ROUND(sp, items) \
137         (((unsigned long) (sp - items)) &~ 15UL)
138 #define STACK_ALLOC(sp, len) ({ sp -= len ; sp; })
139 #endif
140
141 #ifndef ELF_BASE_PLATFORM
142 /*
143  * AT_BASE_PLATFORM indicates the "real" hardware/microarchitecture.
144  * If the arch defines ELF_BASE_PLATFORM (in asm/elf.h), the value
145  * will be copied to the user stack in the same manner as AT_PLATFORM.
146  */
147 #define ELF_BASE_PLATFORM NULL
148 #endif
149
150 static int
151 create_elf_tables(struct linux_binprm *bprm, struct elfhdr *exec,
152                 unsigned long load_addr, unsigned long interp_load_addr)
153 {
154         unsigned long p = bprm->p;
155         int argc = bprm->argc;
156         int envc = bprm->envc;
157         elf_addr_t __user *argv;
158         elf_addr_t __user *envp;
159         elf_addr_t __user *sp;
160         elf_addr_t __user *u_platform;
161         elf_addr_t __user *u_base_platform;
162         elf_addr_t __user *u_rand_bytes;
163         const char *k_platform = ELF_PLATFORM;
164         const char *k_base_platform = ELF_BASE_PLATFORM;
165         unsigned char k_rand_bytes[16];
166         int items;
167         elf_addr_t *elf_info;
168         int ei_index = 0;
169         const struct cred *cred = current_cred();
170         struct vm_area_struct *vma;
171
172         /*
173          * In some cases (e.g. Hyper-Threading), we want to avoid L1
174          * evictions by the processes running on the same package. One
175          * thing we can do is to shuffle the initial stack for them.
176          */
177
178         p = arch_align_stack(p);
179
180         /*
181          * If this architecture has a platform capability string, copy it
182          * to userspace.  In some cases (Sparc), this info is impossible
183          * for userspace to get any other way, in others (i386) it is
184          * merely difficult.
185          */
186         u_platform = NULL;
187         if (k_platform) {
188                 size_t len = strlen(k_platform) + 1;
189
190                 u_platform = (elf_addr_t __user *)STACK_ALLOC(p, len);
191                 if (__copy_to_user(u_platform, k_platform, len))
192                         return -EFAULT;
193         }
194
195         /*
196          * If this architecture has a "base" platform capability
197          * string, copy it to userspace.
198          */
199         u_base_platform = NULL;
200         if (k_base_platform) {
201                 size_t len = strlen(k_base_platform) + 1;
202
203                 u_base_platform = (elf_addr_t __user *)STACK_ALLOC(p, len);
204                 if (__copy_to_user(u_base_platform, k_base_platform, len))
205                         return -EFAULT;
206         }
207
208         /*
209          * Generate 16 random bytes for userspace PRNG seeding.
210          */
211         get_random_bytes(k_rand_bytes, sizeof(k_rand_bytes));
212         u_rand_bytes = (elf_addr_t __user *)
213                        STACK_ALLOC(p, sizeof(k_rand_bytes));
214         if (__copy_to_user(u_rand_bytes, k_rand_bytes, sizeof(k_rand_bytes)))
215                 return -EFAULT;
216
217         /* Create the ELF interpreter info */
218         elf_info = (elf_addr_t *)current->mm->saved_auxv;
219         /* update AT_VECTOR_SIZE_BASE if the number of NEW_AUX_ENT() changes */
220 #define NEW_AUX_ENT(id, val) \
221         do { \
222                 elf_info[ei_index++] = id; \
223                 elf_info[ei_index++] = val; \
224         } while (0)
225
226 #ifdef ARCH_DLINFO
227         /* 
228          * ARCH_DLINFO must come first so PPC can do its special alignment of
229          * AUXV.
230          * update AT_VECTOR_SIZE_ARCH if the number of NEW_AUX_ENT() in
231          * ARCH_DLINFO changes
232          */
233         ARCH_DLINFO;
234 #endif
235         NEW_AUX_ENT(AT_HWCAP, ELF_HWCAP);
236         NEW_AUX_ENT(AT_PAGESZ, ELF_EXEC_PAGESIZE);
237         NEW_AUX_ENT(AT_CLKTCK, CLOCKS_PER_SEC);
238         NEW_AUX_ENT(AT_PHDR, load_addr + exec->e_phoff);
239         NEW_AUX_ENT(AT_PHENT, sizeof(struct elf_phdr));
240         NEW_AUX_ENT(AT_PHNUM, exec->e_phnum);
241         NEW_AUX_ENT(AT_BASE, interp_load_addr);
242         NEW_AUX_ENT(AT_FLAGS, 0);
243         NEW_AUX_ENT(AT_ENTRY, exec->e_entry);
244         NEW_AUX_ENT(AT_UID, from_kuid_munged(cred->user_ns, cred->uid));
245         NEW_AUX_ENT(AT_EUID, from_kuid_munged(cred->user_ns, cred->euid));
246         NEW_AUX_ENT(AT_GID, from_kgid_munged(cred->user_ns, cred->gid));
247         NEW_AUX_ENT(AT_EGID, from_kgid_munged(cred->user_ns, cred->egid));
248         NEW_AUX_ENT(AT_SECURE, security_bprm_secureexec(bprm));
249         NEW_AUX_ENT(AT_RANDOM, (elf_addr_t)(unsigned long)u_rand_bytes);
250 #ifdef ELF_HWCAP2
251         NEW_AUX_ENT(AT_HWCAP2, ELF_HWCAP2);
252 #endif
253         NEW_AUX_ENT(AT_EXECFN, bprm->exec);
254         if (k_platform) {
255                 NEW_AUX_ENT(AT_PLATFORM,
256                             (elf_addr_t)(unsigned long)u_platform);
257         }
258         if (k_base_platform) {
259                 NEW_AUX_ENT(AT_BASE_PLATFORM,
260                             (elf_addr_t)(unsigned long)u_base_platform);
261         }
262         if (bprm->interp_flags & BINPRM_FLAGS_EXECFD) {
263                 NEW_AUX_ENT(AT_EXECFD, bprm->interp_data);
264         }
265 #undef NEW_AUX_ENT
266         /* AT_NULL is zero; clear the rest too */
267         memset(&elf_info[ei_index], 0,
268                sizeof current->mm->saved_auxv - ei_index * sizeof elf_info[0]);
269
270         /* And advance past the AT_NULL entry.  */
271         ei_index += 2;
272
273         sp = STACK_ADD(p, ei_index);
274
275         items = (argc + 1) + (envc + 1) + 1;
276         bprm->p = STACK_ROUND(sp, items);
277
278         /* Point sp at the lowest address on the stack */
279 #ifdef CONFIG_STACK_GROWSUP
280         sp = (elf_addr_t __user *)bprm->p - items - ei_index;
281         bprm->exec = (unsigned long)sp; /* XXX: PARISC HACK */
282 #else
283         sp = (elf_addr_t __user *)bprm->p;
284 #endif
285
286
287         /*
288          * Grow the stack manually; some architectures have a limit on how
289          * far ahead a user-space access may be in order to grow the stack.
290          */
291         vma = find_extend_vma(current->mm, bprm->p);
292         if (!vma)
293                 return -EFAULT;
294
295         /* Now, let's put argc (and argv, envp if appropriate) on the stack */
296         if (__put_user(argc, sp++))
297                 return -EFAULT;
298         argv = sp;
299         envp = argv + argc + 1;
300
301         /* Populate argv and envp */
302         p = current->mm->arg_end = current->mm->arg_start;
303         while (argc-- > 0) {
304                 size_t len;
305                 if (__put_user((elf_addr_t)p, argv++))
306                         return -EFAULT;
307                 len = strnlen_user((void __user *)p, MAX_ARG_STRLEN);
308                 if (!len || len > MAX_ARG_STRLEN)
309                         return -EINVAL;
310                 p += len;
311         }
312         if (__put_user(0, argv))
313                 return -EFAULT;
314         current->mm->arg_end = current->mm->env_start = p;
315         while (envc-- > 0) {
316                 size_t len;
317                 if (__put_user((elf_addr_t)p, envp++))
318                         return -EFAULT;
319                 len = strnlen_user((void __user *)p, MAX_ARG_STRLEN);
320                 if (!len || len > MAX_ARG_STRLEN)
321                         return -EINVAL;
322                 p += len;
323         }
324         if (__put_user(0, envp))
325                 return -EFAULT;
326         current->mm->env_end = p;
327
328         /* Put the elf_info on the stack in the right place.  */
329         sp = (elf_addr_t __user *)envp + 1;
330         if (copy_to_user(sp, elf_info, ei_index * sizeof(elf_addr_t)))
331                 return -EFAULT;
332         return 0;
333 }
334
335 #ifndef elf_map
336
337 static unsigned long elf_map(struct file *filep, unsigned long addr,
338                 struct elf_phdr *eppnt, int prot, int type,
339                 unsigned long total_size)
340 {
341         unsigned long map_addr;
342         unsigned long size = eppnt->p_filesz + ELF_PAGEOFFSET(eppnt->p_vaddr);
343         unsigned long off = eppnt->p_offset - ELF_PAGEOFFSET(eppnt->p_vaddr);
344         addr = ELF_PAGESTART(addr);
345         size = ELF_PAGEALIGN(size);
346
347         /* mmap() will return -EINVAL if given a zero size, but a
348          * segment with zero filesize is perfectly valid */
349         if (!size)
350                 return addr;
351
352         /*
353         * total_size is the size of the ELF (interpreter) image.
354         * The _first_ mmap needs to know the full size, otherwise
355         * randomization might put this image into an overlapping
356         * position with the ELF binary image. (since size < total_size)
357         * So we first map the 'big' image - and unmap the remainder at
358         * the end. (which unmap is needed for ELF images with holes.)
359         */
360         if (total_size) {
361                 total_size = ELF_PAGEALIGN(total_size);
362                 map_addr = vm_mmap(filep, addr, total_size, prot, type, off);
363                 if (!BAD_ADDR(map_addr))
364                         vm_munmap(map_addr+size, total_size-size);
365         } else
366                 map_addr = vm_mmap(filep, addr, size, prot, type, off);
367
368         return(map_addr);
369 }
370
371 #endif /* !elf_map */
372
373 static unsigned long total_mapping_size(struct elf_phdr *cmds, int nr)
374 {
375         int i, first_idx = -1, last_idx = -1;
376
377         for (i = 0; i < nr; i++) {
378                 if (cmds[i].p_type == PT_LOAD) {
379                         last_idx = i;
380                         if (first_idx == -1)
381                                 first_idx = i;
382                 }
383         }
384         if (first_idx == -1)
385                 return 0;
386
387         return cmds[last_idx].p_vaddr + cmds[last_idx].p_memsz -
388                                 ELF_PAGESTART(cmds[first_idx].p_vaddr);
389 }
390
391 /**
392  * load_elf_phdrs() - load ELF program headers
393  * @elf_ex:   ELF header of the binary whose program headers should be loaded
394  * @elf_file: the opened ELF binary file
395  *
396  * Loads ELF program headers from the binary file elf_file, which has the ELF
397  * header pointed to by elf_ex, into a newly allocated array. The caller is
398  * responsible for freeing the allocated data. Returns an ERR_PTR upon failure.
399  */
400 static struct elf_phdr *load_elf_phdrs(struct elfhdr *elf_ex,
401                                        struct file *elf_file)
402 {
403         struct elf_phdr *elf_phdata = NULL;
404         int retval, size, err = -1;
405
406         /*
407          * If the size of this structure has changed, then punt, since
408          * we will be doing the wrong thing.
409          */
410         if (elf_ex->e_phentsize != sizeof(struct elf_phdr))
411                 goto out;
412
413         /* Sanity check the number of program headers... */
414         if (elf_ex->e_phnum < 1 ||
415                 elf_ex->e_phnum > 65536U / sizeof(struct elf_phdr))
416                 goto out;
417
418         /* ...and their total size. */
419         size = sizeof(struct elf_phdr) * elf_ex->e_phnum;
420         if (size > ELF_MIN_ALIGN)
421                 goto out;
422
423         elf_phdata = kmalloc(size, GFP_KERNEL);
424         if (!elf_phdata)
425                 goto out;
426
427         /* Read in the program headers */
428         retval = kernel_read(elf_file, elf_ex->e_phoff,
429                              (char *)elf_phdata, size);
430         if (retval != size) {
431                 err = (retval < 0) ? retval : -EIO;
432                 goto out;
433         }
434
435         /* Success! */
436         err = 0;
437 out:
438         if (err) {
439                 kfree(elf_phdata);
440                 elf_phdata = NULL;
441         }
442         return elf_phdata;
443 }
444
445 #ifndef CONFIG_ARCH_BINFMT_ELF_STATE
446
447 /**
448  * struct arch_elf_state - arch-specific ELF loading state
449  *
450  * This structure is used to preserve architecture specific data during
451  * the loading of an ELF file, throughout the checking of architecture
452  * specific ELF headers & through to the point where the ELF load is
453  * known to be proceeding (ie. SET_PERSONALITY).
454  *
455  * This implementation is a dummy for architectures which require no
456  * specific state.
457  */
458 struct arch_elf_state {
459 };
460
461 #define INIT_ARCH_ELF_STATE {}
462
463 /**
464  * arch_elf_pt_proc() - check a PT_LOPROC..PT_HIPROC ELF program header
465  * @ehdr:       The main ELF header
466  * @phdr:       The program header to check
467  * @elf:        The open ELF file
468  * @is_interp:  True if the phdr is from the interpreter of the ELF being
469  *              loaded, else false.
470  * @state:      Architecture-specific state preserved throughout the process
471  *              of loading the ELF.
472  *
473  * Inspects the program header phdr to validate its correctness and/or
474  * suitability for the system. Called once per ELF program header in the
475  * range PT_LOPROC to PT_HIPROC, for both the ELF being loaded and its
476  * interpreter.
477  *
478  * Return: Zero to proceed with the ELF load, non-zero to fail the ELF load
479  *         with that return code.
480  */
481 static inline int arch_elf_pt_proc(struct elfhdr *ehdr,
482                                    struct elf_phdr *phdr,
483                                    struct file *elf, bool is_interp,
484                                    struct arch_elf_state *state)
485 {
486         /* Dummy implementation, always proceed */
487         return 0;
488 }
489
490 /**
491  * arch_check_elf() - check an ELF executable
492  * @ehdr:       The main ELF header
493  * @has_interp: True if the ELF has an interpreter, else false.
494  * @interp_ehdr: The interpreter's ELF header
495  * @state:      Architecture-specific state preserved throughout the process
496  *              of loading the ELF.
497  *
498  * Provides a final opportunity for architecture code to reject the loading
499  * of the ELF & cause an exec syscall to return an error. This is called after
500  * all program headers to be checked by arch_elf_pt_proc have been.
501  *
502  * Return: Zero to proceed with the ELF load, non-zero to fail the ELF load
503  *         with that return code.
504  */
505 static inline int arch_check_elf(struct elfhdr *ehdr, bool has_interp,
506                                  struct elfhdr *interp_ehdr,
507                                  struct arch_elf_state *state)
508 {
509         /* Dummy implementation, always proceed */
510         return 0;
511 }
512
513 #endif /* !CONFIG_ARCH_BINFMT_ELF_STATE */
514
515 /* This is much more generalized than the library routine read function,
516    so we keep this separate.  Technically the library read function
517    is only provided so that we can read a.out libraries that have
518    an ELF header */
519
520 static unsigned long load_elf_interp(struct elfhdr *interp_elf_ex,
521                 struct file *interpreter, unsigned long *interp_map_addr,
522                 unsigned long no_base, struct elf_phdr *interp_elf_phdata)
523 {
524         struct elf_phdr *eppnt;
525         unsigned long load_addr = 0;
526         int load_addr_set = 0;
527         unsigned long last_bss = 0, elf_bss = 0;
528         unsigned long error = ~0UL;
529         unsigned long total_size;
530         int i;
531
532         /* First of all, some simple consistency checks */
533         if (interp_elf_ex->e_type != ET_EXEC &&
534             interp_elf_ex->e_type != ET_DYN)
535                 goto out;
536         if (!elf_check_arch(interp_elf_ex))
537                 goto out;
538         if (!interpreter->f_op->mmap)
539                 goto out;
540
541         total_size = total_mapping_size(interp_elf_phdata,
542                                         interp_elf_ex->e_phnum);
543         if (!total_size) {
544                 error = -EINVAL;
545                 goto out;
546         }
547
548         eppnt = interp_elf_phdata;
549         for (i = 0; i < interp_elf_ex->e_phnum; i++, eppnt++) {
550                 if (eppnt->p_type == PT_LOAD) {
551                         int elf_type = MAP_PRIVATE | MAP_DENYWRITE;
552                         int elf_prot = 0;
553                         unsigned long vaddr = 0;
554                         unsigned long k, map_addr;
555
556                         if (eppnt->p_flags & PF_R)
557                                 elf_prot = PROT_READ;
558                         if (eppnt->p_flags & PF_W)
559                                 elf_prot |= PROT_WRITE;
560                         if (eppnt->p_flags & PF_X)
561                                 elf_prot |= PROT_EXEC;
562                         vaddr = eppnt->p_vaddr;
563                         if (interp_elf_ex->e_type == ET_EXEC || load_addr_set)
564                                 elf_type |= MAP_FIXED;
565                         else if (no_base && interp_elf_ex->e_type == ET_DYN)
566                                 load_addr = -vaddr;
567
568                         map_addr = elf_map(interpreter, load_addr + vaddr,
569                                         eppnt, elf_prot, elf_type, total_size);
570                         total_size = 0;
571                         if (!*interp_map_addr)
572                                 *interp_map_addr = map_addr;
573                         error = map_addr;
574                         if (BAD_ADDR(map_addr))
575                                 goto out;
576
577                         if (!load_addr_set &&
578                             interp_elf_ex->e_type == ET_DYN) {
579                                 load_addr = map_addr - ELF_PAGESTART(vaddr);
580                                 load_addr_set = 1;
581                         }
582
583                         /*
584                          * Check to see if the section's size will overflow the
585                          * allowed task size. Note that p_filesz must always be
586                          * <= p_memsize so it's only necessary to check p_memsz.
587                          */
588                         k = load_addr + eppnt->p_vaddr;
589                         if (BAD_ADDR(k) ||
590                             eppnt->p_filesz > eppnt->p_memsz ||
591                             eppnt->p_memsz > TASK_SIZE ||
592                             TASK_SIZE - eppnt->p_memsz < k) {
593                                 error = -ENOMEM;
594                                 goto out;
595                         }
596
597                         /*
598                          * Find the end of the file mapping for this phdr, and
599                          * keep track of the largest address we see for this.
600                          */
601                         k = load_addr + eppnt->p_vaddr + eppnt->p_filesz;
602                         if (k > elf_bss)
603                                 elf_bss = k;
604
605                         /*
606                          * Do the same thing for the memory mapping - between
607                          * elf_bss and last_bss is the bss section.
608                          */
609                         k = load_addr + eppnt->p_memsz + eppnt->p_vaddr;
610                         if (k > last_bss)
611                                 last_bss = k;
612                 }
613         }
614
615         if (last_bss > elf_bss) {
616                 /*
617                  * Now fill out the bss section.  First pad the last page up
618                  * to the page boundary, and then perform a mmap to make sure
619                  * that there are zero-mapped pages up to and including the
620                  * last bss page.
621                  */
622                 if (padzero(elf_bss)) {
623                         error = -EFAULT;
624                         goto out;
625                 }
626
627                 /* What we have mapped so far */
628                 elf_bss = ELF_PAGESTART(elf_bss + ELF_MIN_ALIGN - 1);
629
630                 /* Map the last of the bss segment */
631                 error = vm_brk(elf_bss, last_bss - elf_bss);
632                 if (BAD_ADDR(error))
633                         goto out;
634         }
635
636         error = load_addr;
637 out:
638         return error;
639 }
640
641 /*
642  * These are the functions used to load ELF style executables and shared
643  * libraries.  There is no binary dependent code anywhere else.
644  */
645
646 #ifndef STACK_RND_MASK
647 #define STACK_RND_MASK (0x7ff >> (PAGE_SHIFT - 12))     /* 8MB of VA */
648 #endif
649
650 static unsigned long randomize_stack_top(unsigned long stack_top)
651 {
652         unsigned long random_variable = 0;
653
654         if ((current->flags & PF_RANDOMIZE) &&
655                 !(current->personality & ADDR_NO_RANDOMIZE)) {
656                 random_variable = get_random_long();
657                 random_variable &= STACK_RND_MASK;
658                 random_variable <<= PAGE_SHIFT;
659         }
660 #ifdef CONFIG_STACK_GROWSUP
661         return PAGE_ALIGN(stack_top) + random_variable;
662 #else
663         return PAGE_ALIGN(stack_top) - random_variable;
664 #endif
665 }
666
667 static int load_elf_binary(struct linux_binprm *bprm)
668 {
669         struct file *interpreter = NULL; /* to shut gcc up */
670         unsigned long load_addr = 0, load_bias = 0;
671         int load_addr_set = 0;
672         char * elf_interpreter = NULL;
673         unsigned long error;
674         struct elf_phdr *elf_ppnt, *elf_phdata, *interp_elf_phdata = NULL;
675         unsigned long elf_bss, elf_brk;
676         int retval, i;
677         unsigned long elf_entry;
678         unsigned long interp_load_addr = 0;
679         unsigned long start_code, end_code, start_data, end_data;
680         unsigned long reloc_func_desc __maybe_unused = 0;
681         int executable_stack = EXSTACK_DEFAULT;
682         struct pt_regs *regs = current_pt_regs();
683         struct {
684                 struct elfhdr elf_ex;
685                 struct elfhdr interp_elf_ex;
686         } *loc;
687         struct arch_elf_state arch_state = INIT_ARCH_ELF_STATE;
688
689         loc = kmalloc(sizeof(*loc), GFP_KERNEL);
690         if (!loc) {
691                 retval = -ENOMEM;
692                 goto out_ret;
693         }
694         
695         /* Get the exec-header */
696         loc->elf_ex = *((struct elfhdr *)bprm->buf);
697
698         retval = -ENOEXEC;
699         /* First of all, some simple consistency checks */
700         if (memcmp(loc->elf_ex.e_ident, ELFMAG, SELFMAG) != 0)
701                 goto out;
702
703         if (loc->elf_ex.e_type != ET_EXEC && loc->elf_ex.e_type != ET_DYN)
704                 goto out;
705         if (!elf_check_arch(&loc->elf_ex))
706                 goto out;
707         if (!bprm->file->f_op->mmap)
708                 goto out;
709
710         elf_phdata = load_elf_phdrs(&loc->elf_ex, bprm->file);
711         if (!elf_phdata)
712                 goto out;
713
714         elf_ppnt = elf_phdata;
715         elf_bss = 0;
716         elf_brk = 0;
717
718         start_code = ~0UL;
719         end_code = 0;
720         start_data = 0;
721         end_data = 0;
722
723         for (i = 0; i < loc->elf_ex.e_phnum; i++) {
724                 if (elf_ppnt->p_type == PT_INTERP) {
725                         /* This is the program interpreter used for
726                          * shared libraries - for now assume that this
727                          * is an a.out format binary
728                          */
729                         retval = -ENOEXEC;
730                         if (elf_ppnt->p_filesz > PATH_MAX || 
731                             elf_ppnt->p_filesz < 2)
732                                 goto out_free_ph;
733
734                         retval = -ENOMEM;
735                         elf_interpreter = kmalloc(elf_ppnt->p_filesz,
736                                                   GFP_KERNEL);
737                         if (!elf_interpreter)
738                                 goto out_free_ph;
739
740                         retval = kernel_read(bprm->file, elf_ppnt->p_offset,
741                                              elf_interpreter,
742                                              elf_ppnt->p_filesz);
743                         if (retval != elf_ppnt->p_filesz) {
744                                 if (retval >= 0)
745                                         retval = -EIO;
746                                 goto out_free_interp;
747                         }
748                         /* make sure path is NULL terminated */
749                         retval = -ENOEXEC;
750                         if (elf_interpreter[elf_ppnt->p_filesz - 1] != '\0')
751                                 goto out_free_interp;
752
753                         interpreter = open_exec(elf_interpreter);
754                         retval = PTR_ERR(interpreter);
755                         if (IS_ERR(interpreter))
756                                 goto out_free_interp;
757
758                         /*
759                          * If the binary is not readable then enforce
760                          * mm->dumpable = 0 regardless of the interpreter's
761                          * permissions.
762                          */
763                         would_dump(bprm, interpreter);
764
765                         /* Get the exec headers */
766                         retval = kernel_read(interpreter, 0,
767                                              (void *)&loc->interp_elf_ex,
768                                              sizeof(loc->interp_elf_ex));
769                         if (retval != sizeof(loc->interp_elf_ex)) {
770                                 if (retval >= 0)
771                                         retval = -EIO;
772                                 goto out_free_dentry;
773                         }
774
775                         break;
776                 }
777                 elf_ppnt++;
778         }
779
780         elf_ppnt = elf_phdata;
781         for (i = 0; i < loc->elf_ex.e_phnum; i++, elf_ppnt++)
782                 switch (elf_ppnt->p_type) {
783                 case PT_GNU_STACK:
784                         if (elf_ppnt->p_flags & PF_X)
785                                 executable_stack = EXSTACK_ENABLE_X;
786                         else
787                                 executable_stack = EXSTACK_DISABLE_X;
788                         break;
789
790                 case PT_LOPROC ... PT_HIPROC:
791                         retval = arch_elf_pt_proc(&loc->elf_ex, elf_ppnt,
792                                                   bprm->file, false,
793                                                   &arch_state);
794                         if (retval)
795                                 goto out_free_dentry;
796                         break;
797                 }
798
799         /* Some simple consistency checks for the interpreter */
800         if (elf_interpreter) {
801                 retval = -ELIBBAD;
802                 /* Not an ELF interpreter */
803                 if (memcmp(loc->interp_elf_ex.e_ident, ELFMAG, SELFMAG) != 0)
804                         goto out_free_dentry;
805                 /* Verify the interpreter has a valid arch */
806                 if (!elf_check_arch(&loc->interp_elf_ex))
807                         goto out_free_dentry;
808
809                 /* Load the interpreter program headers */
810                 interp_elf_phdata = load_elf_phdrs(&loc->interp_elf_ex,
811                                                    interpreter);
812                 if (!interp_elf_phdata)
813                         goto out_free_dentry;
814
815                 /* Pass PT_LOPROC..PT_HIPROC headers to arch code */
816                 elf_ppnt = interp_elf_phdata;
817                 for (i = 0; i < loc->interp_elf_ex.e_phnum; i++, elf_ppnt++)
818                         switch (elf_ppnt->p_type) {
819                         case PT_LOPROC ... PT_HIPROC:
820                                 retval = arch_elf_pt_proc(&loc->interp_elf_ex,
821                                                           elf_ppnt, interpreter,
822                                                           true, &arch_state);
823                                 if (retval)
824                                         goto out_free_dentry;
825                                 break;
826                         }
827         }
828
829         /*
830          * Allow arch code to reject the ELF at this point, whilst it's
831          * still possible to return an error to the code that invoked
832          * the exec syscall.
833          */
834         retval = arch_check_elf(&loc->elf_ex,
835                                 !!interpreter, &loc->interp_elf_ex,
836                                 &arch_state);
837         if (retval)
838                 goto out_free_dentry;
839
840         /* Flush all traces of the currently running executable */
841         retval = flush_old_exec(bprm);
842         if (retval)
843                 goto out_free_dentry;
844
845         /* Do this immediately, since STACK_TOP as used in setup_arg_pages
846            may depend on the personality.  */
847         SET_PERSONALITY2(loc->elf_ex, &arch_state);
848         if (elf_read_implies_exec(loc->elf_ex, executable_stack))
849                 current->personality |= READ_IMPLIES_EXEC;
850
851         if (!(current->personality & ADDR_NO_RANDOMIZE) && randomize_va_space)
852                 current->flags |= PF_RANDOMIZE;
853
854         setup_new_exec(bprm);
855
856         /* Do this so that we can load the interpreter, if need be.  We will
857            change some of these later */
858         retval = setup_arg_pages(bprm, randomize_stack_top(STACK_TOP),
859                                  executable_stack);
860         if (retval < 0)
861                 goto out_free_dentry;
862         
863         current->mm->start_stack = bprm->p;
864
865         /* Now we do a little grungy work by mmapping the ELF image into
866            the correct location in memory. */
867         for(i = 0, elf_ppnt = elf_phdata;
868             i < loc->elf_ex.e_phnum; i++, elf_ppnt++) {
869                 int elf_prot = 0, elf_flags;
870                 unsigned long k, vaddr;
871                 unsigned long total_size = 0;
872
873                 if (elf_ppnt->p_type != PT_LOAD)
874                         continue;
875
876                 if (unlikely (elf_brk > elf_bss)) {
877                         unsigned long nbyte;
878                     
879                         /* There was a PT_LOAD segment with p_memsz > p_filesz
880                            before this one. Map anonymous pages, if needed,
881                            and clear the area.  */
882                         retval = set_brk(elf_bss + load_bias,
883                                          elf_brk + load_bias);
884                         if (retval)
885                                 goto out_free_dentry;
886                         nbyte = ELF_PAGEOFFSET(elf_bss);
887                         if (nbyte) {
888                                 nbyte = ELF_MIN_ALIGN - nbyte;
889                                 if (nbyte > elf_brk - elf_bss)
890                                         nbyte = elf_brk - elf_bss;
891                                 if (clear_user((void __user *)elf_bss +
892                                                         load_bias, nbyte)) {
893                                         /*
894                                          * This bss-zeroing can fail if the ELF
895                                          * file specifies odd protections. So
896                                          * we don't check the return value
897                                          */
898                                 }
899                         }
900                 }
901
902                 if (elf_ppnt->p_flags & PF_R)
903                         elf_prot |= PROT_READ;
904                 if (elf_ppnt->p_flags & PF_W)
905                         elf_prot |= PROT_WRITE;
906                 if (elf_ppnt->p_flags & PF_X)
907                         elf_prot |= PROT_EXEC;
908
909                 elf_flags = MAP_PRIVATE | MAP_DENYWRITE | MAP_EXECUTABLE;
910
911                 vaddr = elf_ppnt->p_vaddr;
912                 if (loc->elf_ex.e_type == ET_EXEC || load_addr_set) {
913                         elf_flags |= MAP_FIXED;
914                 } else if (loc->elf_ex.e_type == ET_DYN) {
915                         /* Try and get dynamic programs out of the way of the
916                          * default mmap base, as well as whatever program they
917                          * might try to exec.  This is because the brk will
918                          * follow the loader, and is not movable.  */
919                         load_bias = ELF_ET_DYN_BASE - vaddr;
920                         if (current->flags & PF_RANDOMIZE)
921                                 load_bias += arch_mmap_rnd();
922                         load_bias = ELF_PAGESTART(load_bias);
923                         total_size = total_mapping_size(elf_phdata,
924                                                         loc->elf_ex.e_phnum);
925                         if (!total_size) {
926                                 retval = -EINVAL;
927                                 goto out_free_dentry;
928                         }
929                 }
930
931                 error = elf_map(bprm->file, load_bias + vaddr, elf_ppnt,
932                                 elf_prot, elf_flags, total_size);
933                 if (BAD_ADDR(error)) {
934                         retval = IS_ERR((void *)error) ?
935                                 PTR_ERR((void*)error) : -EINVAL;
936                         goto out_free_dentry;
937                 }
938
939                 if (!load_addr_set) {
940                         load_addr_set = 1;
941                         load_addr = (elf_ppnt->p_vaddr - elf_ppnt->p_offset);
942                         if (loc->elf_ex.e_type == ET_DYN) {
943                                 load_bias += error -
944                                              ELF_PAGESTART(load_bias + vaddr);
945                                 load_addr += load_bias;
946                                 reloc_func_desc = load_bias;
947                         }
948                 }
949                 k = elf_ppnt->p_vaddr;
950                 if (k < start_code)
951                         start_code = k;
952                 if (start_data < k)
953                         start_data = k;
954
955                 /*
956                  * Check to see if the section's size will overflow the
957                  * allowed task size. Note that p_filesz must always be
958                  * <= p_memsz so it is only necessary to check p_memsz.
959                  */
960                 if (BAD_ADDR(k) || elf_ppnt->p_filesz > elf_ppnt->p_memsz ||
961                     elf_ppnt->p_memsz > TASK_SIZE ||
962                     TASK_SIZE - elf_ppnt->p_memsz < k) {
963                         /* set_brk can never work. Avoid overflows. */
964                         retval = -EINVAL;
965                         goto out_free_dentry;
966                 }
967
968                 k = elf_ppnt->p_vaddr + elf_ppnt->p_filesz;
969
970                 if (k > elf_bss)
971                         elf_bss = k;
972                 if ((elf_ppnt->p_flags & PF_X) && end_code < k)
973                         end_code = k;
974                 if (end_data < k)
975                         end_data = k;
976                 k = elf_ppnt->p_vaddr + elf_ppnt->p_memsz;
977                 if (k > elf_brk)
978                         elf_brk = k;
979         }
980
981         loc->elf_ex.e_entry += load_bias;
982         elf_bss += load_bias;
983         elf_brk += load_bias;
984         start_code += load_bias;
985         end_code += load_bias;
986         start_data += load_bias;
987         end_data += load_bias;
988
989         /* Calling set_brk effectively mmaps the pages that we need
990          * for the bss and break sections.  We must do this before
991          * mapping in the interpreter, to make sure it doesn't wind
992          * up getting placed where the bss needs to go.
993          */
994         retval = set_brk(elf_bss, elf_brk);
995         if (retval)
996                 goto out_free_dentry;
997         if (likely(elf_bss != elf_brk) && unlikely(padzero(elf_bss))) {
998                 retval = -EFAULT; /* Nobody gets to see this, but.. */
999                 goto out_free_dentry;
1000         }
1001
1002         if (elf_interpreter) {
1003                 unsigned long interp_map_addr = 0;
1004
1005                 elf_entry = load_elf_interp(&loc->interp_elf_ex,
1006                                             interpreter,
1007                                             &interp_map_addr,
1008                                             load_bias, interp_elf_phdata);
1009                 if (!IS_ERR((void *)elf_entry)) {
1010                         /*
1011                          * load_elf_interp() returns relocation
1012                          * adjustment
1013                          */
1014                         interp_load_addr = elf_entry;
1015                         elf_entry += loc->interp_elf_ex.e_entry;
1016                 }
1017                 if (BAD_ADDR(elf_entry)) {
1018                         retval = IS_ERR((void *)elf_entry) ?
1019                                         (int)elf_entry : -EINVAL;
1020                         goto out_free_dentry;
1021                 }
1022                 reloc_func_desc = interp_load_addr;
1023
1024                 allow_write_access(interpreter);
1025                 fput(interpreter);
1026                 kfree(elf_interpreter);
1027         } else {
1028                 elf_entry = loc->elf_ex.e_entry;
1029                 if (BAD_ADDR(elf_entry)) {
1030                         retval = -EINVAL;
1031                         goto out_free_dentry;
1032                 }
1033         }
1034
1035         kfree(interp_elf_phdata);
1036         kfree(elf_phdata);
1037
1038         set_binfmt(&elf_format);
1039
1040 #ifdef ARCH_HAS_SETUP_ADDITIONAL_PAGES
1041         retval = arch_setup_additional_pages(bprm, !!elf_interpreter);
1042         if (retval < 0)
1043                 goto out;
1044 #endif /* ARCH_HAS_SETUP_ADDITIONAL_PAGES */
1045
1046         install_exec_creds(bprm);
1047         retval = create_elf_tables(bprm, &loc->elf_ex,
1048                           load_addr, interp_load_addr);
1049         if (retval < 0)
1050                 goto out;
1051         /* N.B. passed_fileno might not be initialized? */
1052         current->mm->end_code = end_code;
1053         current->mm->start_code = start_code;
1054         current->mm->start_data = start_data;
1055         current->mm->end_data = end_data;
1056         current->mm->start_stack = bprm->p;
1057
1058         if ((current->flags & PF_RANDOMIZE) && (randomize_va_space > 1)) {
1059                 current->mm->brk = current->mm->start_brk =
1060                         arch_randomize_brk(current->mm);
1061 #ifdef compat_brk_randomized
1062                 current->brk_randomized = 1;
1063 #endif
1064         }
1065
1066         if (current->personality & MMAP_PAGE_ZERO) {
1067                 /* Why this, you ask???  Well SVr4 maps page 0 as read-only,
1068                    and some applications "depend" upon this behavior.
1069                    Since we do not have the power to recompile these, we
1070                    emulate the SVr4 behavior. Sigh. */
1071                 error = vm_mmap(NULL, 0, PAGE_SIZE, PROT_READ | PROT_EXEC,
1072                                 MAP_FIXED | MAP_PRIVATE, 0);
1073         }
1074
1075 #ifdef ELF_PLAT_INIT
1076         /*
1077          * The ABI may specify that certain registers be set up in special
1078          * ways (on i386 %edx is the address of a DT_FINI function, for
1079          * example.  In addition, it may also specify (eg, PowerPC64 ELF)
1080          * that the e_entry field is the address of the function descriptor
1081          * for the startup routine, rather than the address of the startup
1082          * routine itself.  This macro performs whatever initialization to
1083          * the regs structure is required as well as any relocations to the
1084          * function descriptor entries when executing dynamically links apps.
1085          */
1086         ELF_PLAT_INIT(regs, reloc_func_desc);
1087 #endif
1088
1089         start_thread(regs, elf_entry, bprm->p);
1090         retval = 0;
1091 out:
1092         kfree(loc);
1093 out_ret:
1094         return retval;
1095
1096         /* error cleanup */
1097 out_free_dentry:
1098         kfree(interp_elf_phdata);
1099         allow_write_access(interpreter);
1100         if (interpreter)
1101                 fput(interpreter);
1102 out_free_interp:
1103         kfree(elf_interpreter);
1104 out_free_ph:
1105         kfree(elf_phdata);
1106         goto out;
1107 }
1108
1109 #ifdef CONFIG_USELIB
1110 /* This is really simpleminded and specialized - we are loading an
1111    a.out library that is given an ELF header. */
1112 static int load_elf_library(struct file *file)
1113 {
1114         struct elf_phdr *elf_phdata;
1115         struct elf_phdr *eppnt;
1116         unsigned long elf_bss, bss, len;
1117         int retval, error, i, j;
1118         struct elfhdr elf_ex;
1119
1120         error = -ENOEXEC;
1121         retval = kernel_read(file, 0, (char *)&elf_ex, sizeof(elf_ex));
1122         if (retval != sizeof(elf_ex))
1123                 goto out;
1124
1125         if (memcmp(elf_ex.e_ident, ELFMAG, SELFMAG) != 0)
1126                 goto out;
1127
1128         /* First of all, some simple consistency checks */
1129         if (elf_ex.e_type != ET_EXEC || elf_ex.e_phnum > 2 ||
1130             !elf_check_arch(&elf_ex) || !file->f_op->mmap)
1131                 goto out;
1132
1133         /* Now read in all of the header information */
1134
1135         j = sizeof(struct elf_phdr) * elf_ex.e_phnum;
1136         /* j < ELF_MIN_ALIGN because elf_ex.e_phnum <= 2 */
1137
1138         error = -ENOMEM;
1139         elf_phdata = kmalloc(j, GFP_KERNEL);
1140         if (!elf_phdata)
1141                 goto out;
1142
1143         eppnt = elf_phdata;
1144         error = -ENOEXEC;
1145         retval = kernel_read(file, elf_ex.e_phoff, (char *)eppnt, j);
1146         if (retval != j)
1147                 goto out_free_ph;
1148
1149         for (j = 0, i = 0; i<elf_ex.e_phnum; i++)
1150                 if ((eppnt + i)->p_type == PT_LOAD)
1151                         j++;
1152         if (j != 1)
1153                 goto out_free_ph;
1154
1155         while (eppnt->p_type != PT_LOAD)
1156                 eppnt++;
1157
1158         /* Now use mmap to map the library into memory. */
1159         error = vm_mmap(file,
1160                         ELF_PAGESTART(eppnt->p_vaddr),
1161                         (eppnt->p_filesz +
1162                          ELF_PAGEOFFSET(eppnt->p_vaddr)),
1163                         PROT_READ | PROT_WRITE | PROT_EXEC,
1164                         MAP_FIXED | MAP_PRIVATE | MAP_DENYWRITE,
1165                         (eppnt->p_offset -
1166                          ELF_PAGEOFFSET(eppnt->p_vaddr)));
1167         if (error != ELF_PAGESTART(eppnt->p_vaddr))
1168                 goto out_free_ph;
1169
1170         elf_bss = eppnt->p_vaddr + eppnt->p_filesz;
1171         if (padzero(elf_bss)) {
1172                 error = -EFAULT;
1173                 goto out_free_ph;
1174         }
1175
1176         len = ELF_PAGESTART(eppnt->p_filesz + eppnt->p_vaddr +
1177                             ELF_MIN_ALIGN - 1);
1178         bss = eppnt->p_memsz + eppnt->p_vaddr;
1179         if (bss > len) {
1180                 error = vm_brk(len, bss - len);
1181                 if (BAD_ADDR(error))
1182                         goto out_free_ph;
1183         }
1184         error = 0;
1185
1186 out_free_ph:
1187         kfree(elf_phdata);
1188 out:
1189         return error;
1190 }
1191 #endif /* #ifdef CONFIG_USELIB */
1192
1193 #ifdef CONFIG_ELF_CORE
1194 /*
1195  * ELF core dumper
1196  *
1197  * Modelled on fs/exec.c:aout_core_dump()
1198  * Jeremy Fitzhardinge <jeremy@sw.oz.au>
1199  */
1200
1201 /*
1202  * The purpose of always_dump_vma() is to make sure that special kernel mappings
1203  * that are useful for post-mortem analysis are included in every core dump.
1204  * In that way we ensure that the core dump is fully interpretable later
1205  * without matching up the same kernel and hardware config to see what PC values
1206  * meant. These special mappings include - vDSO, vsyscall, and other
1207  * architecture specific mappings
1208  */
1209 static bool always_dump_vma(struct vm_area_struct *vma)
1210 {
1211         /* Any vsyscall mappings? */
1212         if (vma == get_gate_vma(vma->vm_mm))
1213                 return true;
1214
1215         /*
1216          * Assume that all vmas with a .name op should always be dumped.
1217          * If this changes, a new vm_ops field can easily be added.
1218          */
1219         if (vma->vm_ops && vma->vm_ops->name && vma->vm_ops->name(vma))
1220                 return true;
1221
1222         /*
1223          * arch_vma_name() returns non-NULL for special architecture mappings,
1224          * such as vDSO sections.
1225          */
1226         if (arch_vma_name(vma))
1227                 return true;
1228
1229         return false;
1230 }
1231
1232 /*
1233  * Decide what to dump of a segment, part, all or none.
1234  */
1235 static unsigned long vma_dump_size(struct vm_area_struct *vma,
1236                                    unsigned long mm_flags)
1237 {
1238 #define FILTER(type)    (mm_flags & (1UL << MMF_DUMP_##type))
1239
1240         /* always dump the vdso and vsyscall sections */
1241         if (always_dump_vma(vma))
1242                 goto whole;
1243
1244         if (vma->vm_flags & VM_DONTDUMP)
1245                 return 0;
1246
1247         /* support for DAX */
1248         if (vma_is_dax(vma)) {
1249                 if ((vma->vm_flags & VM_SHARED) && FILTER(DAX_SHARED))
1250                         goto whole;
1251                 if (!(vma->vm_flags & VM_SHARED) && FILTER(DAX_PRIVATE))
1252                         goto whole;
1253                 return 0;
1254         }
1255
1256         /* Hugetlb memory check */
1257         if (vma->vm_flags & VM_HUGETLB) {
1258                 if ((vma->vm_flags & VM_SHARED) && FILTER(HUGETLB_SHARED))
1259                         goto whole;
1260                 if (!(vma->vm_flags & VM_SHARED) && FILTER(HUGETLB_PRIVATE))
1261                         goto whole;
1262                 return 0;
1263         }
1264
1265         /* Do not dump I/O mapped devices or special mappings */
1266         if (vma->vm_flags & VM_IO)
1267                 return 0;
1268
1269         /* By default, dump shared memory if mapped from an anonymous file. */
1270         if (vma->vm_flags & VM_SHARED) {
1271                 if (file_inode(vma->vm_file)->i_nlink == 0 ?
1272                     FILTER(ANON_SHARED) : FILTER(MAPPED_SHARED))
1273                         goto whole;
1274                 return 0;
1275         }
1276
1277         /* Dump segments that have been written to.  */
1278         if (vma->anon_vma && FILTER(ANON_PRIVATE))
1279                 goto whole;
1280         if (vma->vm_file == NULL)
1281                 return 0;
1282
1283         if (FILTER(MAPPED_PRIVATE))
1284                 goto whole;
1285
1286         /*
1287          * If this looks like the beginning of a DSO or executable mapping,
1288          * check for an ELF header.  If we find one, dump the first page to
1289          * aid in determining what was mapped here.
1290          */
1291         if (FILTER(ELF_HEADERS) &&
1292             vma->vm_pgoff == 0 && (vma->vm_flags & VM_READ)) {
1293                 u32 __user *header = (u32 __user *) vma->vm_start;
1294                 u32 word;
1295                 mm_segment_t fs = get_fs();
1296                 /*
1297                  * Doing it this way gets the constant folded by GCC.
1298                  */
1299                 union {
1300                         u32 cmp;
1301                         char elfmag[SELFMAG];
1302                 } magic;
1303                 BUILD_BUG_ON(SELFMAG != sizeof word);
1304                 magic.elfmag[EI_MAG0] = ELFMAG0;
1305                 magic.elfmag[EI_MAG1] = ELFMAG1;
1306                 magic.elfmag[EI_MAG2] = ELFMAG2;
1307                 magic.elfmag[EI_MAG3] = ELFMAG3;
1308                 /*
1309                  * Switch to the user "segment" for get_user(),
1310                  * then put back what elf_core_dump() had in place.
1311                  */
1312                 set_fs(USER_DS);
1313                 if (unlikely(get_user(word, header)))
1314                         word = 0;
1315                 set_fs(fs);
1316                 if (word == magic.cmp)
1317                         return PAGE_SIZE;
1318         }
1319
1320 #undef  FILTER
1321
1322         return 0;
1323
1324 whole:
1325         return vma->vm_end - vma->vm_start;
1326 }
1327
1328 /* An ELF note in memory */
1329 struct memelfnote
1330 {
1331         const char *name;
1332         int type;
1333         unsigned int datasz;
1334         void *data;
1335 };
1336
1337 static int notesize(struct memelfnote *en)
1338 {
1339         int sz;
1340
1341         sz = sizeof(struct elf_note);
1342         sz += roundup(strlen(en->name) + 1, 4);
1343         sz += roundup(en->datasz, 4);
1344
1345         return sz;
1346 }
1347
1348 static int writenote(struct memelfnote *men, struct coredump_params *cprm)
1349 {
1350         struct elf_note en;
1351         en.n_namesz = strlen(men->name) + 1;
1352         en.n_descsz = men->datasz;
1353         en.n_type = men->type;
1354
1355         return dump_emit(cprm, &en, sizeof(en)) &&
1356             dump_emit(cprm, men->name, en.n_namesz) && dump_align(cprm, 4) &&
1357             dump_emit(cprm, men->data, men->datasz) && dump_align(cprm, 4);
1358 }
1359
1360 static void fill_elf_header(struct elfhdr *elf, int segs,
1361                             u16 machine, u32 flags)
1362 {
1363         memset(elf, 0, sizeof(*elf));
1364
1365         memcpy(elf->e_ident, ELFMAG, SELFMAG);
1366         elf->e_ident[EI_CLASS] = ELF_CLASS;
1367         elf->e_ident[EI_DATA] = ELF_DATA;
1368         elf->e_ident[EI_VERSION] = EV_CURRENT;
1369         elf->e_ident[EI_OSABI] = ELF_OSABI;
1370
1371         elf->e_type = ET_CORE;
1372         elf->e_machine = machine;
1373         elf->e_version = EV_CURRENT;
1374         elf->e_phoff = sizeof(struct elfhdr);
1375         elf->e_flags = flags;
1376         elf->e_ehsize = sizeof(struct elfhdr);
1377         elf->e_phentsize = sizeof(struct elf_phdr);
1378         elf->e_phnum = segs;
1379
1380         return;
1381 }
1382
1383 static void fill_elf_note_phdr(struct elf_phdr *phdr, int sz, loff_t offset)
1384 {
1385         phdr->p_type = PT_NOTE;
1386         phdr->p_offset = offset;
1387         phdr->p_vaddr = 0;
1388         phdr->p_paddr = 0;
1389         phdr->p_filesz = sz;
1390         phdr->p_memsz = 0;
1391         phdr->p_flags = 0;
1392         phdr->p_align = 0;
1393         return;
1394 }
1395
1396 static void fill_note(struct memelfnote *note, const char *name, int type, 
1397                 unsigned int sz, void *data)
1398 {
1399         note->name = name;
1400         note->type = type;
1401         note->datasz = sz;
1402         note->data = data;
1403         return;
1404 }
1405
1406 /*
1407  * fill up all the fields in prstatus from the given task struct, except
1408  * registers which need to be filled up separately.
1409  */
1410 static void fill_prstatus(struct elf_prstatus *prstatus,
1411                 struct task_struct *p, long signr)
1412 {
1413         prstatus->pr_info.si_signo = prstatus->pr_cursig = signr;
1414         prstatus->pr_sigpend = p->pending.signal.sig[0];
1415         prstatus->pr_sighold = p->blocked.sig[0];
1416         rcu_read_lock();
1417         prstatus->pr_ppid = task_pid_vnr(rcu_dereference(p->real_parent));
1418         rcu_read_unlock();
1419         prstatus->pr_pid = task_pid_vnr(p);
1420         prstatus->pr_pgrp = task_pgrp_vnr(p);
1421         prstatus->pr_sid = task_session_vnr(p);
1422         if (thread_group_leader(p)) {
1423                 struct task_cputime cputime;
1424
1425                 /*
1426                  * This is the record for the group leader.  It shows the
1427                  * group-wide total, not its individual thread total.
1428                  */
1429                 thread_group_cputime(p, &cputime);
1430                 cputime_to_timeval(cputime.utime, &prstatus->pr_utime);
1431                 cputime_to_timeval(cputime.stime, &prstatus->pr_stime);
1432         } else {
1433                 cputime_t utime, stime;
1434
1435                 task_cputime(p, &utime, &stime);
1436                 cputime_to_timeval(utime, &prstatus->pr_utime);
1437                 cputime_to_timeval(stime, &prstatus->pr_stime);
1438         }
1439         cputime_to_timeval(p->signal->cutime, &prstatus->pr_cutime);
1440         cputime_to_timeval(p->signal->cstime, &prstatus->pr_cstime);
1441 }
1442
1443 static int fill_psinfo(struct elf_prpsinfo *psinfo, struct task_struct *p,
1444                        struct mm_struct *mm)
1445 {
1446         const struct cred *cred;
1447         unsigned int i, len;
1448         
1449         /* first copy the parameters from user space */
1450         memset(psinfo, 0, sizeof(struct elf_prpsinfo));
1451
1452         len = mm->arg_end - mm->arg_start;
1453         if (len >= ELF_PRARGSZ)
1454                 len = ELF_PRARGSZ-1;
1455         if (copy_from_user(&psinfo->pr_psargs,
1456                            (const char __user *)mm->arg_start, len))
1457                 return -EFAULT;
1458         for(i = 0; i < len; i++)
1459                 if (psinfo->pr_psargs[i] == 0)
1460                         psinfo->pr_psargs[i] = ' ';
1461         psinfo->pr_psargs[len] = 0;
1462
1463         rcu_read_lock();
1464         psinfo->pr_ppid = task_pid_vnr(rcu_dereference(p->real_parent));
1465         rcu_read_unlock();
1466         psinfo->pr_pid = task_pid_vnr(p);
1467         psinfo->pr_pgrp = task_pgrp_vnr(p);
1468         psinfo->pr_sid = task_session_vnr(p);
1469
1470         i = p->state ? ffz(~p->state) + 1 : 0;
1471         psinfo->pr_state = i;
1472         psinfo->pr_sname = (i > 5) ? '.' : "RSDTZW"[i];
1473         psinfo->pr_zomb = psinfo->pr_sname == 'Z';
1474         psinfo->pr_nice = task_nice(p);
1475         psinfo->pr_flag = p->flags;
1476         rcu_read_lock();
1477         cred = __task_cred(p);
1478         SET_UID(psinfo->pr_uid, from_kuid_munged(cred->user_ns, cred->uid));
1479         SET_GID(psinfo->pr_gid, from_kgid_munged(cred->user_ns, cred->gid));
1480         rcu_read_unlock();
1481         strncpy(psinfo->pr_fname, p->comm, sizeof(psinfo->pr_fname));
1482         
1483         return 0;
1484 }
1485
1486 static void fill_auxv_note(struct memelfnote *note, struct mm_struct *mm)
1487 {
1488         elf_addr_t *auxv = (elf_addr_t *) mm->saved_auxv;
1489         int i = 0;
1490         do
1491                 i += 2;
1492         while (auxv[i - 2] != AT_NULL);
1493         fill_note(note, "CORE", NT_AUXV, i * sizeof(elf_addr_t), auxv);
1494 }
1495
1496 static void fill_siginfo_note(struct memelfnote *note, user_siginfo_t *csigdata,
1497                 const siginfo_t *siginfo)
1498 {
1499         mm_segment_t old_fs = get_fs();
1500         set_fs(KERNEL_DS);
1501         copy_siginfo_to_user((user_siginfo_t __user *) csigdata, siginfo);
1502         set_fs(old_fs);
1503         fill_note(note, "CORE", NT_SIGINFO, sizeof(*csigdata), csigdata);
1504 }
1505
1506 #define MAX_FILE_NOTE_SIZE (4*1024*1024)
1507 /*
1508  * Format of NT_FILE note:
1509  *
1510  * long count     -- how many files are mapped
1511  * long page_size -- units for file_ofs
1512  * array of [COUNT] elements of
1513  *   long start
1514  *   long end
1515  *   long file_ofs
1516  * followed by COUNT filenames in ASCII: "FILE1" NUL "FILE2" NUL...
1517  */
1518 static int fill_files_note(struct memelfnote *note)
1519 {
1520         struct vm_area_struct *vma;
1521         unsigned count, size, names_ofs, remaining, n;
1522         user_long_t *data;
1523         user_long_t *start_end_ofs;
1524         char *name_base, *name_curpos;
1525
1526         /* *Estimated* file count and total data size needed */
1527         count = current->mm->map_count;
1528         size = count * 64;
1529
1530         names_ofs = (2 + 3 * count) * sizeof(data[0]);
1531  alloc:
1532         if (size >= MAX_FILE_NOTE_SIZE) /* paranoia check */
1533                 return -EINVAL;
1534         size = round_up(size, PAGE_SIZE);
1535         data = vmalloc(size);
1536         if (!data)
1537                 return -ENOMEM;
1538
1539         start_end_ofs = data + 2;
1540         name_base = name_curpos = ((char *)data) + names_ofs;
1541         remaining = size - names_ofs;
1542         count = 0;
1543         for (vma = current->mm->mmap; vma != NULL; vma = vma->vm_next) {
1544                 struct file *file;
1545                 const char *filename;
1546
1547                 file = vma->vm_file;
1548                 if (!file)
1549                         continue;
1550                 filename = file_path(file, name_curpos, remaining);
1551                 if (IS_ERR(filename)) {
1552                         if (PTR_ERR(filename) == -ENAMETOOLONG) {
1553                                 vfree(data);
1554                                 size = size * 5 / 4;
1555                                 goto alloc;
1556                         }
1557                         continue;
1558                 }
1559
1560                 /* file_path() fills at the end, move name down */
1561                 /* n = strlen(filename) + 1: */
1562                 n = (name_curpos + remaining) - filename;
1563                 remaining = filename - name_curpos;
1564                 memmove(name_curpos, filename, n);
1565                 name_curpos += n;
1566
1567                 *start_end_ofs++ = vma->vm_start;
1568                 *start_end_ofs++ = vma->vm_end;
1569                 *start_end_ofs++ = vma->vm_pgoff;
1570                 count++;
1571         }
1572
1573         /* Now we know exact count of files, can store it */
1574         data[0] = count;
1575         data[1] = PAGE_SIZE;
1576         /*
1577          * Count usually is less than current->mm->map_count,
1578          * we need to move filenames down.
1579          */
1580         n = current->mm->map_count - count;
1581         if (n != 0) {
1582                 unsigned shift_bytes = n * 3 * sizeof(data[0]);
1583                 memmove(name_base - shift_bytes, name_base,
1584                         name_curpos - name_base);
1585                 name_curpos -= shift_bytes;
1586         }
1587
1588         size = name_curpos - (char *)data;
1589         fill_note(note, "CORE", NT_FILE, size, data);
1590         return 0;
1591 }
1592
1593 #ifdef CORE_DUMP_USE_REGSET
1594 #include <linux/regset.h>
1595
1596 struct elf_thread_core_info {
1597         struct elf_thread_core_info *next;
1598         struct task_struct *task;
1599         struct elf_prstatus prstatus;
1600         struct memelfnote notes[0];
1601 };
1602
1603 struct elf_note_info {
1604         struct elf_thread_core_info *thread;
1605         struct memelfnote psinfo;
1606         struct memelfnote signote;
1607         struct memelfnote auxv;
1608         struct memelfnote files;
1609         user_siginfo_t csigdata;
1610         size_t size;
1611         int thread_notes;
1612 };
1613
1614 /*
1615  * When a regset has a writeback hook, we call it on each thread before
1616  * dumping user memory.  On register window machines, this makes sure the
1617  * user memory backing the register data is up to date before we read it.
1618  */
1619 static void do_thread_regset_writeback(struct task_struct *task,
1620                                        const struct user_regset *regset)
1621 {
1622         if (regset->writeback)
1623                 regset->writeback(task, regset, 1);
1624 }
1625
1626 #ifndef PR_REG_SIZE
1627 #define PR_REG_SIZE(S) sizeof(S)
1628 #endif
1629
1630 #ifndef PRSTATUS_SIZE
1631 #define PRSTATUS_SIZE(S) sizeof(S)
1632 #endif
1633
1634 #ifndef PR_REG_PTR
1635 #define PR_REG_PTR(S) (&((S)->pr_reg))
1636 #endif
1637
1638 #ifndef SET_PR_FPVALID
1639 #define SET_PR_FPVALID(S, V) ((S)->pr_fpvalid = (V))
1640 #endif
1641
1642 static int fill_thread_core_info(struct elf_thread_core_info *t,
1643                                  const struct user_regset_view *view,
1644                                  long signr, size_t *total)
1645 {
1646         unsigned int i;
1647
1648         /*
1649          * NT_PRSTATUS is the one special case, because the regset data
1650          * goes into the pr_reg field inside the note contents, rather
1651          * than being the whole note contents.  We fill the reset in here.
1652          * We assume that regset 0 is NT_PRSTATUS.
1653          */
1654         fill_prstatus(&t->prstatus, t->task, signr);
1655         (void) view->regsets[0].get(t->task, &view->regsets[0],
1656                                     0, PR_REG_SIZE(t->prstatus.pr_reg),
1657                                     PR_REG_PTR(&t->prstatus), NULL);
1658
1659         fill_note(&t->notes[0], "CORE", NT_PRSTATUS,
1660                   PRSTATUS_SIZE(t->prstatus), &t->prstatus);
1661         *total += notesize(&t->notes[0]);
1662
1663         do_thread_regset_writeback(t->task, &view->regsets[0]);
1664
1665         /*
1666          * Each other regset might generate a note too.  For each regset
1667          * that has no core_note_type or is inactive, we leave t->notes[i]
1668          * all zero and we'll know to skip writing it later.
1669          */
1670         for (i = 1; i < view->n; ++i) {
1671                 const struct user_regset *regset = &view->regsets[i];
1672                 do_thread_regset_writeback(t->task, regset);
1673                 if (regset->core_note_type && regset->get &&
1674                     (!regset->active || regset->active(t->task, regset))) {
1675                         int ret;
1676                         size_t size = regset->n * regset->size;
1677                         void *data = kmalloc(size, GFP_KERNEL);
1678                         if (unlikely(!data))
1679                                 return 0;
1680                         ret = regset->get(t->task, regset,
1681                                           0, size, data, NULL);
1682                         if (unlikely(ret))
1683                                 kfree(data);
1684                         else {
1685                                 if (regset->core_note_type != NT_PRFPREG)
1686                                         fill_note(&t->notes[i], "LINUX",
1687                                                   regset->core_note_type,
1688                                                   size, data);
1689                                 else {
1690                                         SET_PR_FPVALID(&t->prstatus, 1);
1691                                         fill_note(&t->notes[i], "CORE",
1692                                                   NT_PRFPREG, size, data);
1693                                 }
1694                                 *total += notesize(&t->notes[i]);
1695                         }
1696                 }
1697         }
1698
1699         return 1;
1700 }
1701
1702 static int fill_note_info(struct elfhdr *elf, int phdrs,
1703                           struct elf_note_info *info,
1704                           const siginfo_t *siginfo, struct pt_regs *regs)
1705 {
1706         struct task_struct *dump_task = current;
1707         const struct user_regset_view *view = task_user_regset_view(dump_task);
1708         struct elf_thread_core_info *t;
1709         struct elf_prpsinfo *psinfo;
1710         struct core_thread *ct;
1711         unsigned int i;
1712
1713         info->size = 0;
1714         info->thread = NULL;
1715
1716         psinfo = kmalloc(sizeof(*psinfo), GFP_KERNEL);
1717         if (psinfo == NULL) {
1718                 info->psinfo.data = NULL; /* So we don't free this wrongly */
1719                 return 0;
1720         }
1721
1722         fill_note(&info->psinfo, "CORE", NT_PRPSINFO, sizeof(*psinfo), psinfo);
1723
1724         /*
1725          * Figure out how many notes we're going to need for each thread.
1726          */
1727         info->thread_notes = 0;
1728         for (i = 0; i < view->n; ++i)
1729                 if (view->regsets[i].core_note_type != 0)
1730                         ++info->thread_notes;
1731
1732         /*
1733          * Sanity check.  We rely on regset 0 being in NT_PRSTATUS,
1734          * since it is our one special case.
1735          */
1736         if (unlikely(info->thread_notes == 0) ||
1737             unlikely(view->regsets[0].core_note_type != NT_PRSTATUS)) {
1738                 WARN_ON(1);
1739                 return 0;
1740         }
1741
1742         /*
1743          * Initialize the ELF file header.
1744          */
1745         fill_elf_header(elf, phdrs,
1746                         view->e_machine, view->e_flags);
1747
1748         /*
1749          * Allocate a structure for each thread.
1750          */
1751         for (ct = &dump_task->mm->core_state->dumper; ct; ct = ct->next) {
1752                 t = kzalloc(offsetof(struct elf_thread_core_info,
1753                                      notes[info->thread_notes]),
1754                             GFP_KERNEL);
1755                 if (unlikely(!t))
1756                         return 0;
1757
1758                 t->task = ct->task;
1759                 if (ct->task == dump_task || !info->thread) {
1760                         t->next = info->thread;
1761                         info->thread = t;
1762                 } else {
1763                         /*
1764                          * Make sure to keep the original task at
1765                          * the head of the list.
1766                          */
1767                         t->next = info->thread->next;
1768                         info->thread->next = t;
1769                 }
1770         }
1771
1772         /*
1773          * Now fill in each thread's information.
1774          */
1775         for (t = info->thread; t != NULL; t = t->next)
1776                 if (!fill_thread_core_info(t, view, siginfo->si_signo, &info->size))
1777                         return 0;
1778
1779         /*
1780          * Fill in the two process-wide notes.
1781          */
1782         fill_psinfo(psinfo, dump_task->group_leader, dump_task->mm);
1783         info->size += notesize(&info->psinfo);
1784
1785         fill_siginfo_note(&info->signote, &info->csigdata, siginfo);
1786         info->size += notesize(&info->signote);
1787
1788         fill_auxv_note(&info->auxv, current->mm);
1789         info->size += notesize(&info->auxv);
1790
1791         if (fill_files_note(&info->files) == 0)
1792                 info->size += notesize(&info->files);
1793
1794         return 1;
1795 }
1796
1797 static size_t get_note_info_size(struct elf_note_info *info)
1798 {
1799         return info->size;
1800 }
1801
1802 /*
1803  * Write all the notes for each thread.  When writing the first thread, the
1804  * process-wide notes are interleaved after the first thread-specific note.
1805  */
1806 static int write_note_info(struct elf_note_info *info,
1807                            struct coredump_params *cprm)
1808 {
1809         bool first = true;
1810         struct elf_thread_core_info *t = info->thread;
1811
1812         do {
1813                 int i;
1814
1815                 if (!writenote(&t->notes[0], cprm))
1816                         return 0;
1817
1818                 if (first && !writenote(&info->psinfo, cprm))
1819                         return 0;
1820                 if (first && !writenote(&info->signote, cprm))
1821                         return 0;
1822                 if (first && !writenote(&info->auxv, cprm))
1823                         return 0;
1824                 if (first && info->files.data &&
1825                                 !writenote(&info->files, cprm))
1826                         return 0;
1827
1828                 for (i = 1; i < info->thread_notes; ++i)
1829                         if (t->notes[i].data &&
1830                             !writenote(&t->notes[i], cprm))
1831                                 return 0;
1832
1833                 first = false;
1834                 t = t->next;
1835         } while (t);
1836
1837         return 1;
1838 }
1839
1840 static void free_note_info(struct elf_note_info *info)
1841 {
1842         struct elf_thread_core_info *threads = info->thread;
1843         while (threads) {
1844                 unsigned int i;
1845                 struct elf_thread_core_info *t = threads;
1846                 threads = t->next;
1847                 WARN_ON(t->notes[0].data && t->notes[0].data != &t->prstatus);
1848                 for (i = 1; i < info->thread_notes; ++i)
1849                         kfree(t->notes[i].data);
1850                 kfree(t);
1851         }
1852         kfree(info->psinfo.data);
1853         vfree(info->files.data);
1854 }
1855
1856 #else
1857
1858 /* Here is the structure in which status of each thread is captured. */
1859 struct elf_thread_status
1860 {
1861         struct list_head list;
1862         struct elf_prstatus prstatus;   /* NT_PRSTATUS */
1863         elf_fpregset_t fpu;             /* NT_PRFPREG */
1864         struct task_struct *thread;
1865 #ifdef ELF_CORE_COPY_XFPREGS
1866         elf_fpxregset_t xfpu;           /* ELF_CORE_XFPREG_TYPE */
1867 #endif
1868         struct memelfnote notes[3];
1869         int num_notes;
1870 };
1871
1872 /*
1873  * In order to add the specific thread information for the elf file format,
1874  * we need to keep a linked list of every threads pr_status and then create
1875  * a single section for them in the final core file.
1876  */
1877 static int elf_dump_thread_status(long signr, struct elf_thread_status *t)
1878 {
1879         int sz = 0;
1880         struct task_struct *p = t->thread;
1881         t->num_notes = 0;
1882
1883         fill_prstatus(&t->prstatus, p, signr);
1884         elf_core_copy_task_regs(p, &t->prstatus.pr_reg);        
1885         
1886         fill_note(&t->notes[0], "CORE", NT_PRSTATUS, sizeof(t->prstatus),
1887                   &(t->prstatus));
1888         t->num_notes++;
1889         sz += notesize(&t->notes[0]);
1890
1891         if ((t->prstatus.pr_fpvalid = elf_core_copy_task_fpregs(p, NULL,
1892                                                                 &t->fpu))) {
1893                 fill_note(&t->notes[1], "CORE", NT_PRFPREG, sizeof(t->fpu),
1894                           &(t->fpu));
1895                 t->num_notes++;
1896                 sz += notesize(&t->notes[1]);
1897         }
1898
1899 #ifdef ELF_CORE_COPY_XFPREGS
1900         if (elf_core_copy_task_xfpregs(p, &t->xfpu)) {
1901                 fill_note(&t->notes[2], "LINUX", ELF_CORE_XFPREG_TYPE,
1902                           sizeof(t->xfpu), &t->xfpu);
1903                 t->num_notes++;
1904                 sz += notesize(&t->notes[2]);
1905         }
1906 #endif  
1907         return sz;
1908 }
1909
1910 struct elf_note_info {
1911         struct memelfnote *notes;
1912         struct memelfnote *notes_files;
1913         struct elf_prstatus *prstatus;  /* NT_PRSTATUS */
1914         struct elf_prpsinfo *psinfo;    /* NT_PRPSINFO */
1915         struct list_head thread_list;
1916         elf_fpregset_t *fpu;
1917 #ifdef ELF_CORE_COPY_XFPREGS
1918         elf_fpxregset_t *xfpu;
1919 #endif
1920         user_siginfo_t csigdata;
1921         int thread_status_size;
1922         int numnote;
1923 };
1924
1925 static int elf_note_info_init(struct elf_note_info *info)
1926 {
1927         memset(info, 0, sizeof(*info));
1928         INIT_LIST_HEAD(&info->thread_list);
1929
1930         /* Allocate space for ELF notes */
1931         info->notes = kmalloc(8 * sizeof(struct memelfnote), GFP_KERNEL);
1932         if (!info->notes)
1933                 return 0;
1934         info->psinfo = kmalloc(sizeof(*info->psinfo), GFP_KERNEL);
1935         if (!info->psinfo)
1936                 return 0;
1937         info->prstatus = kmalloc(sizeof(*info->prstatus), GFP_KERNEL);
1938         if (!info->prstatus)
1939                 return 0;
1940         info->fpu = kmalloc(sizeof(*info->fpu), GFP_KERNEL);
1941         if (!info->fpu)
1942                 return 0;
1943 #ifdef ELF_CORE_COPY_XFPREGS
1944         info->xfpu = kmalloc(sizeof(*info->xfpu), GFP_KERNEL);
1945         if (!info->xfpu)
1946                 return 0;
1947 #endif
1948         return 1;
1949 }
1950
1951 static int fill_note_info(struct elfhdr *elf, int phdrs,
1952                           struct elf_note_info *info,
1953                           const siginfo_t *siginfo, struct pt_regs *regs)
1954 {
1955         struct list_head *t;
1956         struct core_thread *ct;
1957         struct elf_thread_status *ets;
1958
1959         if (!elf_note_info_init(info))
1960                 return 0;
1961
1962         for (ct = current->mm->core_state->dumper.next;
1963                                         ct; ct = ct->next) {
1964                 ets = kzalloc(sizeof(*ets), GFP_KERNEL);
1965                 if (!ets)
1966                         return 0;
1967
1968                 ets->thread = ct->task;
1969                 list_add(&ets->list, &info->thread_list);
1970         }
1971
1972         list_for_each(t, &info->thread_list) {
1973                 int sz;
1974
1975                 ets = list_entry(t, struct elf_thread_status, list);
1976                 sz = elf_dump_thread_status(siginfo->si_signo, ets);
1977                 info->thread_status_size += sz;
1978         }
1979         /* now collect the dump for the current */
1980         memset(info->prstatus, 0, sizeof(*info->prstatus));
1981         fill_prstatus(info->prstatus, current, siginfo->si_signo);
1982         elf_core_copy_regs(&info->prstatus->pr_reg, regs);
1983
1984         /* Set up header */
1985         fill_elf_header(elf, phdrs, ELF_ARCH, ELF_CORE_EFLAGS);
1986
1987         /*
1988          * Set up the notes in similar form to SVR4 core dumps made
1989          * with info from their /proc.
1990          */
1991
1992         fill_note(info->notes + 0, "CORE", NT_PRSTATUS,
1993                   sizeof(*info->prstatus), info->prstatus);
1994         fill_psinfo(info->psinfo, current->group_leader, current->mm);
1995         fill_note(info->notes + 1, "CORE", NT_PRPSINFO,
1996                   sizeof(*info->psinfo), info->psinfo);
1997
1998         fill_siginfo_note(info->notes + 2, &info->csigdata, siginfo);
1999         fill_auxv_note(info->notes + 3, current->mm);
2000         info->numnote = 4;
2001
2002         if (fill_files_note(info->notes + info->numnote) == 0) {
2003                 info->notes_files = info->notes + info->numnote;
2004                 info->numnote++;
2005         }
2006
2007         /* Try to dump the FPU. */
2008         info->prstatus->pr_fpvalid = elf_core_copy_task_fpregs(current, regs,
2009                                                                info->fpu);
2010         if (info->prstatus->pr_fpvalid)
2011                 fill_note(info->notes + info->numnote++,
2012                           "CORE", NT_PRFPREG, sizeof(*info->fpu), info->fpu);
2013 #ifdef ELF_CORE_COPY_XFPREGS
2014         if (elf_core_copy_task_xfpregs(current, info->xfpu))
2015                 fill_note(info->notes + info->numnote++,
2016                           "LINUX", ELF_CORE_XFPREG_TYPE,
2017                           sizeof(*info->xfpu), info->xfpu);
2018 #endif
2019
2020         return 1;
2021 }
2022
2023 static size_t get_note_info_size(struct elf_note_info *info)
2024 {
2025         int sz = 0;
2026         int i;
2027
2028         for (i = 0; i < info->numnote; i++)
2029                 sz += notesize(info->notes + i);
2030
2031         sz += info->thread_status_size;
2032
2033         return sz;
2034 }
2035
2036 static int write_note_info(struct elf_note_info *info,
2037                            struct coredump_params *cprm)
2038 {
2039         int i;
2040         struct list_head *t;
2041
2042         for (i = 0; i < info->numnote; i++)
2043                 if (!writenote(info->notes + i, cprm))
2044                         return 0;
2045
2046         /* write out the thread status notes section */
2047         list_for_each(t, &info->thread_list) {
2048                 struct elf_thread_status *tmp =
2049                                 list_entry(t, struct elf_thread_status, list);
2050
2051                 for (i = 0; i < tmp->num_notes; i++)
2052                         if (!writenote(&tmp->notes[i], cprm))
2053                                 return 0;
2054         }
2055
2056         return 1;
2057 }
2058
2059 static void free_note_info(struct elf_note_info *info)
2060 {
2061         while (!list_empty(&info->thread_list)) {
2062                 struct list_head *tmp = info->thread_list.next;
2063                 list_del(tmp);
2064                 kfree(list_entry(tmp, struct elf_thread_status, list));
2065         }
2066
2067         /* Free data possibly allocated by fill_files_note(): */
2068         if (info->notes_files)
2069                 vfree(info->notes_files->data);
2070
2071         kfree(info->prstatus);
2072         kfree(info->psinfo);
2073         kfree(info->notes);
2074         kfree(info->fpu);
2075 #ifdef ELF_CORE_COPY_XFPREGS
2076         kfree(info->xfpu);
2077 #endif
2078 }
2079
2080 #endif
2081
2082 static struct vm_area_struct *first_vma(struct task_struct *tsk,
2083                                         struct vm_area_struct *gate_vma)
2084 {
2085         struct vm_area_struct *ret = tsk->mm->mmap;
2086
2087         if (ret)
2088                 return ret;
2089         return gate_vma;
2090 }
2091 /*
2092  * Helper function for iterating across a vma list.  It ensures that the caller
2093  * will visit `gate_vma' prior to terminating the search.
2094  */
2095 static struct vm_area_struct *next_vma(struct vm_area_struct *this_vma,
2096                                         struct vm_area_struct *gate_vma)
2097 {
2098         struct vm_area_struct *ret;
2099
2100         ret = this_vma->vm_next;
2101         if (ret)
2102                 return ret;
2103         if (this_vma == gate_vma)
2104                 return NULL;
2105         return gate_vma;
2106 }
2107
2108 static void fill_extnum_info(struct elfhdr *elf, struct elf_shdr *shdr4extnum,
2109                              elf_addr_t e_shoff, int segs)
2110 {
2111         elf->e_shoff = e_shoff;
2112         elf->e_shentsize = sizeof(*shdr4extnum);
2113         elf->e_shnum = 1;
2114         elf->e_shstrndx = SHN_UNDEF;
2115
2116         memset(shdr4extnum, 0, sizeof(*shdr4extnum));
2117
2118         shdr4extnum->sh_type = SHT_NULL;
2119         shdr4extnum->sh_size = elf->e_shnum;
2120         shdr4extnum->sh_link = elf->e_shstrndx;
2121         shdr4extnum->sh_info = segs;
2122 }
2123
2124 /*
2125  * Actual dumper
2126  *
2127  * This is a two-pass process; first we find the offsets of the bits,
2128  * and then they are actually written out.  If we run out of core limit
2129  * we just truncate.
2130  */
2131 static int elf_core_dump(struct coredump_params *cprm)
2132 {
2133         int has_dumped = 0;
2134         mm_segment_t fs;
2135         int segs, i;
2136         size_t vma_data_size = 0;
2137         struct vm_area_struct *vma, *gate_vma;
2138         struct elfhdr *elf = NULL;
2139         loff_t offset = 0, dataoff;
2140         struct elf_note_info info = { };
2141         struct elf_phdr *phdr4note = NULL;
2142         struct elf_shdr *shdr4extnum = NULL;
2143         Elf_Half e_phnum;
2144         elf_addr_t e_shoff;
2145         elf_addr_t *vma_filesz = NULL;
2146
2147         /*
2148          * We no longer stop all VM operations.
2149          * 
2150          * This is because those proceses that could possibly change map_count
2151          * or the mmap / vma pages are now blocked in do_exit on current
2152          * finishing this core dump.
2153          *
2154          * Only ptrace can touch these memory addresses, but it doesn't change
2155          * the map_count or the pages allocated. So no possibility of crashing
2156          * exists while dumping the mm->vm_next areas to the core file.
2157          */
2158   
2159         /* alloc memory for large data structures: too large to be on stack */
2160         elf = kmalloc(sizeof(*elf), GFP_KERNEL);
2161         if (!elf)
2162                 goto out;
2163         /*
2164          * The number of segs are recored into ELF header as 16bit value.
2165          * Please check DEFAULT_MAX_MAP_COUNT definition when you modify here.
2166          */
2167         segs = current->mm->map_count;
2168         segs += elf_core_extra_phdrs();
2169
2170         gate_vma = get_gate_vma(current->mm);
2171         if (gate_vma != NULL)
2172                 segs++;
2173
2174         /* for notes section */
2175         segs++;
2176
2177         /* If segs > PN_XNUM(0xffff), then e_phnum overflows. To avoid
2178          * this, kernel supports extended numbering. Have a look at
2179          * include/linux/elf.h for further information. */
2180         e_phnum = segs > PN_XNUM ? PN_XNUM : segs;
2181
2182         /*
2183          * Collect all the non-memory information about the process for the
2184          * notes.  This also sets up the file header.
2185          */
2186         if (!fill_note_info(elf, e_phnum, &info, cprm->siginfo, cprm->regs))
2187                 goto cleanup;
2188
2189         has_dumped = 1;
2190
2191         fs = get_fs();
2192         set_fs(KERNEL_DS);
2193
2194         offset += sizeof(*elf);                         /* Elf header */
2195         offset += segs * sizeof(struct elf_phdr);       /* Program headers */
2196
2197         /* Write notes phdr entry */
2198         {
2199                 size_t sz = get_note_info_size(&info);
2200
2201                 sz += elf_coredump_extra_notes_size();
2202
2203                 phdr4note = kmalloc(sizeof(*phdr4note), GFP_KERNEL);
2204                 if (!phdr4note)
2205                         goto end_coredump;
2206
2207                 fill_elf_note_phdr(phdr4note, sz, offset);
2208                 offset += sz;
2209         }
2210
2211         dataoff = offset = roundup(offset, ELF_EXEC_PAGESIZE);
2212
2213         vma_filesz = kmalloc_array(segs - 1, sizeof(*vma_filesz), GFP_KERNEL);
2214         if (!vma_filesz)
2215                 goto end_coredump;
2216
2217         for (i = 0, vma = first_vma(current, gate_vma); vma != NULL;
2218                         vma = next_vma(vma, gate_vma)) {
2219                 unsigned long dump_size;
2220
2221                 dump_size = vma_dump_size(vma, cprm->mm_flags);
2222                 vma_filesz[i++] = dump_size;
2223                 vma_data_size += dump_size;
2224         }
2225
2226         offset += vma_data_size;
2227         offset += elf_core_extra_data_size();
2228         e_shoff = offset;
2229
2230         if (e_phnum == PN_XNUM) {
2231                 shdr4extnum = kmalloc(sizeof(*shdr4extnum), GFP_KERNEL);
2232                 if (!shdr4extnum)
2233                         goto end_coredump;
2234                 fill_extnum_info(elf, shdr4extnum, e_shoff, segs);
2235         }
2236
2237         offset = dataoff;
2238
2239         if (!dump_emit(cprm, elf, sizeof(*elf)))
2240                 goto end_coredump;
2241
2242         if (!dump_emit(cprm, phdr4note, sizeof(*phdr4note)))
2243                 goto end_coredump;
2244
2245         /* Write program headers for segments dump */
2246         for (i = 0, vma = first_vma(current, gate_vma); vma != NULL;
2247                         vma = next_vma(vma, gate_vma)) {
2248                 struct elf_phdr phdr;
2249
2250                 phdr.p_type = PT_LOAD;
2251                 phdr.p_offset = offset;
2252                 phdr.p_vaddr = vma->vm_start;
2253                 phdr.p_paddr = 0;
2254                 phdr.p_filesz = vma_filesz[i++];
2255                 phdr.p_memsz = vma->vm_end - vma->vm_start;
2256                 offset += phdr.p_filesz;
2257                 phdr.p_flags = vma->vm_flags & VM_READ ? PF_R : 0;
2258                 if (vma->vm_flags & VM_WRITE)
2259                         phdr.p_flags |= PF_W;
2260                 if (vma->vm_flags & VM_EXEC)
2261                         phdr.p_flags |= PF_X;
2262                 phdr.p_align = ELF_EXEC_PAGESIZE;
2263
2264                 if (!dump_emit(cprm, &phdr, sizeof(phdr)))
2265                         goto end_coredump;
2266         }
2267
2268         if (!elf_core_write_extra_phdrs(cprm, offset))
2269                 goto end_coredump;
2270
2271         /* write out the notes section */
2272         if (!write_note_info(&info, cprm))
2273                 goto end_coredump;
2274
2275         if (elf_coredump_extra_notes_write(cprm))
2276                 goto end_coredump;
2277
2278         /* Align to page */
2279         if (!dump_skip(cprm, dataoff - cprm->file->f_pos))
2280                 goto end_coredump;
2281
2282         for (i = 0, vma = first_vma(current, gate_vma); vma != NULL;
2283                         vma = next_vma(vma, gate_vma)) {
2284                 unsigned long addr;
2285                 unsigned long end;
2286
2287                 end = vma->vm_start + vma_filesz[i++];
2288
2289                 for (addr = vma->vm_start; addr < end; addr += PAGE_SIZE) {
2290                         struct page *page;
2291                         int stop;
2292
2293                         page = get_dump_page(addr);
2294                         if (page) {
2295                                 void *kaddr = kmap(page);
2296                                 stop = !dump_emit(cprm, kaddr, PAGE_SIZE);
2297                                 kunmap(page);
2298                                 put_page(page);
2299                         } else
2300                                 stop = !dump_skip(cprm, PAGE_SIZE);
2301                         if (stop)
2302                                 goto end_coredump;
2303                 }
2304         }
2305
2306         if (!elf_core_write_extra_data(cprm))
2307                 goto end_coredump;
2308
2309         if (e_phnum == PN_XNUM) {
2310                 if (!dump_emit(cprm, shdr4extnum, sizeof(*shdr4extnum)))
2311                         goto end_coredump;
2312         }
2313
2314 end_coredump:
2315         set_fs(fs);
2316
2317 cleanup:
2318         free_note_info(&info);
2319         kfree(shdr4extnum);
2320         kfree(vma_filesz);
2321         kfree(phdr4note);
2322         kfree(elf);
2323 out:
2324         return has_dumped;
2325 }
2326
2327 #endif          /* CONFIG_ELF_CORE */
2328
2329 static int __init init_elf_binfmt(void)
2330 {
2331         register_binfmt(&elf_format);
2332         return 0;
2333 }
2334
2335 static void __exit exit_elf_binfmt(void)
2336 {
2337         /* Remove the COFF and ELF loaders. */
2338         unregister_binfmt(&elf_format);
2339 }
2340
2341 core_initcall(init_elf_binfmt);
2342 module_exit(exit_elf_binfmt);
2343 MODULE_LICENSE("GPL");