Merge branch 'for-linus-4.5' of git://git.kernel.org/pub/scm/linux/kernel/git/mason...

[cascardo/linux.git] / fs / btrfs / ioctl.c
diff --git a/fs/btrfs/ioctl.c b/fs/btrfs/ioctl.c

index e219973..48aee98 100644 (file)
--- a/fs/btrfs/ioctl.c
+++ b/fs/btrfs/ioctl.c
@@ -240,7 +240,7 @@ static int btrfs_ioctl_setflags(struct file *file, void __user *arg)
         if (ret)
                 return ret;
  
-       mutex_lock(&inode->i_mutex);
+       inode_lock(inode);
  
         ip_oldflags = ip->flags;
         i_oldflags = inode->i_flags;
@@ -358,7 +358,7 @@ static int btrfs_ioctl_setflags(struct file *file, void __user *arg)
         }
  
   out_unlock:
-       mutex_unlock(&inode->i_mutex);
+       inode_unlock(inode);
         mnt_drop_write_file(file);
         return ret;
  }
@@ -568,6 +568,10 @@ static noinline int create_subvol(struct inode *dir,
                 goto fail;
         }
  
+       mutex_lock(&new_root->objectid_mutex);
+       new_root->highest_objectid = new_dirid;
+       mutex_unlock(&new_root->objectid_mutex);
+
         /*
          * insert the directory item
          */
@@ -655,22 +659,28 @@ static int create_snapshot(struct btrfs_root *root, struct inode *dir,
         if (!test_bit(BTRFS_ROOT_REF_COWS, &root->state))
                 return -EINVAL;
  
+       pending_snapshot = kzalloc(sizeof(*pending_snapshot), GFP_NOFS);
+       if (!pending_snapshot)
+               return -ENOMEM;
+
+       pending_snapshot->root_item = kzalloc(sizeof(struct btrfs_root_item),
+                       GFP_NOFS);
+       pending_snapshot->path = btrfs_alloc_path();
+       if (!pending_snapshot->root_item || !pending_snapshot->path) {
+               ret = -ENOMEM;
+               goto free_pending;
+       }
+
         atomic_inc(&root->will_be_snapshoted);
         smp_mb__after_atomic();
         btrfs_wait_for_no_snapshoting_writes(root);
  
         ret = btrfs_start_delalloc_inodes(root, 0);
         if (ret)
-               goto out;
+               goto dec_and_free;
  
         btrfs_wait_ordered_extents(root, -1);
  
-       pending_snapshot = kzalloc(sizeof(*pending_snapshot), GFP_NOFS);
-       if (!pending_snapshot) {
-               ret = -ENOMEM;
-               goto out;
-       }
-
         btrfs_init_block_rsv(&pending_snapshot->block_rsv,
                              BTRFS_BLOCK_RSV_TEMP);
         /*
@@ -686,7 +696,7 @@ static int create_snapshot(struct btrfs_root *root, struct inode *dir,
                                         &pending_snapshot->qgroup_reserved,
                                         false);
         if (ret)
-               goto free;
+               goto dec_and_free;
  
         pending_snapshot->dentry = dentry;
         pending_snapshot->root = root;
@@ -737,11 +747,14 @@ fail:
         btrfs_subvolume_release_metadata(BTRFS_I(dir)->root,
                                          &pending_snapshot->block_rsv,
                                          pending_snapshot->qgroup_reserved);
-free:
-       kfree(pending_snapshot);
-out:
+dec_and_free:
         if (atomic_dec_and_test(&root->will_be_snapshoted))
                 wake_up_atomic_t(&root->will_be_snapshoted);
+free_pending:
+       kfree(pending_snapshot->root_item);
+       btrfs_free_path(pending_snapshot->path);
+       kfree(pending_snapshot);
+
         return ret;
  }
  
@@ -868,7 +881,7 @@ out_up_read:
  out_dput:
         dput(dentry);
  out_unlock:
-       mutex_unlock(&dir->i_mutex);
+       inode_unlock(dir);
         return error;
  }
  
@@ -992,7 +1005,7 @@ static struct extent_map *defrag_lookup_extent(struct inode *inode, u64 start)
                 u64 end = start + len - 1;
  
                 /* get the big lock and read metadata off disk */
-               lock_extent_bits(io_tree, start, end, 0, &cached);
+               lock_extent_bits(io_tree, start, end, &cached);
                 em = btrfs_get_extent(inode, NULL, 0, start, len, 0);
                 unlock_extent_cached(io_tree, start, end, &cached, GFP_NOFS);
  
@@ -1016,7 +1029,7 @@ static bool defrag_check_next_extent(struct inode *inode, struct extent_map *em)
         if (!next || next->block_start >= EXTENT_MAP_LAST_BYTE)
                 ret = false;
         else if ((em->block_start + em->block_len == next->block_start) &&
-                (em->block_len > 128 * 1024 && next->block_len > 128 * 1024))
+                (em->block_len > SZ_128K && next->block_len > SZ_128K))
                 ret = false;
  
         free_extent_map(next);
@@ -1140,7 +1153,7 @@ again:
                 page_end = page_start + PAGE_CACHE_SIZE - 1;
                 while (1) {
                         lock_extent_bits(tree, page_start, page_end,
-                                        0, &cached_state);
+                                        &cached_state);
                         ordered = btrfs_lookup_ordered_extent(inode,
                                                               page_start);
                         unlock_extent_cached(tree, page_start, page_end,
@@ -1200,7 +1213,7 @@ again:
         page_end = page_offset(pages[i_done - 1]) + PAGE_CACHE_SIZE;
  
         lock_extent_bits(&BTRFS_I(inode)->io_tree,
-                        page_start, page_end - 1, 0, &cached_state);
+                        page_start, page_end - 1, &cached_state);
         clear_extent_bit(&BTRFS_I(inode)->io_tree, page_start,
                           page_end - 1, EXTENT_DIRTY | EXTENT_DELALLOC |
                           EXTENT_DO_ACCOUNTING | EXTENT_DEFRAG, 0, 0,
@@ -1262,9 +1275,9 @@ int btrfs_defrag_file(struct inode *inode, struct file *file,
         int defrag_count = 0;
         int compress_type = BTRFS_COMPRESS_ZLIB;
         u32 extent_thresh = range->extent_thresh;
-       unsigned long max_cluster = (256 * 1024) >> PAGE_CACHE_SHIFT;
+       unsigned long max_cluster = SZ_256K >> PAGE_CACHE_SHIFT;
         unsigned long cluster = max_cluster;
-       u64 new_align = ~((u64)128 * 1024 - 1);
+       u64 new_align = ~((u64)SZ_128K - 1);
         struct page **pages = NULL;
  
         if (isize == 0)
@@ -1281,7 +1294,7 @@ int btrfs_defrag_file(struct inode *inode, struct file *file,
         }
  
         if (extent_thresh == 0)
-               extent_thresh = 256 * 1024;
+               extent_thresh = SZ_256K;
  
         /*
          * if we were not given a file, allocate a readahead
@@ -1313,7 +1326,7 @@ int btrfs_defrag_file(struct inode *inode, struct file *file,
  
         if (newer_than) {
                 ret = find_new_extents(root, inode, newer_than,
-                                      &newer_off, 64 * 1024);
+                                      &newer_off, SZ_64K);
                 if (!ret) {
                         range->start = newer_off;
                         /*
@@ -1380,18 +1393,18 @@ int btrfs_defrag_file(struct inode *inode, struct file *file,
                         ra_index += cluster;
                 }
  
-               mutex_lock(&inode->i_mutex);
+               inode_lock(inode);
                 if (range->flags & BTRFS_DEFRAG_RANGE_COMPRESS)
                         BTRFS_I(inode)->force_compress = compress_type;
                 ret = cluster_pages_for_defrag(inode, pages, i, cluster);
                 if (ret < 0) {
-                       mutex_unlock(&inode->i_mutex);
+                       inode_unlock(inode);
                         goto out_ra;
                 }
  
                 defrag_count += ret;
                 balance_dirty_pages_ratelimited(inode->i_mapping);
-               mutex_unlock(&inode->i_mutex);
+               inode_unlock(inode);
  
                 if (newer_than) {
                         if (newer_off == (u64)-1)
@@ -1403,9 +1416,8 @@ int btrfs_defrag_file(struct inode *inode, struct file *file,
                         newer_off = max(newer_off + 1,
                                         (u64)i << PAGE_CACHE_SHIFT);
  
-                       ret = find_new_extents(root, inode,
-                                              newer_than, &newer_off,
-                                              64 * 1024);
+                       ret = find_new_extents(root, inode, newer_than,
+                                              &newer_off, SZ_64K);
                         if (!ret) {
                                 range->start = newer_off;
                                 i = (newer_off & new_align) >> PAGE_CACHE_SHIFT;
@@ -1453,9 +1465,9 @@ int btrfs_defrag_file(struct inode *inode, struct file *file,
  
  out_ra:
         if (range->flags & BTRFS_DEFRAG_RANGE_COMPRESS) {
-               mutex_lock(&inode->i_mutex);
+               inode_lock(inode);
                 BTRFS_I(inode)->force_compress = BTRFS_COMPRESS_NONE;
-               mutex_unlock(&inode->i_mutex);
+               inode_unlock(inode);
         }
         if (!file)
                 kfree(ra);
@@ -1571,7 +1583,7 @@ static noinline int btrfs_ioctl_resize(struct file *file,
                 new_size = old_size + new_size;
         }
  
-       if (new_size < 256 * 1024 * 1024) {
+       if (new_size < SZ_256M) {
                 ret = -EINVAL;
                 goto out_free;
         }
@@ -2160,7 +2172,7 @@ static noinline int btrfs_ioctl_tree_search_v2(struct file *file,
         struct inode *inode;
         int ret;
         size_t buf_size;
-       const size_t buf_limit = 16 * 1024 * 1024;
+       const size_t buf_limit = SZ_16M;
  
         if (!capable(CAP_SYS_ADMIN))
                 return -EPERM;
@@ -2418,7 +2430,7 @@ static noinline int btrfs_ioctl_snap_destroy(struct file *file,
                 goto out_dput;
         }
  
-       mutex_lock(&inode->i_mutex);
+       inode_lock(inode);
  
         /*
          * Don't allow to delete a subvolume with send in progress. This is
@@ -2531,7 +2543,7 @@ out_up_write:
                 spin_unlock(&dest->root_item_lock);
         }
  out_unlock_inode:
-       mutex_unlock(&inode->i_mutex);
+       inode_unlock(inode);
         if (!err) {
                 d_invalidate(dentry);
                 btrfs_invalidate_inodes(dest);
@@ -2547,7 +2559,7 @@ out_unlock_inode:
  out_dput:
         dput(dentry);
  out_unlock_dir:
-       mutex_unlock(&dir->i_mutex);
+       inode_unlock(dir);
  out_drop_write:
         mnt_drop_write_file(file);
  out:
@@ -2782,24 +2794,29 @@ out:
  static struct page *extent_same_get_page(struct inode *inode, pgoff_t index)
  {
         struct page *page;
-       struct extent_io_tree *tree = &BTRFS_I(inode)->io_tree;
  
         page = grab_cache_page(inode->i_mapping, index);
         if (!page)
-               return NULL;
+               return ERR_PTR(-ENOMEM);
  
         if (!PageUptodate(page)) {
-               if (extent_read_full_page_nolock(tree, page, btrfs_get_extent,
-                                                0))
-                       return NULL;
+               int ret;
+
+               ret = btrfs_readpage(NULL, page);
+               if (ret)
+                       return ERR_PTR(ret);
                 lock_page(page);
                 if (!PageUptodate(page)) {
                         unlock_page(page);
                         page_cache_release(page);
-                       return NULL;
+                       return ERR_PTR(-EIO);
+               }
+               if (page->mapping != inode->i_mapping) {
+                       unlock_page(page);
+                       page_cache_release(page);
+                       return ERR_PTR(-EAGAIN);
                 }
         }
-       unlock_page(page);
  
         return page;
  }
@@ -2811,17 +2828,31 @@ static int gather_extent_pages(struct inode *inode, struct page **pages,
         pgoff_t index = off >> PAGE_CACHE_SHIFT;
  
         for (i = 0; i < num_pages; i++) {
+again:
                 pages[i] = extent_same_get_page(inode, index + i);
-               if (!pages[i])
-                       return -ENOMEM;
+               if (IS_ERR(pages[i])) {
+                       int err = PTR_ERR(pages[i]);
+
+                       if (err == -EAGAIN)
+                               goto again;
+                       pages[i] = NULL;
+                       return err;
+               }
         }
         return 0;
  }
  
-static inline void lock_extent_range(struct inode *inode, u64 off, u64 len)
+static int lock_extent_range(struct inode *inode, u64 off, u64 len,
+                            bool retry_range_locking)
  {
-       /* do any pending delalloc/csum calc on src, one way or
-          another, and lock file content */
+       /*
+        * Do any pending delalloc/csum calculations on inode, one way or
+        * another, and lock file content.
+        * The locking order is:
+        *
+        *   1) pages
+        *   2) range in the inode's io tree
+        */
         while (1) {
                 struct btrfs_ordered_extent *ordered;
                 lock_extent(&BTRFS_I(inode)->io_tree, off, off + len - 1);
@@ -2839,14 +2870,17 @@ static inline void lock_extent_range(struct inode *inode, u64 off, u64 len)
                 unlock_extent(&BTRFS_I(inode)->io_tree, off, off + len - 1);
                 if (ordered)
                         btrfs_put_ordered_extent(ordered);
+               if (!retry_range_locking)
+                       return -EAGAIN;
                 btrfs_wait_ordered_range(inode, off, len);
         }
+       return 0;
  }
  
  static void btrfs_double_inode_unlock(struct inode *inode1, struct inode *inode2)
  {
-       mutex_unlock(&inode1->i_mutex);
-       mutex_unlock(&inode2->i_mutex);
+       inode_unlock(inode1);
+       inode_unlock(inode2);
  }
  
  static void btrfs_double_inode_lock(struct inode *inode1, struct inode *inode2)
@@ -2854,8 +2888,8 @@ static void btrfs_double_inode_lock(struct inode *inode1, struct inode *inode2)
         if (inode1 < inode2)
                 swap(inode1, inode2);
  
-       mutex_lock_nested(&inode1->i_mutex, I_MUTEX_PARENT);
-       mutex_lock_nested(&inode2->i_mutex, I_MUTEX_CHILD);
+       inode_lock_nested(inode1, I_MUTEX_PARENT);
+       inode_lock_nested(inode2, I_MUTEX_CHILD);
  }
  
  static void btrfs_double_extent_unlock(struct inode *inode1, u64 loff1,
@@ -2865,15 +2899,24 @@ static void btrfs_double_extent_unlock(struct inode *inode1, u64 loff1,
         unlock_extent(&BTRFS_I(inode2)->io_tree, loff2, loff2 + len - 1);
  }
  
-static void btrfs_double_extent_lock(struct inode *inode1, u64 loff1,
-                                    struct inode *inode2, u64 loff2, u64 len)
+static int btrfs_double_extent_lock(struct inode *inode1, u64 loff1,
+                                   struct inode *inode2, u64 loff2, u64 len,
+                                   bool retry_range_locking)
  {
+       int ret;
+
         if (inode1 < inode2) {
                 swap(inode1, inode2);
                 swap(loff1, loff2);
         }
-       lock_extent_range(inode1, loff1, len);
-       lock_extent_range(inode2, loff2, len);
+       ret = lock_extent_range(inode1, loff1, len, retry_range_locking);
+       if (ret)
+               return ret;
+       ret = lock_extent_range(inode2, loff2, len, retry_range_locking);
+       if (ret)
+               unlock_extent(&BTRFS_I(inode1)->io_tree, loff1,
+                             loff1 + len - 1);
+       return ret;
  }
  
  struct cmp_pages {
@@ -2889,11 +2932,15 @@ static void btrfs_cmp_data_free(struct cmp_pages *cmp)
  
         for (i = 0; i < cmp->num_pages; i++) {
                 pg = cmp->src_pages[i];
-               if (pg)
+               if (pg) {
+                       unlock_page(pg);
                         page_cache_release(pg);
+               }
                 pg = cmp->dst_pages[i];
-               if (pg)
+               if (pg) {
+                       unlock_page(pg);
                         page_cache_release(pg);
+               }
         }
         kfree(cmp->src_pages);
         kfree(cmp->dst_pages);
@@ -2954,6 +3001,8 @@ static int btrfs_cmp_data(struct inode *src, u64 loff, struct inode *dst,
  
                 src_page = cmp->src_pages[i];
                 dst_page = cmp->dst_pages[i];
+               ASSERT(PageLocked(src_page));
+               ASSERT(PageLocked(dst_page));
  
                 addr = kmap_atomic(src_page);
                 dst_addr = kmap_atomic(dst_page);
@@ -3014,7 +3063,7 @@ static int btrfs_extent_same(struct inode *src, u64 loff, u64 olen,
                 return 0;
  
         if (same_inode) {
-               mutex_lock(&src->i_mutex);
+               inode_lock(src);
  
                 ret = extent_same_check_offsets(src, loff, &len, olen);
                 if (ret)
@@ -3066,14 +3115,46 @@ static int btrfs_extent_same(struct inode *src, u64 loff, u64 olen,
                 goto out_unlock;
         }
  
+again:
         ret = btrfs_cmp_data_prepare(src, loff, dst, dst_loff, olen, &cmp);
         if (ret)
                 goto out_unlock;
  
         if (same_inode)
-               lock_extent_range(src, same_lock_start, same_lock_len);
+               ret = lock_extent_range(src, same_lock_start, same_lock_len,
+                                       false);
         else
-               btrfs_double_extent_lock(src, loff, dst, dst_loff, len);
+               ret = btrfs_double_extent_lock(src, loff, dst, dst_loff, len,
+                                              false);
+       /*
+        * If one of the inodes has dirty pages in the respective range or
+        * ordered extents, we need to flush dellaloc and wait for all ordered
+        * extents in the range. We must unlock the pages and the ranges in the
+        * io trees to avoid deadlocks when flushing delalloc (requires locking
+        * pages) and when waiting for ordered extents to complete (they require
+        * range locking).
+        */
+       if (ret == -EAGAIN) {
+               /*
+                * Ranges in the io trees already unlocked. Now unlock all
+                * pages before waiting for all IO to complete.
+                */
+               btrfs_cmp_data_free(&cmp);
+               if (same_inode) {
+                       btrfs_wait_ordered_range(src, same_lock_start,
+                                                same_lock_len);
+               } else {
+                       btrfs_wait_ordered_range(src, loff, len);
+                       btrfs_wait_ordered_range(dst, dst_loff, len);
+               }
+               goto again;
+       }
+       ASSERT(ret == 0);
+       if (WARN_ON(ret)) {
+               /* ranges in the io trees already unlocked */
+               btrfs_cmp_data_free(&cmp);
+               return ret;
+       }
  
         /* pass original length for comparison so we stay within i_size */
         ret = btrfs_cmp_data(src, loff, dst, dst_loff, olen, &cmp);
@@ -3089,14 +3170,14 @@ static int btrfs_extent_same(struct inode *src, u64 loff, u64 olen,
         btrfs_cmp_data_free(&cmp);
  out_unlock:
         if (same_inode)
-               mutex_unlock(&src->i_mutex);
+               inode_unlock(src);
         else
                 btrfs_double_inode_unlock(src, dst);
  
         return ret;
  }
  
-#define BTRFS_MAX_DEDUPE_LEN   (16 * 1024 * 1024)
+#define BTRFS_MAX_DEDUPE_LEN   SZ_16M
  
  ssize_t btrfs_dedupe_file_range(struct file *src_file, u64 loff, u64 olen,
                                 struct file *dst_file, u64 dst_loff)
@@ -3396,7 +3477,7 @@ static int btrfs_clone(struct inode *src, struct inode *inode,
                 return ret;
         }
  
-       path->reada = 2;
+       path->reada = READA_FORWARD;
         /* clone data */
         key.objectid = btrfs_ino(src);
         key.type = BTRFS_EXTENT_DATA_KEY;
@@ -3737,7 +3818,7 @@ static noinline int btrfs_clone_files(struct file *file, struct file *file_src,
         if (!same_inode) {
                 btrfs_double_inode_lock(src, inode);
         } else {
-               mutex_lock(&src->i_mutex);
+               inode_lock(src);
         }
  
         /* determine range to clone */
@@ -3783,9 +3864,15 @@ static noinline int btrfs_clone_files(struct file *file, struct file *file_src,
                 u64 lock_start = min_t(u64, off, destoff);
                 u64 lock_len = max_t(u64, off, destoff) + len - lock_start;
  
-               lock_extent_range(src, lock_start, lock_len);
+               ret = lock_extent_range(src, lock_start, lock_len, true);
         } else {
-               btrfs_double_extent_lock(src, off, inode, destoff, len);
+               ret = btrfs_double_extent_lock(src, off, inode, destoff, len,
+                                              true);
+       }
+       ASSERT(ret == 0);
+       if (WARN_ON(ret)) {
+               /* ranges in the io trees already unlocked */
+               goto out_unlock;
         }
  
         ret = btrfs_clone(src, inode, off, olen, len, destoff, 0);
@@ -3808,7 +3895,7 @@ out_unlock:
         if (!same_inode)
                 btrfs_double_inode_unlock(src, inode);
         else
-               mutex_unlock(&src->i_mutex);
+               inode_unlock(src);
         return ret;
  }
  
@@ -4039,7 +4126,7 @@ static long btrfs_ioctl_space_info(struct btrfs_root *root, void __user *arg)
                 return -ENOMEM;
  
         space_args.total_spaces = 0;
-       dest = kmalloc(alloc_size, GFP_NOFS);
+       dest = kmalloc(alloc_size, GFP_KERNEL);
         if (!dest)
                 return -ENOMEM;
         dest_orig = dest;
@@ -4416,7 +4503,7 @@ static long btrfs_ioctl_logical_to_ino(struct btrfs_root *root,
                 goto out;
         }
  
-       size = min_t(u32, loi->size, 64 * 1024);
+       size = min_t(u32, loi->size, SZ_64K);
         inodes = init_data_container(size);
         if (IS_ERR(inodes)) {
                 ret = PTR_ERR(inodes);
@@ -4565,7 +4652,7 @@ locked:
                 goto out_bargs;
         }
  
-       bctl = kzalloc(sizeof(*bctl), GFP_NOFS);
+       bctl = kzalloc(sizeof(*bctl), GFP_KERNEL);
         if (!bctl) {
                 ret = -ENOMEM;
                 goto out_bargs;
@@ -4651,7 +4738,7 @@ static long btrfs_ioctl_balance_progress(struct btrfs_root *root,
                 goto out;
         }
  
-       bargs = kzalloc(sizeof(*bargs), GFP_NOFS);
+       bargs = kzalloc(sizeof(*bargs), GFP_KERNEL);
         if (!bargs) {
                 ret = -ENOMEM;
                 goto out;
@@ -4911,7 +4998,7 @@ static long btrfs_ioctl_quota_rescan_status(struct file *file, void __user *arg)
         if (!capable(CAP_SYS_ADMIN))
                 return -EPERM;
  
-       qsa = kzalloc(sizeof(*qsa), GFP_NOFS);
+       qsa = kzalloc(sizeof(*qsa), GFP_KERNEL);
         if (!qsa)
                 return -ENOMEM;
  
@@ -5041,7 +5128,7 @@ static long btrfs_ioctl_set_received_subvol_32(struct file *file,
                 goto out;
         }
  
-       args64 = kmalloc(sizeof(*args64), GFP_NOFS);
+       args64 = kmalloc(sizeof(*args64), GFP_KERNEL);
         if (!args64) {
                 ret = -ENOMEM;
                 goto out;
@@ -5178,7 +5265,7 @@ out_unlock:
  static int btrfs_ioctl_get_supported_features(struct file *file,
                                               void __user *arg)
  {
-       static struct btrfs_ioctl_feature_flags features[3] = {
+       static const struct btrfs_ioctl_feature_flags features[3] = {
                 INIT_FEATURE_FLAGS(SUPP),
                 INIT_FEATURE_FLAGS(SAFE_SET),
                 INIT_FEATURE_FLAGS(SAFE_CLEAR)