InternLM · LZHgrla · Feb 5, 2024 · Feb 5, 2024 · Feb 29, 2024 · Feb 29, 2024
diff --git a/...arge_p14_336/finetune/llava_internlm2_chat_20b_clip_vit_large_p14_336_e1_gpu8_finetune.py b/...arge_p14_336/finetune/llava_internlm2_chat_20b_clip_vit_large_p14_336_e1_gpu8_finetune.py
@@ -30,7 +30,8 @@
 data_path = data_root + 'LLaVA-Instruct-150K/llava_v1_5_mix665k.json'
 image_folder = data_root + 'llava_images'
 prompt_template = PROMPT_TEMPLATE.internlm2_chat
-max_length = int(2048 - (336 / 14)**2)
+max_length = 2048
+per_image_length = int(336 / 14)**2  # inferred from the visual encoder
 
 # Scheduler & Optimizer
 batch_size = 4  # per_device
@@ -96,6 +97,7 @@
     template_map_fn=dict(
         type=template_map_fn_factory, template=prompt_template),
     max_length=max_length,
+    per_image_length=per_image_length,
     pad_image_to_square=True)
 
 train_dataloader = dict(

diff --git a/...6/finetune/llava_internlm2_chat_20b_qlora_clip_vit_large_p14_336_lora_e1_gpu8_finetune.py b/...6/finetune/llava_internlm2_chat_20b_qlora_clip_vit_large_p14_336_lora_e1_gpu8_finetune.py
@@ -32,7 +32,8 @@
 data_path = data_root + 'LLaVA-Instruct-150K/llava_v1_5_mix665k.json'
 image_folder = data_root + 'llava_images'
 prompt_template = PROMPT_TEMPLATE.internlm2_chat
-max_length = int(2048 - (336 / 14)**2)
+max_length = 2048
+per_image_length = int(336 / 14)**2  # inferred from the visual encoder
 
 # Scheduler & Optimizer
 batch_size = 8  # per_device
@@ -115,6 +116,7 @@
     template_map_fn=dict(
         type=template_map_fn_factory, template=prompt_template),
     max_length=max_length,
+    per_image_length=per_image_length,
     pad_image_to_square=True)
 
 train_dataloader = dict(

diff --git a/...arge_p14_336/pretrain/llava_internlm2_chat_20b_clip_vit_large_p14_336_e1_gpu8_pretrain.py b/...arge_p14_336/pretrain/llava_internlm2_chat_20b_clip_vit_large_p14_336_e1_gpu8_pretrain.py
@@ -29,7 +29,8 @@
 data_path = data_root + 'LLaVA-Pretrain/blip_laion_cc_sbu_558k.json'
 image_folder = data_root + 'LLaVA-Pretrain/images'
 prompt_template = PROMPT_TEMPLATE.internlm2_chat
-max_length = int(2048 - (336 / 14)**2)
+max_length = 2048
+per_image_length = int(336 / 14)**2  # inferred from the visual encoder
 
 # Scheduler & Optimizer
 batch_size = 32  # per_device
@@ -102,6 +103,7 @@
     template_map_fn=dict(
         type=template_map_fn_factory, template=prompt_template),
     max_length=max_length,
+    per_image_length=per_image_length,
     pad_image_to_square=False)
 
 train_dataloader = dict(

diff --git a/...large_p14_336/finetune/llava_internlm2_chat_7b_clip_vit_large_p14_336_e1_gpu8_finetune.py b/...large_p14_336/finetune/llava_internlm2_chat_7b_clip_vit_large_p14_336_e1_gpu8_finetune.py
@@ -30,7 +30,8 @@
 data_path = data_root + 'LLaVA-Instruct-150K/llava_v1_5_mix665k.json'
 image_folder = data_root + 'llava_images'
 prompt_template = PROMPT_TEMPLATE.internlm2_chat
-max_length = int(2048 - (336 / 14)**2)
+max_length = 2048
+per_image_length = int(336 / 14)**2  # inferred from the visual encoder
 
 # Scheduler & Optimizer
 batch_size = 8  # per_device
@@ -95,6 +96,7 @@
     template_map_fn=dict(
         type=template_map_fn_factory, template=prompt_template),
     max_length=max_length,
+    per_image_length=per_image_length,
     pad_image_to_square=True)
 
 train_dataloader = dict(

diff --git a/...36/finetune/llava_internlm2_chat_7b_qlora_clip_vit_large_p14_336_lora_e1_gpu8_finetune.py b/...36/finetune/llava_internlm2_chat_7b_qlora_clip_vit_large_p14_336_lora_e1_gpu8_finetune.py
@@ -32,7 +32,8 @@
 data_path = data_root + 'LLaVA-Instruct-150K/llava_v1_5_mix665k.json'
 image_folder = data_root + 'llava_images'
 prompt_template = PROMPT_TEMPLATE.internlm2_chat
-max_length = int(2048 - (336 / 14)**2)
+max_length = 2048
+per_image_length = int(336 / 14)**2  # inferred from the visual encoder
 
 # Scheduler & Optimizer
 batch_size = 16  # per_device
@@ -115,6 +116,7 @@
     template_map_fn=dict(
         type=template_map_fn_factory, template=prompt_template),
     max_length=max_length,
+    per_image_length=per_image_length,
     pad_image_to_square=True)
 
 train_dataloader = dict(

diff --git a/...large_p14_336/pretrain/llava_internlm2_chat_7b_clip_vit_large_p14_336_e1_gpu8_pretrain.py b/...large_p14_336/pretrain/llava_internlm2_chat_7b_clip_vit_large_p14_336_e1_gpu8_pretrain.py
@@ -29,7 +29,8 @@
 data_path = data_root + 'LLaVA-Pretrain/blip_laion_cc_sbu_558k.json'
 image_folder = data_root + 'LLaVA-Pretrain/images'
 prompt_template = PROMPT_TEMPLATE.internlm2_chat
-max_length = int(2048 - (336 / 14)**2)
+max_length = 2048
+per_image_length = int(336 / 14)**2  # inferred from the visual encoder
 
 # Scheduler & Optimizer
 batch_size = 32  # per_device
@@ -102,6 +103,7 @@
     template_map_fn=dict(
         type=template_map_fn_factory, template=prompt_template),
     max_length=max_length,
+    per_image_length=per_image_length,
     pad_image_to_square=False)
 
 train_dataloader = dict(

diff --git a/..._large_p14_336/finetune/llava_internlm_chat_7b_clip_vit_large_p14_336_e1_gpu8_finetune.py b/..._large_p14_336/finetune/llava_internlm_chat_7b_clip_vit_large_p14_336_e1_gpu8_finetune.py
@@ -30,7 +30,8 @@
 data_path = data_root + 'LLaVA-Instruct-150K/llava_v1_5_mix665k.json'
 image_folder = data_root + 'llava_images'
 prompt_template = PROMPT_TEMPLATE.internlm_chat
-max_length = int(2048 - (336 / 14)**2)
+max_length = 2048
+per_image_length = int(336 / 14)**2  # inferred from the visual encoder
 
 # Scheduler & Optimizer
 batch_size = 16  # per_device
@@ -95,6 +96,7 @@
     template_map_fn=dict(
         type=template_map_fn_factory, template=prompt_template),
     max_length=max_length,
+    per_image_length=per_image_length,
     pad_image_to_square=True)
 
 train_dataloader = dict(

diff --git a/...336/finetune/llava_internlm_chat_7b_qlora_clip_vit_large_p14_336_lora_e1_gpu8_finetune.py b/...336/finetune/llava_internlm_chat_7b_qlora_clip_vit_large_p14_336_lora_e1_gpu8_finetune.py
@@ -32,7 +32,8 @@
 data_path = data_root + 'LLaVA-Instruct-150K/llava_v1_5_mix665k.json'
 image_folder = data_root + 'llava_images'
 prompt_template = PROMPT_TEMPLATE.internlm_chat
-max_length = int(2048 - (336 / 14)**2)
+max_length = 2048
+per_image_length = int(336 / 14)**2  # inferred from the visual encoder
 
 # Scheduler & Optimizer
 batch_size = 16  # per_device
@@ -115,6 +116,7 @@
     template_map_fn=dict(
         type=template_map_fn_factory, template=prompt_template),
     max_length=max_length,
+    per_image_length=per_image_length,
     pad_image_to_square=True)
 
 train_dataloader = dict(

diff --git a/..._large_p14_336/pretrain/llava_internlm_chat_7b_clip_vit_large_p14_336_e1_gpu8_pretrain.py b/..._large_p14_336/pretrain/llava_internlm_chat_7b_clip_vit_large_p14_336_e1_gpu8_pretrain.py
@@ -29,7 +29,8 @@
 data_path = data_root + 'LLaVA-Pretrain/blip_laion_cc_sbu_558k.json'
 image_folder = data_root + 'LLaVA-Pretrain/images'
 prompt_template = PROMPT_TEMPLATE.internlm_chat
-max_length = int(2048 - (336 / 14)**2)
+max_length = 2048
+per_image_length = int(336 / 14)**2  # inferred from the visual encoder
 
 # Scheduler & Optimizer
 batch_size = 32  # per_device
@@ -102,6 +103,7 @@
     template_map_fn=dict(
         type=template_map_fn_factory, template=prompt_template),
     max_length=max_length,
+    per_image_length=per_image_length,
     pad_image_to_square=False)
 
 train_dataloader = dict(

diff --git a/...it_large_p14_336/finetune/llava_vicuna_13b_v15_clip_vit_large_p14_336_e1_gpu8_finetune.py b/...it_large_p14_336/finetune/llava_vicuna_13b_v15_clip_vit_large_p14_336_e1_gpu8_finetune.py
@@ -30,7 +30,8 @@
 data_path = data_root + 'LLaVA-Instruct-150K/llava_v1_5_mix665k.json'
 image_folder = data_root + 'llava_images'
 prompt_template = PROMPT_TEMPLATE.vicuna
-max_length = int(2048 - (336 / 14)**2)
+max_length = 2048
+per_image_length = int(336 / 14)**2  # inferred from the visual encoder
 
 # Scheduler & Optimizer
 batch_size = 16  # per_device
@@ -95,6 +96,7 @@
     template_map_fn=dict(
         type=template_map_fn_factory, template=prompt_template),
     max_length=max_length,
+    per_image_length=per_image_length,
     pad_image_to_square=True)
 
 train_dataloader = dict(

diff --git a/...4_336/finetune/llava_vicuna_13b_v15_qlora_clip_vit_large_p14_336_lora_e1_gpu8_finetune.py b/...4_336/finetune/llava_vicuna_13b_v15_qlora_clip_vit_large_p14_336_lora_e1_gpu8_finetune.py
@@ -32,7 +32,8 @@
 data_path = data_root + 'LLaVA-Instruct-150K/llava_v1_5_mix665k.json'
 image_folder = data_root + 'llava_images'
 prompt_template = PROMPT_TEMPLATE.vicuna
-max_length = int(2048 - (336 / 14)**2)
+max_length = 2048
+per_image_length = int(336 / 14)**2  # inferred from the visual encoder
 
 # Scheduler & Optimizer
 batch_size = 16  # per_device
@@ -115,6 +116,7 @@
     template_map_fn=dict(
         type=template_map_fn_factory, template=prompt_template),
     max_length=max_length,
+    per_image_length=per_image_length,
     pad_image_to_square=True)
 
 train_dataloader = dict(

diff --git a/...it_large_p14_336/pretrain/llava_vicuna_13b_v15_clip_vit_large_p14_336_e1_gpu8_pretrain.py b/...it_large_p14_336/pretrain/llava_vicuna_13b_v15_clip_vit_large_p14_336_e1_gpu8_pretrain.py
@@ -29,7 +29,8 @@
 data_path = data_root + 'LLaVA-Pretrain/blip_laion_cc_sbu_558k.json'
 image_folder = data_root + 'LLaVA-Pretrain/images'
 prompt_template = PROMPT_TEMPLATE.vicuna
-max_length = int(2048 - (336 / 14)**2)
+max_length = 2048
+per_image_length = int(336 / 14)**2  # inferred from the visual encoder
 
 # Scheduler & Optimizer
 batch_size = 32  # per_device
@@ -102,6 +103,7 @@
     template_map_fn=dict(
         type=template_map_fn_factory, template=prompt_template),
     max_length=max_length,
+    per_image_length=per_image_length,
     pad_image_to_square=False)
 
 train_dataloader = dict(

diff --git a/...vit_large_p14_336/finetune/llava_vicuna_7b_v15_clip_vit_large_p14_336_e1_gpu8_finetune.py b/...vit_large_p14_336/finetune/llava_vicuna_7b_v15_clip_vit_large_p14_336_e1_gpu8_finetune.py
@@ -30,7 +30,8 @@
 data_path = data_root + 'LLaVA-Instruct-150K/llava_v1_5_mix665k.json'
 image_folder = data_root + 'llava_images'
 prompt_template = PROMPT_TEMPLATE.vicuna
-max_length = int(2048 - (336 / 14)**2)
+max_length = 2048
+per_image_length = int(336 / 14)**2  # inferred from the visual encoder
 
 # Scheduler & Optimizer
 batch_size = 16  # per_device
@@ -95,6 +96,7 @@
     template_map_fn=dict(
         type=template_map_fn_factory, template=prompt_template),
     max_length=max_length,
+    per_image_length=per_image_length,
     pad_image_to_square=True)
 
 train_dataloader = dict(

diff --git a/...14_336/finetune/llava_vicuna_7b_v15_qlora_clip_vit_large_p14_336_lora_e1_gpu8_finetune.py b/...14_336/finetune/llava_vicuna_7b_v15_qlora_clip_vit_large_p14_336_lora_e1_gpu8_finetune.py
@@ -32,7 +32,8 @@
 data_path = data_root + 'LLaVA-Instruct-150K/llava_v1_5_mix665k.json'
 image_folder = data_root + 'llava_images'
 prompt_template = PROMPT_TEMPLATE.vicuna
-max_length = int(2048 - (336 / 14)**2)
+max_length = 2048
+per_image_length = int(336 / 14)**2  # inferred from the visual encoder
 
 # Scheduler & Optimizer
 batch_size = 16  # per_device
@@ -115,6 +116,7 @@
     template_map_fn=dict(
         type=template_map_fn_factory, template=prompt_template),
     max_length=max_length,
+    per_image_length=per_image_length,
     pad_image_to_square=True)
 
 train_dataloader = dict(

diff --git a/...vit_large_p14_336/pretrain/llava_vicuna_7b_v15_clip_vit_large_p14_336_e1_gpu8_pretrain.py b/...vit_large_p14_336/pretrain/llava_vicuna_7b_v15_clip_vit_large_p14_336_e1_gpu8_pretrain.py
@@ -29,7 +29,8 @@
 data_path = data_root + 'LLaVA-Pretrain/blip_laion_cc_sbu_558k.json'
 image_folder = data_root + 'LLaVA-Pretrain/images'
 prompt_template = PROMPT_TEMPLATE.vicuna
-max_length = int(2048 - (336 / 14)**2)
+max_length = 2048
+per_image_length = int(336 / 14)**2  # inferred from the visual encoder
 
 # Scheduler & Optimizer
 batch_size = 32  # per_device
@@ -102,6 +103,7 @@
     template_map_fn=dict(
         type=template_map_fn_factory, template=prompt_template),
     max_length=max_length,
+    per_image_length=per_image_length,
     pad_image_to_square=False)
 
 train_dataloader = dict(

diff --git a/xtuner/dataset/__init__.py b/xtuner/dataset/__init__.py
@@ -17,19 +17,10 @@
 warnings.simplefilter(action='ignore', category=FutureWarning)
 
 __all__ = [
-    'process_hf_dataset',
-    'ConcatDataset',
-    'MOSSSFTDataset',
-    'process_ms_dataset',
-    'LLaVADataset',
-    'expand2square',
-    'decode_base64_to_image',
-    'load_image',
-    'process_ms_dataset',
+    'process_hf_dataset', 'ConcatDataset', 'MOSSSFTDataset',
+    'process_ms_dataset', 'LLaVADataset', 'expand2square',
+    'decode_base64_to_image', 'load_image', 'process_ms_dataset',
     'load_intern_repo_tokenized_dataset',
-    'load_intern_repo_untokenized_dataset',
-    'build_packed_dataset',
-    'RefCOCOJsonDataset',
-    'RefCOCOJsonEvalDataset',
-    'InvRefCOCOJsonDataset',
+    'load_intern_repo_untokenized_dataset', 'build_packed_dataset',
+    'RefCOCOJsonDataset', 'RefCOCOJsonEvalDataset', 'InvRefCOCOJsonDataset'
 ]
diff --git a/xtuner/dataset/collate_fns/defalut_collate_fn.py b/xtuner/dataset/collate_fns/defalut_collate_fn.py
@@ -33,7 +33,10 @@ def default_collate_fn(instances: Sequence[Dict],
             indexes.append(torch.LongTensor(example['indexes']))
 
         if has_image:
-            pixel_values.append(example['pixel_values'])
+            if isinstance(example['pixel_values'], list):
+                pixel_values.extend(example['pixel_values'])
+            else:
+                pixel_values.append(example['pixel_values'])
 
     if len(instances) > 1:
         input_ids = pad_sequence(