[Feature] Hybrid Data Pipeline #495

pppppM · 2024-03-19T20:40:35Z

No description provided.

pppppM · 2024-03-19T20:43:29Z

xiaohangguo · 2024-03-20T07:21:05Z

我做了一个 one-shot ，学着写一个，python解释器的样例，佬看一下对不对
@pppppM @fanqiNO1

[
    {
        "messages": [
            {
                "role": "user",
                "content": "帮我用scipy计算一个矩阵的逆"
            },
            {
                "role": "assistant",
                "content": "Sure, I will perform the matrix inversion using scipy.",
                "function_call": {
                    "name": "python_interpreter",
                    "parameters": {
                        "code": "import scipy.linalg\nscipy.linalg.inv([[1, 2], [3, 4]])"
                    }
                }
            },
            {
                "role": "function",
                "name": "python_interpreter",
                "content": "array([[-2. ,  1. ],\n       [ 1.5, -0.5]])"
            },
            {
                "role": "assistant",
                "content": "使用 scipy 计算出的矩阵的逆是 [[-2. , 1. ], [1.5, -0.5]]"
            }
        ],
        "functions": [
            {
                "name": "python_interpreter",
                "description": "Execute Python code and return the result",
                "parameters": {
                    "type": "object",
                    "properties": {
                        "code": {
                            "type": "string",
                            "description": "Python code to be executed"
                        },
                        "required": ["code"]
                    }
                }
            }
        ]
    }
]

hhaAndroid · 2024-03-20T08:37:00Z

xtuner/configs/internlm/internlm2_chat_1_8b/hybrid/internlm2_chat_1_8b_function_call.py

+
+
+model = dict(
+    type=HybridFinetune,


这个名字有点奇怪，要不叫做 HybridFinetuneModel，不过还有一个疑问，如果直接写了 finetune，用户会不会以为只能 finetune model 而不能 pretrain model？

hhaAndroid · 2024-03-20T08:38:10Z

xtuner/configs/internlm/internlm2_chat_1_8b/hybrid/internlm2_chat_1_8b_function_call.py

+    chat_template=chat_template,
+    max_length=max_length,
+    pack_to_max_length=True,
+    num_workers = dataloader_num_workers,


这个地方也有 dataloader_num_workers?

hhaAndroid · 2024-03-20T08:49:53Z

xtuner/configs/internlm/internlm2_chat_1_8b/hybrid/internlm2_chat_1_8b_llava_sft.py

+    type=HybridDataset,
+    data_dir=data_dir,
+    data_files=data_files,
+    data_cached='cached_llava',


支持自动 cached 功能，即用户指定 data_cached 路径后，如果不存在则自动缓存，如果存在则直接读取并告诉用户

hhaAndroid · 2024-03-20T08:56:08Z

xtuner/configs/internlm/internlm2_chat_1_8b/hybrid/multi_modal.json

+                "role": "user",
+                "content": [
+                    {
+                        "type": "image_url",


这个地方感觉无法做到通用，因为可能会插入一些图片区分的 token，大部分情况下可能都会要重写 tokenizer 逻辑

同样的问题，是否有办法兼容以下这几种处理方式？

<image> Picture X: <image> <IMG><image></IMG>

hhaAndroid · 2024-03-20T08:58:06Z

xtuner/dataset/hybrid/_pack.py

+        self.dataset = dataset
+
+        self._ori_img_urls = dataset['image_urls']
+        self._ori_img_rngs = dataset['image_ranges']


需要加点注释，否则不知道这个字段是啥意思

hhaAndroid · 2024-03-20T09:03:01Z

xtuner/dataset/hybrid/collate.py

+        'pixel_values': pixel_values,
+        'cumulative_len': cumulative_len,
+        'image_ranges': image_ranges,
+        'image_belong': image_belong


感觉要说明下，有些字段只有在特定模式下才需要吧，如果没有点注释，自定义会很难

hhaAndroid · 2024-03-20T09:06:02Z

xtuner/dataset/hybrid/dataset.py

+from xtuner.types import HybridChatTemplate
+from xtuner.utils import build_tokenizer
+
+os.environ['TOKENIZERS_PARALLELISM'] = 'true'


这种环境变量有没有 false 的可能，如果有，则最好可以通过让用户环境变量设置，默认值为 true

考虑加前缀？XTUNER_XXXXXXX

hhaAndroid · 2024-03-20T09:06:59Z

xtuner/dataset/hybrid/dataset.py

+    added_keys=dict(tokens=int),
+)
+def _register_tokens(data, tokenizer=None, chat_template=None):
+    data['tokens'] = len(data['input_ids'])


感觉 tokens 这个名字难以理解，最好应该是 token_len 清晰很多

直接叫length？对齐transformers的一些默认行为，同时方便 LengthGroupedSampler
https://huggingface.co/docs/transformers/v4.39.1/en/main_classes/trainer#transformers.TrainingArguments.length_column_name

hhaAndroid · 2024-03-20T09:07:55Z

xtuner/dataset/hybrid/dataset.py

+    added_keys=dict(position_ids=list),
+)
+def _register_position_ids(data, tokenizer=None, chat_template=None):
+    data['position_ids'] = [i for i in range(len(data['input_ids']))]


Suggested change

data['position_ids'] = [i for i in range(len(data['input_ids']))]

data['position_ids'] = list(range(len(data['input_ids'])))

hhaAndroid · 2024-03-20T09:23:06Z

xtuner/dataset/hybrid/dataset.py

+    input_keys=dict(input_ids=list),
+    added_keys=dict(cumulative_len=list),
+)
+def _register_cumulative_len(data, tokenizer=None, chat_template=None):


过于简单的函数，可以考虑不要这个封装，否则看起来有点复杂，过度设计

LZHgrla · 2024-03-27T11:05:22Z