mimo-v2-omni（多模态理解）

Developing

POST

/v1/chat/completions

https://platform.xiaomimimo.com/#/docs/usage-guide/multimodal-understanding/image-understanding
单独理解图片、视频、音频是可以的。
同时传递这些，大模型有时候返回的内容质量不高

Request

Authorization

Provide your bearer token in the

Authorization

header when making requests to protected resources.

Example:

Authorization: Bearer ********************

Body Params application/jsonRequired

Example

{
    "model": "mimo-v2-omni",
    "messages": [
        {
            "role": "system",
            "content": "You are MiMo, an AI assistant developed by Xiaomi. Today is date: Tuesday, December 16, 2025. Your knowledge cutoff date is December 2024."
        },
        {
            "role": "user",
            "content": [
                {
                    "type": "video_url",
                    "video_url": {
                        "url": "https://example-files.cnbj1.mi-fds.com/example-files/video/video_example.mp4"
                    },
                    "fps": 2,
                    "media_resolution": "default"
                },
                {
                    "type": "input_audio",
                    "input_audio": {
                        "data": "https://example-files.cnbj1.mi-fds.com/example-files/audio/audio_example.wav"
                    }
                },
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://example-files.cnbj1.mi-fds.com/example-files/image/image_example.png"
                    }
                },
                {
                    "type": "text",
                    "text": "描述一下这个视频、音频、图片的主要内容。每个附件的描述不少于20个字。"
                }
            ]
        }
    ],
    "max_completion_tokens": 1024
}

Request Code Samples

Shell

JavaScript

Java

Swift

PHP

Python

HTTP

Objective-C

Ruby

OCaml

Dart

curl --location --request POST 'https://api.toiotech.com/v1/chat/completions' \
--header 'Authorization: Bearer <token>' \
--header 'Content-Type: application/json' \
--data-raw '{
    "model": "mimo-v2-omni",
    "messages": [
        {
            "role": "system",
            "content": "You are MiMo, an AI assistant developed by Xiaomi. Today is date: Tuesday, December 16, 2025. Your knowledge cutoff date is December 2024."
        },
        {
            "role": "user",
            "content": [
                {
                    "type": "video_url",
                    "video_url": {
                        "url": "https://example-files.cnbj1.mi-fds.com/example-files/video/video_example.mp4"
                    },
                    "fps": 2,
                    "media_resolution": "default"
                },
                {
                    "type": "input_audio",
                    "input_audio": {
                        "data": "https://example-files.cnbj1.mi-fds.com/example-files/audio/audio_example.wav"
                    }
                },
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://example-files.cnbj1.mi-fds.com/example-files/image/image_example.png"
                    }
                },
                {
                    "type": "text",
                    "text": "描述一下这个视频、音频、图片的主要内容。每个附件的描述不少于20个字。"
                }
            ]
        }
    ],
    "max_completion_tokens": 1024
}'

Responses

🟢200Success

application/json

Body

Example

{
    "id": "47e182ef6cac4bc9bc07c7c825561239",
    "choices": [
        {
            "finish_reason": "stop",
            "index": 0,
            "message": {
                "content": "### 视频内容  \n视频展示了一只白色蓝眼睛的小猫坐在窗边的木质台面上，阳光透过浅色窗帘柔和地洒在它身上，背景有绿色植物点缀，整体氛围温馨宁静，小猫姿态可爱，光影效果温暖治愈。  \n\n\n### 音频内容  \n音频包含清晨的鸟鸣声与自然环境的细微声响，营造出宁静清新的氛围，仿佛置身于户外清晨的静谧场景中，声音柔和悦耳，传递出平和放松的感觉。  \n\n\n### 图片内容  \n图片呈现了一片茂密的森林，溪流蜿蜒穿过其间，阳光透过树木枝叶洒下金色光束，溪边布满苔藓、蕨类植物，石头错落分布，画面静谧清新，充满自然生机与治愈感。",
                "role": "assistant",
                "tool_calls": null,
                "reasoning_content": "用户现在需要分别描述视频、音频、图片的内容，每个不少于20字。首先看视频部分，视频里是一只白色蓝眼睛的小猫坐在窗边，阳光透过窗帘洒进来，背景有绿植，所以要描述清楚场景、主体、光线等。然后音频，音频里有鸟鸣声，可能还有环境音，比如自然的声音，所以要说明音频的内容，比如清晨的鸟鸣，营造的氛围。图片部分，图片是森林里的溪流，阳光透过树木，苔藓、蕨类植物，所以要描述森林溪流的景象，阳光、植被、水流等。\n\n首先处理视频：视频展示了一只白色蓝眼睛的小猫坐在窗边的木质台面上，阳光透过浅色窗帘洒在它身上，背景有绿色植物，整体氛围温馨宁静，小猫姿态可爱，画面充满温暖的光影效果。\n\n然后音频：音频包含清晨的鸟鸣声，可能还有自然环境的细微声响，营造出宁静清新的氛围，仿佛置身于清晨的户外，声音柔和悦耳，传递出平和的感觉。\n\n图片：图片呈现了一片茂密的森林，溪流蜿蜒穿过，阳光透过树木枝叶洒下光束，溪边布满苔藓和蕨类植物，石头错落，整体画面静谧清新，充满自然生机。\n\n现在需要确保每个描述不少于20字，检查一下：\n\n视频描述：视频中一只白色蓝眼睛的小猫坐在窗边木质台面上，阳光透过窗帘洒下，背景有绿植，画面温馨宁静，小猫姿态可爱，光影温暖。\n\n音频描述：音频包含清晨的鸟鸣声与自然环境音，营造出宁静清新的氛围，仿佛置身户外清晨，声音柔和悦耳，传递平和感。\n\n图片描述：图片展现茂密森林中溪流蜿蜒，阳光透过树木洒下光束，溪边苔藓蕨类繁茂，石头错落，画面静谧清新，充满自然生机。\n\n这样每个都超过20字了，现在整理成清晰的描述，分别对应视频、音频、图片。"
            }
        }
    ],
    "created": 1773893429,
    "model": "mimo-v2-omni",
    "object": "chat.completion",
    "usage": {
        "completion_tokens": 609,
        "prompt_tokens": 2033,
        "total_tokens": 2642,
        "completion_tokens_details": {
            "reasoning_tokens": 438
        },
        "prompt_tokens_details": {
            "audio_tokens": 45,
            "cached_tokens": 14,
            "image_tokens": 1024,
            "video_tokens": 858
        }
    }
}

Modified at 2026-03-19 04:12:36

mimo-v2-pro

图片生成