Instructions to use Stanford-ILIAD/minivla-vq-bridge-prismatic with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use Stanford-ILIAD/minivla-vq-bridge-prismatic with Transformers:

# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("image-text-to-text", model="Stanford-ILIAD/minivla-vq-bridge-prismatic")

# Load model directly
from transformers import AutoModel
model = AutoModel.from_pretrained("Stanford-ILIAD/minivla-vq-bridge-prismatic", dtype="auto")

Notebooks
Google Colab
Kaggle
Local Apps Settings

vLLM

How to use Stanford-ILIAD/minivla-vq-bridge-prismatic with vLLM:

Install from pip and serve model

# Install vLLM from pip:
pip install vllm
# Start the vLLM server:
vllm serve "Stanford-ILIAD/minivla-vq-bridge-prismatic"
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:8000/v1/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "Stanford-ILIAD/minivla-vq-bridge-prismatic",
		"prompt": "Once upon a time,",
		"max_tokens": 512,
		"temperature": 0.5
	}'

Use Docker

docker model run hf.co/Stanford-ILIAD/minivla-vq-bridge-prismatic

SGLang

How to use Stanford-ILIAD/minivla-vq-bridge-prismatic with SGLang:

Install from pip and serve model

# Install SGLang from pip:
pip install sglang
# Start the SGLang server:
python3 -m sglang.launch_server \
    --model-path "Stanford-ILIAD/minivla-vq-bridge-prismatic" \
    --host 0.0.0.0 \
    --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "Stanford-ILIAD/minivla-vq-bridge-prismatic",
		"prompt": "Once upon a time,",
		"max_tokens": 512,
		"temperature": 0.5
	}'

Use Docker images

docker run --gpus all \
    --shm-size 32g \
    -p 30000:30000 \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HF_TOKEN=<secret>" \
    --ipc=host \
    lmsysorg/sglang:latest \
    python3 -m sglang.launch_server \
        --model-path "Stanford-ILIAD/minivla-vq-bridge-prismatic" \
        --host 0.0.0.0 \
        --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "Stanford-ILIAD/minivla-vq-bridge-prismatic",
		"prompt": "Once upon a time,",
		"max_tokens": 512,
		"temperature": 0.5
	}'

Docker Model Runner
How to use Stanford-ILIAD/minivla-vq-bridge-prismatic with Docker Model Runner:
```
docker model run hf.co/Stanford-ILIAD/minivla-vq-bridge-prismatic
```

belkhale commited on Dec 12, 2024

Commit

15f0c5c

verified ·

1 Parent(s): f13a9b2

Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

.gitattributes +1 -0
checkpoints/step-362500-epoch-21-loss=0.2259.pt +3 -0
config.json +48 -0
config.yaml +44 -0
dataset_statistics.json +127 -0
prism-qwen25-dinosiglip-224px+0_5b+mx-bridge+n1+b16+x7--bridge_vq_extra_tokenizer_evenlowerlr.jsonl +3 -0
run-metrics.jsonl +1 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+prism-qwen25-dinosiglip-224px+0_5b+mx-bridge+n1+b16+x7--bridge_vq_extra_tokenizer_evenlowerlr.jsonl filter=lfs diff=lfs merge=lfs -text

checkpoints/step-362500-epoch-21-loss=0.2259.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2b1828f4fb96b0b7a4f3d191fde4ee96938b293c70f8616fb44dd85f5c85cadc
+size 5554882540

config.json ADDED Viewed

	@@ -0,0 +1,48 @@

+{
+  "data_root_dir": "/iliad/group/datasets/OXE_OCTO",
+  "hf_token": ".hf_token",
+  "image_aug": false,
+  "is_resume": true,
+  "pretrained_checkpoint": "runs/prism-qwen25-dinosiglip-224px+0_5b+mx-bridge+n1+b16+x7--bridge_vq_extra_tokenizer_lowlr/checkpoints/step-305000-epoch-18-loss=0.5682.pt",
+  "resume_epoch": 18,
+  "resume_step": 305000,
+  "run_id": "prism-qwen25-dinosiglip-224px+0_5b+mx-bridge+n1+b16+x7--bridge_vq_extra_tokenizer_evenlowerlr",
+  "run_id_note": "bridge_vq_extra_tokenizer_evenlowerlr",
+  "run_root_dir": "runs",
+  "save_interval": 2500,
+  "seed": 7,
+  "trackers": [
+    "jsonl",
+    "wandb"
+  ],
+  "vla": {
+    "action_tokenizer": "bridge_vq_extra_action_tokenizer",
+    "base_vlm": "prism-qwen25-extra-dinosiglip-224px+0_5b",
+    "data_mix": "bridge_dataset",
+    "enable_gradient_checkpointing": true,
+    "enable_mixed_precision_training": true,
+    "epochs": 1000,
+    "expected_world_size": 8,
+    "freeze_llm_backbone": false,
+    "freeze_vision_backbone": false,
+    "global_batch_size": 128,
+    "image_sequence_len": 1,
+    "learning_rate": 1e-06,
+    "lr_scheduler_type": "constant",
+    "max_grad_norm": 1.0,
+    "max_steps": null,
+    "per_device_batch_size": 16,
+    "reduce_in_full_precision": true,
+    "save_every_n_steps": 25000,
+    "shuffle_buffer_size": 256000,
+    "train_strategy": "fsdp-full-shard",
+    "type": "prism-qwen25-dinosiglip-224px+0_5b+mx-bridge",
+    "unfreeze_last_llm_layer": false,
+    "use_wrist_image": false,
+    "vla_id": "prism-qwen25-dinosiglip-224px+0_5b+mx-bridge",
+    "warmup_ratio": 0.0,
+    "weight_decay": 0.0
+  },
+  "wandb_entity": null,
+  "wandb_project": "prismatic"
+}

config.yaml ADDED Viewed

	@@ -0,0 +1,44 @@

+data_root_dir: /iliad/group/datasets/OXE_OCTO
+hf_token: .hf_token
+image_aug: false
+is_resume: true
+pretrained_checkpoint: runs/prism-qwen25-dinosiglip-224px+0_5b+mx-bridge+n1+b16+x7--bridge_vq_extra_tokenizer_lowlr/checkpoints/step-305000-epoch-18-loss=0.5682.pt
+resume_epoch: 18
+resume_step: 305000
+run_id: prism-qwen25-dinosiglip-224px+0_5b+mx-bridge+n1+b16+x7--bridge_vq_extra_tokenizer_evenlowerlr
+run_id_note: bridge_vq_extra_tokenizer_evenlowerlr
+run_root_dir: runs
+save_interval: 2500
+seed: 7
+trackers:
+- jsonl
+- wandb
+vla:
+  action_tokenizer: bridge_vq_extra_action_tokenizer
+  base_vlm: prism-qwen25-dinosiglip-224px+0_5b
+  data_mix: bridge_dataset
+  enable_gradient_checkpointing: true
+  enable_mixed_precision_training: true
+  epochs: 1000
+  expected_world_size: 8
+  freeze_llm_backbone: false
+  freeze_vision_backbone: false
+  global_batch_size: 128
+  image_sequence_len: 1
+  learning_rate: 1.0e-06
+  lr_scheduler_type: constant
+  max_grad_norm: 1.0
+  max_steps: null
+  per_device_batch_size: 16
+  reduce_in_full_precision: true
+  save_every_n_steps: 25000
+  shuffle_buffer_size: 256000
+  train_strategy: fsdp-full-shard
+  type: prism-qwen25-dinosiglip-224px+0_5b+mx-bridge
+  unfreeze_last_llm_layer: false
+  use_wrist_image: false
+  vla_id: prism-qwen25-dinosiglip-224px+0_5b+mx-bridge
+  warmup_ratio: 0.0
+  weight_decay: 0.0
+wandb_entity: null
+wandb_project: prismatic

dataset_statistics.json ADDED Viewed

	@@ -0,0 +1,127 @@

+{
+  "bridge_dataset": {
+    "action": {
+      "mean": [
+        0.00023341951600741595,
+        0.00013004841457586735,
+        -0.00012762370170094073,
+        -0.00015565504145342857,
+        -0.00040393343078903854,
+        0.00023557768145110458,
+        0.5764579176902771
+      ],
+      "std": [
+        0.009765920229256153,
+        0.013689135201275349,
+        0.01266736164689064,
+        0.02853427641093731,
+        0.030637990683317184,
+        0.0769147127866745,
+        0.49736854434013367
+      ],
+      "max": [
+        0.41691166162490845,
+        0.25864794850349426,
+        0.21218234300613403,
+        3.122201919555664,
+        1.8618112802505493,
+        6.280478477478027,
+        1.0
+      ],
+      "min": [
+        -0.4007510244846344,
+        -0.13874775171279907,
+        -0.22553899884223938,
+        -3.2010786533355713,
+        -1.8618112802505493,
+        -6.279075622558594,
+        0.0
+      ],
+      "q01": [
+        -0.02872725307941437,
+        -0.04170349963009357,
+        -0.026093858778476715,
+        -0.08092105075716972,
+        -0.09288699507713317,
+        -0.20718276381492615,
+        0.0
+      ],
+      "q99": [
+        0.028309678435325586,
+        0.040855254605412394,
+        0.040161586627364146,
+        0.08192047759890528,
+        0.07792850524187081,
+        0.20382574498653397,
+        1.0
+      ],
+      "mask": [
+        true,
+        true,
+        true,
+        true,
+        true,
+        true,
+        false
+      ]
+    },
+    "proprio": {
+      "mean": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "std": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "max": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "min": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "q01": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ],
+      "q99": [
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0,
+        0.0
+      ]
+    },
+    "num_transitions": 2135463,
+    "num_trajectories": 60064
+  }
+}

prism-qwen25-dinosiglip-224px+0_5b+mx-bridge+n1+b16+x7--bridge_vq_extra_tokenizer_evenlowerlr.jsonl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:79e30022be1b39d861bb03554272c3073a75abd6adf389733eb5b9ccc40fdfc3
+size 76106884

run-metrics.jsonl ADDED Viewed

	@@ -0,0 +1 @@

+ {"hparams": {"data_root_dir": "/iliad/group/datasets/OXE_OCTO", "hf_token": ".hf_token", "image_aug": false, "is_resume": true, "pretrained_checkpoint": "runs/prism-qwen25-dinosiglip-224px+0_5b+mx-bridge+n1+b16+x7--bridge_vq_extra_tokenizer_lowlr/checkpoints/step-305000-epoch-18-loss=0.5682.pt", "resume_epoch": 18, "resume_step": 305000, "run_id": "prism-qwen25-dinosiglip-224px+0_5b+mx-bridge+n1+b16+x7--bridge_vq_extra_tokenizer_evenlowerlr", "run_id_note": "bridge_vq_extra_tokenizer_evenlowerlr", "run_root_dir": "runs", "save_interval": 2500, "seed": 7, "trackers": ["jsonl", "wandb"], "vla": {"action_tokenizer": "bridge_vq_extra_action_tokenizer", "base_vlm": "prism-qwen25-dinosiglip-224px+0_5b", "data_mix": "bridge_dataset", "enable_gradient_checkpointing": true, "enable_mixed_precision_training": true, "epochs": 1000, "expected_world_size": 8, "freeze_llm_backbone": false, "freeze_vision_backbone": false, "global_batch_size": 128, "image_sequence_len": 1, "learning_rate": 1e-06, "lr_scheduler_type": "constant", "max_grad_norm": 1.0, "max_steps": null, "per_device_batch_size": 16, "reduce_in_full_precision": true, "save_every_n_steps": 25000, "shuffle_buffer_size": 256000, "train_strategy": "fsdp-full-shard", "type": "prism-qwen25-dinosiglip-224px+0_5b+mx-bridge", "unfreeze_last_llm_layer": false, "use_wrist_image": false, "vla_id": "prism-qwen25-dinosiglip-224px+0_5b+mx-bridge", "warmup_ratio": 0.0, "weight_decay": 0.0}, "wandb_entity": null, "wandb_project": "prismatic"}, "run_id": "prism-qwen25-dinosiglip-224px+0_5b+mx-bridge+n1+b16+x7--bridge_vq_extra_tokenizer_evenlowerlr"}