Multilingual Parallel Text Corpus - a tuandunghcmut Collection

tuandunghcmut 's Collections

Agentic Benchmarks

Tool Calling dataset for search domain

Document Layout Analysis Dataset

Post-training Dataset

Visual Chain-of-Thought Reasoning Benchmarks

LLM for Security Benchmarks/Datasets

Visual-CoT/GCoT related

Text Embedding Papers

Quantized versions of LLMs/MLLMs

Multilingual Sentiment Analysis Dataset

LLM/MLLM (20B - 80B, fit on 1-2 A100/H100)

MLLM (100B - 300B)

Benchmarks for evaluating LLMs/MLLMs

Conversation Dataset

Multilingual Parallel Text Corpus

Multilingual Pretraining Corpus for Southeast Asian Language

Multilingual Parallel Text Corpus

updated Mar 26