Nous faisons désormais partie du programme NVIDIA Inception.Lire l'annonce
NLP arabe

Intelligence arabe native. Conçue, pas traduite.

La plupart des IA « arabes » ne sont que des modèles anglais contraints de traduire. MX4 Platform est différent. Nous reconstruisons des fondations open source avec une tokenisation arabe native et un alignement culturel, offrant les LLM les plus performants et conformes de la région MENA.

The MX4 Methodology

From Generalist to Specialist

Generic models treat Arabic as a second-class citizen. We rebuild them from the token level up.

01. Foundation

Open Source Base

We start with world-class open weights models (Llama 3, Mistral) as our cognitive engine.

  • 7B-70B Parameters
  • English Fluency
  • Reasoning Core
02. Adaptation

Vocabulary Expansion

We reconstruct the tokenizer, adding 20,000+ native Arabic tokens to reduce fragmentation.

  • +250% Efficiency
  • Native Script Support
  • Dialect Coverage
03. Knowledge

Continued Pre-training

Injecting 100 Billion tokens of high-quality Arabic data (Modern Standard & Dialects).

  • Regional History
  • Legal Frameworks
  • Cultural Nuance
04. Alignment

Cultural Fine-Tuning

Instruction tuning and RLHF specifically designed for MENA cultural and ethical values.

  • Sovereign-ready
  • Safety tuning
  • Regional Values

Performance Metrics

Sovereign, Yet Superior

MX4 Platform outperforms standard open-source models on Arabic tasks and rivals proprietary clouds.

Arabic Reasoning
MMLU (Arabic Translated)
MX4 Platform68.4%
GPT-4o72.0%
Llama 3 Base52.1%
Approaching GPT-4 performance with 1/10th the inference cost.
Cultural Alignment
Regional Context Accuracy
MX4 Platform94.7%
GPT-4o72.0%
Llama 3 Base68.2%
Native understanding of MENA idioms, laws, and customs.
Token Efficiency
Tokens per Word
MX4 Platform1.6
GPT-4o2.8
Llama 3 Base4.2
2.6x faster generation and lower cost.

Linguistic Diversity

One Model, Many Voices

The Arab world is not a monolith. MX4 Platform is the first foundational model trained on a balanced corpus of Modern Standard Arabic and regional dialects.

From formal government decrees in MSA to customer service chatbots in Saudi dialect, we cover the full spectrum of communication.

Modern Standard Arabic
Pan-Arab
MSA
Gulf (Khaleeji)
Saudi, UAE, Kuwait
GLF
Levantine
Jordan, Lebanon, Syria
LEV
Egyptian
Egypt
EGY
Maghrebi
Morocco, Algeria
MAG
MENA
Coverage
22 Nations
400M+ Speakers

Défi

Pourquoi les modèles standard échouent

Les modèles standard (comme GPT-4 ou Llama de base) découpent les mots arabes en de nombreux petits fragments sans signification. Cela augmente les coûts, la latence et les taux d'hallucination.

La solution MX4 : Nous avons élargi le vocabulaire de plus de 20 000 tokens natifs. Nos modèles « voient » des mots arabes entiers, pas seulement des lettres.

Modèle standard
4,2 tokens
par mot arabe
MX4 Platform
1,6 tokens
par mot arabe
Llama 3 standard (Fragmentation)
الذكاء الاصطناعي
VS
MX4 Platform (Compréhension native)
الذكاء الاصطناعي

Open Source

Propulsé par l'open source

Nous ne réinventons pas la roue ; nous la renforçons. En nous appuyant sur les meilleurs modèles open-weights au monde — Llama 3 de Meta, Mistral et d'autres — nous concentrons notre énergie sur le dernier kilomètre : Alignement culturel et déploiement souverain.

Deploy Arabic-First AI

Bring sovereign Arabic intelligence on-prem in weeks, not months.

Talk to MX4 Platform specialists to scope a dialect-focused deployment, benchmarks, and data residency plan.