LEAD: Linear Embedding Alignment across Deep Neural Network Language Models' Representations

Model Family	Variant	Architecture	Dimension	Parameters	Training Data
BAAI BGE	large-v1.5	DeBERTa-V3	1024	335M	330M+ text pairs
	base-v1.5		768	110M
	small-v1.5		384	33M
E5	large-v2	DeBERTa-V3	1024	335M	CCNet + web data
	base-v2		768	110M
	small-v2		384	33M
GTE	large	DeBERTa-V3	1024	335M	MS MARCO + public datasets
	base		768	110M
	small		384	33M
T5-based	gtr-t5-large	T5 encoder	768	770M	C4 + MS MARCO
	gtr-t5-base		768	110M	C4 + MS MARCO
	sentence-t5-large		768	770M	C4 + NLI datasets
	sentence-t5-base		768	220M	C4 + NLI datasets
UAE	large-v1	RoBERTa	1024	355M	Adversarial training
MXBai	embed-large-v1	DeBERTa-V3	1024	335M	700M+ pairs contrastive training, 30M+ fine tuning
OpenAI	text-embedding-3-large	Proprietary	3072	-	Not public
OpenAI	text-embedding-3-small	Proprietary	1536	-	Not public

Model Family	Variant	Architecture	Dimension	Parameters	Training Data
OpenAI	text-embedding-3-large	Proprietary	3072	-	Not public
OpenAI	text-embedding-3-small	Proprietary	1536	-	Not public
UAE	large-v1	RoBERTa	1024	355M	Adversarial training
BAAI BGE	large-v1.5	DeBERTa-V3	1024	335M	330M+ text pairs
E5	large-v2	DeBERTa-V3	1024	335M	CCNet + web data
GTE	large	DeBERTa-V3	1024	335M	MS MARCO + public datasets
MXBai	embed-large-v1	DeBERTa-V3	1024	335M	700M+ pairs contrastive training, 30M+ fine tuning
T5-based	gtr-t5-large	T5 encoder	1024	770M	C4 + MS MARCO
	gtr-t5-base		768	110M	C4 + MS MARCO
	sentence-t5-large		1024	770M	C4 + NLI datasets
	sentence-t5-base		768	220M	C4 + NLI datasets
BAAI BGE	base-v1.5	DeBERTa-V3	768	110M	330M+ text pairs
E5	base-v2	DeBERTa-V3	768	110M	CCNet + web data
GTE	base	DeBERTa-V3	768	110M	MS MARCO + public datasets
BAAI BGE	small-v1.5	DeBERTa-V3	384	33M	330M+ text pairs
E5	small-v2	DeBERTa-V3	384	33M	CCNet + web data
GTE	small	DeBERTa-V3	384	33M	MS MARCO + public datasets

Model Family	Variant	Architecture	Dimension	Parameters	Training Data
OpenAI	text-embedding-3-large	Proprietary	3072	?	Not public
OpenAI	text-embedding-3-small	Proprietary	1536	?	Not public
T5-based	gtr-t5-large	T5 encoder	768	770M	C4 + MS MARCO
T5-based	sentence-t5-large	T5 encoder	768	770M	C4 + NLI datasets
UAE	large-v1	RoBERTa	1024	355M	Adversarial training
BAAI BGE	large-v1.5	DeBERTa-V3	1024	335M	330M+ text pairs
E5	large-v2	DeBERTa-V3	1024	335M	CCNet + web data
GTE	large	DeBERTa-V3	1024	335M	MS MARCO + public datasets
MXBai	embed-large-v1	DeBERTa-V3	1024	335M	700M+ pairs contrastive training, 30M+ fine tuning
T5-based	gtr-t5-base	T5 encoder	768	110M	C4 + MS MARCO
T5-based	sentence-t5-base	T5 encoder	768	220M	C4 + NLI datasets
BAAI BGE	base-v1.5	DeBERTa-V3	768	110M	330M+ text pairs
E5	base-v2	DeBERTa-V3	768	110M	CCNet + web data
GTE	base	DeBERTa-V3	768	110M	MS MARCO + public datasets
BAAI BGE	small-v1.5	DeBERTa-V3	384	33M	330M+ text pairs
E5	small-v2	DeBERTa-V3	384	33M	CCNet + web data
GTE	small	DeBERTa-V3	384	33M	MS MARCO + public datasets