Multidense vectors quantization #4202

IvanPleshkov · 2024-05-08T09:40:18Z

Add quantization support for multivectors.

The main idea is to reuse quantization integration for multivectors.

Encoded vectors are a struct which implements EncodedVectors trait.
https://github.com/qdrant/quantization/blob/master/quantization/src/encoded_vectors.rs#L21

There are encoded vectors for scalar, PQ and binary quantizations:
https://github.com/qdrant/quantization/blob/master/quantization/src/encoded_vectors_u8.rs#L262
https://github.com/qdrant/quantization/blob/master/quantization/src/encoded_vectors_pq.rs#L497
https://github.com/qdrant/quantization/blob/master/quantization/src/encoded_vectors_binary.rs#L160

Multivector encoding aggregates one of this structure into generic encoded type
struct QuantizedMultivectorStorage<TEncodedQuery, QuantizedStorage: EncodedVectors<TEncodedQuery>>
https://github.com/qdrant/qdrant/blob/basic-multidense-vectors-quantization/lib/segment/src/vector_storage/quantized/quantized_multivector_storage.rs#L20
It implements EncodedVectors trait.
https://github.com/qdrant/qdrant/blob/basic-multidense-vectors-quantization/lib/segment/src/vector_storage/quantized/quantized_multivector_storage.rs#L136
So we can reuse quantization scorers and extend enum QuantizedVectorStorage:
https://github.com/qdrant/qdrant/blob/basic-multidense-vectors-quantization/lib/segment/src/vector_storage/quantized/quantized_vectors.rs#L44

Encoded query type is Vec<TEncodedQuery>. It's maybe not efficient because it's unflattened data, keep it as is in this PR.

Integration test covers SQ, PQ, BQ, HNSW search, and persistence.

IvanPleshkov · 2024-05-23T11:03:17Z

lib/segment/src/vector_storage/quantized/quantized_multivector_storage.rs

+    pub count: PointOffsetType,
+}
+
+pub struct QuantizedMultivectorStorage<TEncodedQuery, QuantizedStorage>


Quantized multivectors container. It aggregates SQ/PQ/BQ for all inner vectors and contains offsets

IvanPleshkov · 2024-05-23T11:03:35Z

lib/segment/src/vector_storage/quantized/quantized_multivector_storage.rs

+    TEncodedQuery: Sized,
+    QuantizedStorage: EncodedVectors<TEncodedQuery>,
+{
+    quantized_storage: QuantizedStorage,


Quantized storage for all inner vectors

IvanPleshkov · 2024-05-23T11:04:17Z

lib/segment/src/vector_storage/quantized/quantized_multivector_storage.rs

+        })
+    }
+
+    fn score_point_max_similarity(&self, query: &Vec<TEncodedQuery>, vector_index: u32) -> f32 {


We duplicate here MaxSim metric because it uses another interface for metric calculation

maybe we can have a comment mentioning that several implementations need to be kept in sync?

IvanPleshkov · 2024-05-23T11:05:34Z

lib/segment/src/vector_storage/quantized/quantized_multivector_storage.rs

+        )
+    }
+
+    fn encode_query(&self, query: &[f32]) -> Vec<TEncodedQuery> {


EncodedVectors wasn't designed for multivectors, query here is a flattened data. Like with save/load, it requires refactoring

IvanPleshkov · 2024-05-23T11:06:58Z

lib/segment/src/vector_storage/quantized/quantized_scorer_builder.rs

@@ -172,4 +190,68 @@ impl<'a> QuantizedScorerBuilder<'a> {
            }
        }
    }
+
+    fn new_multi_quantized_scorer<TElement, TMetric, TEncodedQuery>(


the same as new_quantized_scorer but for multivectors. It uses QuantizedQueryScorer::new_multi and QuantizedCustomQueryScorer::new_multi inside

IvanPleshkov · 2024-05-23T11:07:54Z