run-llama · nerdai · May 1, 2024 · Apr 21, 2024 · Apr 21, 2024 · Apr 26, 2024
diff --git a/llama-index-core/llama_index/core/evaluation/retrieval/metrics.py b/llama-index-core/llama_index/core/evaluation/retrieval/metrics.py
@@ -12,45 +12,51 @@
 
 
 class HitRate(BaseRetrievalMetric):
-    """Hit rate metric."""
+    """Hit rate metric: Compute the proportion of matches between retrieved documents and expected documents."""
 
     metric_name: str = "hit_rate"
 
     def compute(
         self,
-        query: Optional[str] = None,
         expected_ids: Optional[List[str]] = None,
         retrieved_ids: Optional[List[str]] = None,
-        expected_texts: Optional[List[str]] = None,
-        retrieved_texts: Optional[List[str]] = None,
-        **kwargs: Any,
     ) -> RetrievalMetricResult:
         """Compute metric."""
-        if retrieved_ids is None or expected_ids is None:
-            raise ValueError("Retrieved ids and expected ids must be provided")
-        is_hit = any(id in expected_ids for id in retrieved_ids)
-        return RetrievalMetricResult(
-            score=1.0 if is_hit else 0.0,
-        )
+        if (
+            retrieved_ids is None
+            or expected_ids is None
+            or not retrieved_ids
+            or not expected_ids
+        ):
+            raise ValueError("Both retrieved ids and expected ids must be provided")
 
+        expected_set = set(expected_ids)
+        hits = sum(1 for doc_id in retrieved_ids if doc_id in expected_set)
+        score = hits / len(expected_ids) if expected_ids else 0.0
 
-class MRR(BaseRetrievalMetric):
-    """MRR metric."""
+        return RetrievalMetricResult(score=score)
 
-    metric_name: str = "mrr"
+
+class RR(BaseRetrievalMetric):
+    """Reciprocal Rank (RR): Calculates the reciprocal rank of the first, and only the first, relevant retrieved document.
+    returns 0 if no relevant retrieved docs are found.
+    """
+
+    metric_name: str = "rr"
 
     def compute(
         self,
-        query: Optional[str] = None,
         expected_ids: Optional[List[str]] = None,
         retrieved_ids: Optional[List[str]] = None,
-        expected_texts: Optional[List[str]] = None,
-        retrieved_texts: Optional[List[str]] = None,
-        **kwargs: Any,
     ) -> RetrievalMetricResult:
         """Compute metric."""
-        if retrieved_ids is None or expected_ids is None:
-            raise ValueError("Retrieved ids and expected ids must be provided")
+        if (
+            retrieved_ids is None
+            or expected_ids is None
+            or not retrieved_ids
+            or not expected_ids
+        ):
+            raise ValueError("Both retrieved ids and expected ids must be provided")
         for i, id in enumerate(retrieved_ids):
             if id in expected_ids:
                 return RetrievalMetricResult(
@@ -61,6 +67,43 @@ def compute(
         )
 
 
+class MRR(BaseRetrievalMetric):
+    """Mean Reciprocal Rank (MRR): Sums up the reciprocal rank score for each relevant retrieved document.
+    Then divides by the count of relevant documents.
+    """
+
+    metric_name: str = "mrr"
+
+    def compute(
+        self,
+        expected_ids: Optional[List[str]] = None,
+        retrieved_ids: Optional[List[str]] = None,
+    ) -> RetrievalMetricResult:
+        """Compute the Mean Reciprocal Rank given expected document IDs and retrieved document IDs."""
+        if (
+            retrieved_ids is None
+            or expected_ids is None
+            or not retrieved_ids
+            or not expected_ids
+        ):
+            raise ValueError("Both retrieved ids and expected ids must be provided")
+
+        expected_set = set(expected_ids)
+        reciprocal_rank_sum = 0.0
+        relevant_docs_count = 0
+
+        for index, doc_id in enumerate(retrieved_ids):
+            if doc_id in expected_set:
+                relevant_docs_count += 1
+                reciprocal_rank_sum += 1.0 / (index + 1)
+
+        if relevant_docs_count > 0:
+            mrr_score = reciprocal_rank_sum / relevant_docs_count
+            return RetrievalMetricResult(score=mrr_score)
+        else:
+            return RetrievalMetricResult(score=0.0)
+
+
 class CohereRerankRelevancyMetric(BaseRetrievalMetric):
     """Cohere rerank relevancy metric."""
 
@@ -129,6 +172,7 @@ def compute(
 
 METRIC_REGISTRY: Dict[str, Type[BaseRetrievalMetric]] = {
     "hit_rate": HitRate,
+    "rr": RR,
     "mrr": MRR,
     "cohere_rerank_relevancy": CohereRerankRelevancyMetric,
 }

diff --git a/llama-index-core/tests/evaluation/test_rr_mrr_hitrate.py b/llama-index-core/tests/evaluation/test_rr_mrr_hitrate.py
@@ -0,0 +1,121 @@
+from llama_index.core.evaluation.retrieval.metrics import HitRate, RR, MRR
+import pytest
+
+
+# Test cases using pytest
+@pytest.mark.parametrize(
+    ("expected_ids", "retrieved_ids", "expected_result"),
+    [
+        (["id1", "id2", "id3"], ["id3", "id1", "id2", "id4"], 1.0),
+        (["id1", "id2", "id3", "id4"], ["id1", "id5", "id2"], 0.5),
+        (["id1", "id2"], ["id3", "id4"], 0.0),
+    ],
+)
+def test_hit_rate(expected_ids, retrieved_ids, expected_result):
+    hr = HitRate()
+    result = hr.compute(expected_ids, retrieved_ids)
+    assert result.score == expected_result
+
+
+@pytest.mark.parametrize(
+    ("expected_ids", "retrieved_ids", "expected_result"),
+    [
+        # Test cases that reflect the correct computation of RR
+        (
+            ["id1", "id2", "id3"],
+            ["id3", "id1", "id2", "id4"],
+            1 / 1,
+        ),  # id3 is the first match, rank 1
+        (
+            ["id1", "id2", "id3", "id4"],
+            ["id5", "id1"],
+            1 / 2,
+        ),  # id1 is the first match, rank 2
+        (["id1", "id2"], ["id3", "id4"], 0.0),  # No matches found
+        (
+            ["id1", "id2"],
+            ["id2", "id1", "id7"],
+            1 / 1,
+        ),  # id2 is the first match, rank 1
+    ],
+)
+def test_rr(expected_ids, retrieved_ids, expected_result):
+    rr = RR()
+    result = rr.compute(expected_ids, retrieved_ids)
+    assert result.score == pytest.approx(expected_result)
+
+
+@pytest.mark.parametrize(
+    ("expected_ids", "retrieved_ids", "expected_result"),
+    [
+        (
+            ["id1", "id2", "id3"],
+            ["id3", "id1", "id2", "id4"],
+            (((1 / 1) + (1 / 2) + (1 / 3)) / 3),
+        ),
+        (
+            ["id1", "id2", "id3", "id4"],
+            ["id1", "id2", "id5"],
+            (((1 / 1) + (1 / 2)) / 2),
+        ),
+        (["id1", "id2"], ["id3", "id4"], 0.0),
+        (["id1", "id2"], ["id1", "id7", "id15", "id2"], (((1 / 1) + (1 / 4)) / 2)),
+    ],
+)
+def test_mrr(expected_ids, retrieved_ids, expected_result):
+    mrr = MRR()
+    result = mrr.compute(expected_ids, retrieved_ids)
+    assert result.score == pytest.approx(expected_result)
+
+
+# NOTE: The following test cases are specifically for handling ValueErrors
+@pytest.mark.parametrize(
+    ("expected_ids", "retrieved_ids"),
+    [
+        ([], []),  # Empty IDs should trigger ValueError
+        (
+            None,
+            ["id3", "id1", "id2", "id4"],
+        ),  # None expected_ids should trigger ValueError
+        (["id1", "id2", "id3"], None),  # None retrieved_ids should trigger ValueError
+    ],
+)
+def test_hit_rate_exceptions(expected_ids, retrieved_ids):
+    hr = HitRate()
+    with pytest.raises(ValueError):
+        hr.compute(expected_ids, retrieved_ids)
+
+
+@pytest.mark.parametrize(
+    ("expected_ids", "retrieved_ids"),
+    [
+        # Test cases for handling exceptions
+        ([], []),  # Empty IDs should trigger ValueError
+        (
+            None,
+            ["id3", "id1", "id2", "id4"],
+        ),  # None expected_ids should trigger ValueError
+        (["id1", "id2", "id3"], None),  # None retrieved_ids should trigger ValueError
+    ],
+)
+def test_rr_exceptions(expected_ids, retrieved_ids):
+    rr = RR()
+    with pytest.raises(ValueError):
+        rr.compute(expected_ids, retrieved_ids)
+
+
+@pytest.mark.parametrize(
+    ("expected_ids", "retrieved_ids"),
+    [
+        ([], []),  # Empty IDs should trigger ValueError
+        (
+            None,
+            ["id3", "id1", "id2", "id4"],
+        ),  # None expected_ids should trigger ValueError
+        (["id1", "id2", "id3"], None),  # None retrieved_ids should trigger ValueError
+    ],
+)
+def test_mrr_exceptions(expected_ids, retrieved_ids):
+    mrr = MRR()
+    with pytest.raises(ValueError):
+        mrr.compute(expected_ids, retrieved_ids)