Name: Data Anomaly Detector
Availability: InStock
Author: datadrivenconstruction

Data Anomaly Detector for Construction

Overview

Detect unusual patterns, outliers, and anomalies in construction data. Identify cost overruns, schedule delays, productivity issues, and data quality problems before they impact projects.

Business Case

Construction data often contains anomalies that indicate:

Cost estimate errors or fraud
Schedule logic issues
Productivity problems
Data entry mistakes
Equipment or material issues

Early detection prevents costly corrections and project delays.

Technical Implementation

from dataclasses import dataclass, field
from typing import List, Dict, Any, Optional, Tuple
from enum import Enum
import pandas as pd
import numpy as np
from datetime import datetime
from scipy import stats
class AnomalyType(Enum):
OUTLIER = "outlier"
PATTERN_BREAK = "pattern_break"
MISSING_SEQUENCE = "missing_sequence"
DUPLICATE = "duplicate"
IMPOSSIBLE_VALUE = "impossible_value"
TREND_DEVIATION = "trend_deviation"
class AnomalySeverity(Enum):
CRITICAL = "critical"
HIGH = "high"
MEDIUM = "medium"
LOW = "low"
@dataclass
class Anomaly:
id: str
anomaly_type: AnomalyType
severity: AnomalySeverity
field: str
value: Any
expected_range: Optional[Tuple[float, float]] = None
description: str = ""
row_index: Optional[int] = None
detection_method: str = ""
confidence: float = 0.0
suggested_action: str = ""
@dataclass
class AnomalyReport:
source: str
detected_at: datetime
total_records: int
anomalies: List[Anomaly]
summary: Dict[str, int]
class ConstructionAnomalyDetector:
"""Detect anomalies in construction data."""
# Construction-specific thresholds
COST_THRESHOLDS = {
    &#x27;concrete_per_cy&#x27;: (200, 800),
    &#x27;steel_per_ton&#x27;: (1500, 4000),
    &#x27;labor_per_hour&#x27;: (25, 150),
    &#x27;overhead_percentage&#x27;: (5, 25),
    &#x27;contingency_percentage&#x27;: (3, 20),
}

SCHEDULE_THRESHOLDS = {
    &#x27;max_activity_duration&#x27;: 365,  # days
    &#x27;max_lag&#x27;: 30,  # days
    &#x27;min_productivity&#x27;: 0.1,
    &#x27;max_productivity&#x27;: 10.0,
}

def __init__(self):
    self.anomalies: List[Anomaly] = []
    self.detection_history: List[AnomalyReport] = []

def detect_cost_anomalies(self, df: pd.DataFrame, cost_column: str,
                          group_by: str = None) -&gt; List[Anomaly]:
    &quot;&quot;&quot;Detect anomalies in cost data.&quot;&quot;&quot;
    anomalies = []

    # Statistical outlier detection (IQR method)
    Q1 = df[cost_column].quantile(0.25)
    Q3 = df[cost_column].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR

    outliers = df[(df[cost_column] &lt; lower_bound) | (df[cost_column] &gt; upper_bound)]

    for idx, row in outliers.iterrows():
        value = row[cost_column]
        severity = AnomalySeverity.HIGH if abs(value - df[cost_column].median()) &gt; 3 * IQR else AnomalySeverity.MEDIUM

        anomalies.append(Anomaly(
            id=f&quot;COST-{idx}&quot;,
            anomaly_type=AnomalyType.OUTLIER,
            severity=severity,
            field=cost_column,
            value=value,
            expected_range=(lower_bound, upper_bound),
            description=f&quot;Cost value {value:,.2f} outside expected range&quot;,
            row_index=idx,
            detection_method=&quot;IQR&quot;,
            confidence=0.95,
            suggested_action=&quot;Review cost estimate for errors&quot;
        ))

    # Negative cost check
    negatives = df[df[cost_column] &lt; 0]
    for idx, row in negatives.iterrows():
        anomalies.append(Anomaly(
            id=f&quot;COST-NEG-{idx}&quot;,
            anomaly_type=AnomalyType.IMPOSSIBLE_VALUE,
            severity=AnomalySeverity.CRITICAL,
            field=cost_column,
            value=row[cost_column],
            expected_range=(0, None),
            description=&quot;Negative cost value detected&quot;,
            row_index=idx,
            detection_method=&quot;Business Rule&quot;,
            confidence=1.0,
            suggested_action=&quot;Correct data entry error or investigate credit&quot;
        ))

    # Group-based anomalies (if grouped)
    if group_by and group_by in df.columns:
        group_stats = df.groupby(group_by)[cost_column].agg([&#x27;mean&#x27;, &#x27;std&#x27;])

        for group_name, stats in group_stats.iterrows():
            group_data = df[df[group_by] == group_name]
            z_scores = np.abs((group_data[cost_column] - stats[&#x27;mean&#x27;]) / stats[&#x27;std&#x27;])

            for idx, z in z_scores.items():
                if z &gt; 3:
                    anomalies.append(Anomaly(
                        id=f&quot;COST-GROUP-{idx}&quot;,
                        anomaly_type=AnomalyType.OUTLIER,
                        severity=AnomalySeverity.MEDIUM,
                        field=cost_column,
                        value=df.loc[idx, cost_column],
                        description=f&quot;Unusual cost for group {group_name} (z-score: {z:.2f})&quot;,
                        row_index=idx,
                        detection_method=&quot;Z-Score by Group&quot;,
                        confidence=min(z / 5, 1.0)
                    ))

    return anomalies

def detect_schedule_anomalies(self, df: pd.DataFrame) -&gt; List[Anomaly]:
    &quot;&quot;&quot;Detect anomalies in schedule data.&quot;&quot;&quot;
    anomalies = []

    # Check for required columns
    required = [&#x27;start_date&#x27;, &#x27;end_date&#x27;]
    if not all(col in df.columns for col in required):
        return anomalies

    # Convert dates
    df[&#x27;start_date&#x27;] = pd.to_datetime(df[&#x27;start_date&#x27;])
    df[&#x27;end_date&#x27;] = pd.to_datetime(df[&#x27;end_date&#x27;])

    # Calculate duration
    df[&#x27;duration&#x27;] = (df[&#x27;end_date&#x27;] - df[&#x27;start_date&#x27;]).dt.days

    # Negative duration (end before start)
    negative_duration = df[df[&#x27;duration&#x27;] &lt; 0]
    for idx, row in negative_duration.iterrows():
        anomalies.append(Anomaly(
            id=f&quot;SCHED-NEG-{idx}&quot;,
            anomaly_type=AnomalyType.IMPOSSIBLE_VALUE,
            severity=AnomalySeverity.CRITICAL,
            field=&quot;duration&quot;,
            value=row[&#x27;duration&#x27;],
            description=&quot;End date before start date&quot;,
            row_index=idx,
            detection_method=&quot;Business Rule&quot;,
            confidence=1.0,
            suggested_action=&quot;Correct dates&quot;
        ))

    # Extremely long durations
    long_tasks = df[df[&#x27;duration&#x27;] &gt; self.SCHEDULE_THRESHOLDS[&#x27;max_activity_duration&#x27;]]
    for idx, row in long_tasks.iterrows():
        anomalies.append(Anomaly(
            id=f&quot;SCHED-LONG-{idx}&quot;,
            anomaly_type=AnomalyType.OUTLIER,
            severity=AnomalySeverity.MEDIUM,
            field=&quot;duration&quot;,
            value=row[&#x27;duration&#x27;],
            expected_range=(0, self.SCHEDULE_THRESHOLDS[&#x27;max_activity_duration&#x27;]),
            description=f&quot;Task duration {row[&#x27;duration&#x27;]} days exceeds threshold&quot;,
            row_index=idx,
            detection_method=&quot;Threshold&quot;,
            confidence=0.9,
            suggested_action=&quot;Review if task should be broken down&quot;
        ))

    # Zero duration non-milestones
    if &#x27;is_milestone&#x27; in df.columns:
        zero_duration = df[(df[&#x27;duration&#x27;] == 0) &amp; (~df[&#x27;is_milestone&#x27;])]
        for idx, row in zero_duration.iterrows():
            anomalies.append(Anomaly(
                id=f&quot;SCHED-ZERO-{idx}&quot;,
                anomaly_type=AnomalyType.IMPOSSIBLE_VALUE,
                severity=AnomalySeverity.HIGH,
                field=&quot;duration&quot;,
                value=0,
                description=&quot;Zero duration task that is not a milestone&quot;,
                row_index=idx,
                detection_method=&quot;Business Rule&quot;,
                confidence=1.0,
                suggested_action=&quot;Add duration or mark as milestone&quot;
            ))

    return anomalies

def detect_productivity_anomalies(self, df: pd.DataFrame,
                                  quantity_col: str,
                                  hours_col: str) -&gt; List[Anomaly]:
    &quot;&quot;&quot;Detect productivity anomalies.&quot;&quot;&quot;
    anomalies = []

    # Calculate productivity
    df[&#x27;productivity&#x27;] = df[quantity_col] / df[hours_col].replace(0, np.nan)

    # Use Modified Z-Score (more robust for skewed data)
    median = df[&#x27;productivity&#x27;].median()
    mad = np.abs(df[&#x27;productivity&#x27;] - median).median()
    modified_z = 0.6745 * (df[&#x27;productivity&#x27;] - median) / mad

    outliers = df[np.abs(modified_z) &gt; 3.5]

    for idx, row in outliers.iterrows():
        prod = row[&#x27;productivity&#x27;]
        z = modified_z.loc[idx]

        severity = AnomalySeverity.HIGH if abs(z) &gt; 5 else AnomalySeverity.MEDIUM
        direction = &quot;high&quot; if z &gt; 0 else &quot;low&quot;

        anomalies.append(Anomaly(
            id=f&quot;PROD-{idx}&quot;,
            anomaly_type=AnomalyType.OUTLIER,
            severity=severity,
            field=&quot;productivity&quot;,
            value=prod,
            description=f&quot;Unusually {direction} productivity: {prod:.2f} units/hour&quot;,
            row_index=idx,
            detection_method=&quot;Modified Z-Score&quot;,
            confidence=min(abs(z) / 7, 1.0),
            suggested_action=f&quot;Investigate {direction} productivity cause&quot;
        ))

    return anomalies

def detect_time_series_anomalies(self, df: pd.DataFrame,
                                  date_col: str,
                                  value_col: str,
                                  window: int = 7) -&gt; List[Anomaly]:
    &quot;&quot;&quot;Detect anomalies in time series data (e.g., daily costs, progress).&quot;&quot;&quot;
    anomalies = []

    df = df.sort_values(date_col).copy()
    df[&#x27;rolling_mean&#x27;] = df[value_col].rolling(window=window, center=True).mean()
    df[&#x27;rolling_std&#x27;] = df[value_col].rolling(window=window, center=True).std()

    # Points outside 2 standard deviations from rolling mean
    df[&#x27;z_score&#x27;] = (df[value_col] - df[&#x27;rolling_mean&#x27;]) / df[&#x27;rolling_std&#x27;]

    outliers = df[np.abs(df[&#x27;z_score&#x27;]) &gt; 2].dropna()

    for idx, row in outliers.iterrows():
        anomalies.append(Anomaly(
            id=f&quot;TS-{idx}&quot;,
            anomaly_type=AnomalyType.TREND_DEVIATION,
            severity=AnomalySeverity.MEDIUM if abs(row[&#x27;z_score&#x27;]) &lt; 3 else AnomalySeverity.HIGH,
            field=value_col,
            value=row[value_col],
            expected_range=(
                row[&#x27;rolling_mean&#x27;] - 2 * row[&#x27;rolling_std&#x27;],
                row[&#x27;rolling_mean&#x27;] + 2 * row[&#x27;rolling_std&#x27;]
            ),
            description=f&quot;Value deviates from {window}-day trend&quot;,
            row_index=idx,
            detection_method=&quot;Rolling Z-Score&quot;,
            confidence=min(abs(row[&#x27;z_score&#x27;]) / 4, 1.0)
        ))

    return anomalies

def detect_duplicate_anomalies(self, df: pd.DataFrame,
                               key_columns: List[str]) -&gt; List[Anomaly]:
    &quot;&quot;&quot;Detect duplicate records.&quot;&quot;&quot;
    anomalies = []

    duplicates = df[df.duplicated(subset=key_columns, keep=False)]

    if len(duplicates) &gt; 0:
        dup_groups = duplicates.groupby(key_columns).size()
        for keys, count in dup_groups.items():
            anomalies.append(Anomaly(
                id=f&quot;DUP-{hash(str(keys)) % 10000}&quot;,
                anomaly_type=AnomalyType.DUPLICATE,
                severity=AnomalySeverity.HIGH,
                field=str(key_columns),
                value=keys,
                description=f&quot;Found {count} duplicate records for {keys}&quot;,
                detection_method=&quot;Exact Match&quot;,
                confidence=1.0,
                suggested_action=&quot;Review and remove duplicates&quot;
            ))

    return anomalies

def detect_sequence_gaps(self, df: pd.DataFrame, sequence_col: str) -&gt; List[Anomaly]:
    &quot;&quot;&quot;Detect gaps in sequential data (invoice numbers, PO numbers, etc.).&quot;&quot;&quot;
    anomalies = []

    # Extract numeric part if mixed format
    df[&#x27;seq_num&#x27;] = pd.to_numeric(
        df[sequence_col].astype(str).str.extract(r&#x27;(\d+)&#x27;)[0],
        errors=&#x27;coerce&#x27;
    )

    sorted_seq = df[&#x27;seq_num&#x27;].dropna().sort_values()
    expected = range(int(sorted_seq.min()), int(sorted_seq.max()) + 1)
    actual = set(sorted_seq.astype(int))
    missing = set(expected) - actual

    if missing:
        # Group consecutive missing numbers
        missing_ranges = []
        sorted_missing = sorted(missing)
        start = sorted_missing[0]
        end = start

        for num in sorted_missing[1:]:
            if num == end + 1:
                end = num
            else:
                missing_ranges.append((start, end))
                start = num
                end = num
        missing_ranges.append((start, end))

        for start, end in missing_ranges:
            range_str = str(start) if start == end else f&quot;{start}-{end}&quot;
            anomalies.append(Anomaly(
                id=f&quot;SEQ-{start}&quot;,
                anomaly_type=AnomalyType.MISSING_SEQUENCE,
                severity=AnomalySeverity.MEDIUM,
                field=sequence_col,
                value=range_str,
                description=f&quot;Missing sequence number(s): {range_str}&quot;,
                detection_method=&quot;Sequence Analysis&quot;,
                confidence=1.0,
                suggested_action=&quot;Investigate missing numbers&quot;
            ))

    return anomalies

def run_full_detection(self, df: pd.DataFrame, config: Dict) -&gt; AnomalyReport:
    &quot;&quot;&quot;Run all applicable anomaly detection methods.&quot;&quot;&quot;
    all_anomalies = []

    # Cost anomalies
    if &#x27;cost_columns&#x27; in config:
        for col in config[&#x27;cost_columns&#x27;]:
            if col in df.columns:
                all_anomalies.extend(
                    self.detect_cost_anomalies(df, col, config.get(&#x27;group_by&#x27;))
                )

    # Schedule anomalies
    if &#x27;start_date&#x27; in df.columns and &#x27;end_date&#x27; in df.columns:
        all_anomalies.extend(self.detect_schedule_anomalies(df))

    # Productivity
    if &#x27;quantity_col&#x27; in config and &#x27;hours_col&#x27; in config:
        all_anomalies.extend(
            self.detect_productivity_anomalies(
                df, config[&#x27;quantity_col&#x27;], config[&#x27;hours_col&#x27;]
            )
        )

    # Duplicates
    if &#x27;key_columns&#x27; in config:
        all_anomalies.extend(
            self.detect_duplicate_anomalies(df, config[&#x27;key_columns&#x27;])
        )

    # Sequence gaps
    if &#x27;sequence_column&#x27; in config:
        all_anomalies.extend(
            self.detect_sequence_gaps(df, config[&#x27;sequence_column&#x27;])
        )

    # Create summary
    summary = {}
    for a in all_anomalies:
        key = f&quot;{a.anomaly_type.value}_{a.severity.value}&quot;
        summary[key] = summary.get(key, 0) + 1

    report = AnomalyReport(
        source=config.get(&#x27;source_name&#x27;, &#x27;Unknown&#x27;),
        detected_at=datetime.now(),
        total_records=len(df),
        anomalies=all_anomalies,
        summary=summary
    )

    self.detection_history.append(report)
    return report

def generate_report(self, report: AnomalyReport) -&gt; str:
    &quot;&quot;&quot;Generate markdown anomaly report.&quot;&quot;&quot;
    lines = [f&quot;# Anomaly Detection Report&quot;, &quot;&quot;]
    lines.append(f&quot;**Source:** {report.source}&quot;)
    lines.append(f&quot;**Detected At:** {report.detected_at.strftime(&#x27;%Y-%m-%d %H:%M&#x27;)}&quot;)
    lines.append(f&quot;**Total Records:** {report.total_records:,}&quot;)
    lines.append(f&quot;**Anomalies Found:** {len(report.anomalies)}&quot;)
    lines.append(&quot;&quot;)

    # Summary by severity
    lines.append(&quot;## Summary by Severity&quot;)
    for severity in AnomalySeverity:
        count = sum(1 for a in report.anomalies if a.severity == severity)
        if count &gt; 0:
            lines.append(f&quot;- **{severity.value.upper()}:** {count}&quot;)
    lines.append(&quot;&quot;)

    # Critical anomalies first
    critical = [a for a in report.anomalies if a.severity == AnomalySeverity.CRITICAL]
    if critical:
        lines.append(&quot;## Critical Anomalies&quot;)
        for a in critical:
            lines.append(f&quot;\n### {a.id}&quot;)
            lines.append(f&quot;- **Type:** {a.anomaly_type.value}&quot;)
            lines.append(f&quot;- **Field:** {a.field}&quot;)
            lines.append(f&quot;- **Value:** {a.value}&quot;)
            lines.append(f&quot;- **Description:** {a.description}&quot;)
            lines.append(f&quot;- **Action:** {a.suggested_action}&quot;)

    # All anomalies table
    lines.append(&quot;\n## All Anomalies&quot;)
    lines.append(&quot;| ID | Type | Severity | Field | Description |&quot;)
    lines.append(&quot;|-----|------|----------|-------|-------------|&quot;)
    for a in report.anomalies[:50]:
        lines.append(f&quot;| {a.id} | {a.anomaly_type.value} | {a.severity.value} | {a.field} | {a.description[:50]} |&quot;)

    if len(report.anomalies) &gt; 50:
        lines.append(f&quot;\n*... and {len(report.anomalies) - 50} more anomalies*&quot;)

    return &quot;\n&quot;.join(lines)

Quick Start

import pandas as pd
Load data
df = pd.read_excel("project_costs.xlsx")
Initialize detector
detector = ConstructionAnomalyDetector()
Run detection
config = {
'source_name': 'Project Costs Q1 2026',
'cost_columns': ['total_cost', 'labor_cost', 'material_cost'],
'group_by': 'cost_code',
'key_columns': ['project_id', 'cost_code', 'date'],
'sequence_column': 'invoice_number'
}
report = detector.run_full_detection(df, config)
Generate report
print(detector.generate_report(report))
Get critical anomalies for immediate action
critical = [a for a in report.anomalies if a.severity == AnomalySeverity.CRITICAL]
print(f"\n{len(critical)} critical anomalies require immediate attention")

Dependencies

pip install pandas numpy scipy

Resources

Statistical Methods: IQR, Z-Score, Modified Z-Score
Construction Benchmarks: RSMeans, ENR indices

Data Anomaly Detector

AI Skill Market Insights

Be Part of the 0+ Developer Community

Data Anomaly Detector for Construction

Overview

Business Case

Technical Implementation

Quick Start

Load data

Initialize detector

Run detection

Generate report

Get critical anomalies for immediate action

Dependencies

Resources

Quick Start

Manual Installation

TEAR & SHARE

Tags

Data Engineer

Data Scientist

Data Analysis

PostgreSQL

Snowflake MCP Connection

Channels

Learn

Compare

Company

Agents