train.build_dataset¶

Training dataset builder: join features with labels, apply exclusion rules, split by time, and write X.parquet, y.parquet, and splits.json.

Usage¶

from pathlib import Path
from taskclf.train.build_dataset import build_training_dataset

manifest = build_training_dataset(
    features_df,
    label_spans,
    output_dir=Path("data/processed/training_dataset"),
    train_ratio=0.70,
    val_ratio=0.15,
    holdout_user_fraction=0.1,
)
print(manifest.total_rows, manifest.train_rows)

Label projection uses project_blocks_to_windows() with strict containment rules per time_spec.md Section 6: full window must fall inside a single block, conflicting multi-block overlaps are dropped.

Output artifacts¶

File	Contents
`X.parquet`	Feature columns + ID columns (`user_id`, `bucket_start_ts`, `session_id`) + `schema_version`
`y.parquet`	`user_id`, `bucket_start_ts`, `label`, `provenance`
`splits.json`	Train/val/test index lists, holdout users, and metadata (schema versions, class distribution, user count)

Exclusion rules¶

Windows are dropped from the dataset if:

They overlap multiple label blocks with conflicting labels or have no covering label.
All numeric features are null (no useful signal).
They belong to sessions shorter than MIN_BLOCK_DURATION_SECONDS (180s = 3 buckets).

`taskclf.train.build_dataset` ¶

Training dataset builder: join, exclude, split, and write X/y/splits artifacts.

`DatasetManifest` ¶

Bases: BaseModel

Summary returned by :func:build_training_dataset.

Source code in src/taskclf/train/build_dataset.py

class DatasetManifest(BaseModel, frozen=True):
    """Summary returned by :func:`build_training_dataset`."""

    x_path: str
    y_path: str
    splits_path: str
    total_rows: int
    train_rows: int
    val_rows: int
    test_rows: int
    excluded_rows: int
    holdout_users: list[str]
    class_distribution: dict[str, int]

`build_training_dataset(features_df, label_spans, *, output_dir, train_ratio=0.7, val_ratio=0.15, holdout_user_fraction=0.0, bucket_seconds=DEFAULT_BUCKET_SECONDS)` ¶

Join features with labels, apply exclusions, split, and write artifacts.

Label projection uses strict block-to-window containment rules from time_spec.md Section 6 (full window must fall inside a single block; conflicting multi-block overlaps are dropped).

Outputs

output_dir/X.parquet -- feature matrix with ID columns and schema_version. output_dir/y.parquet -- labels keyed by user_id and bucket_start_ts. output_dir/splits.json -- train/val/test index lists and metadata.

Parameters:

Name	Type	Description	Default
`features_df`	`DataFrame`	Feature DataFrame conforming to `FeatureSchemaV1`.	required
`label_spans`	`Sequence[LabelSpan]`	Label spans to project onto feature windows.	required
`output_dir`	`Path`	Directory to write artifacts into (created if needed).	required
`train_ratio`	`float`	Fraction of each user's data for training.	`0.7`
`val_ratio`	`float`	Fraction for validation.	`0.15`
`holdout_user_fraction`	`float`	Fraction of users held out entirely for the test set (cold-start evaluation).	`0.0`
`bucket_seconds`	`int`	Window width in seconds.	`DEFAULT_BUCKET_SECONDS`

Returns:

Name	Type	Description
`A`	`DatasetManifest`	class:`DatasetManifest` with paths and summary statistics.