Табличная классификация/регрессия
Используя AutoTrain, вы можете легко обучить модель классифицировать или регрессировать табличные данные. Все, что вам нужно сделать, это выбрать модель из списка и загрузить свой набор данных. Настройка параметров выполняется автоматически.
Модели
Для табличной классификации/регрессии доступны следующие модели.
- xgboost
- random_forest
- ridge
- logistic_regression
- svm
- extra_trees
- gradient_boosting
- adaboost
- decision_tree
- knn
Формат данных
id,category1,category2,feature1,target 1,A,X,0.3373961604172684,1 2,B,Z,0.6481718720511972,0 3,A,Y,0.36824153984054797,1 4,B,Z,0.9571551589530464,1 5,B,Z,0.14035078041264515,1 6,C,X,0.8700872583584364,1 7,A,Y,0.4736080452737105,0 8,C,Y,0.8009107519796442,1 9,A,Y,0.5204774795512048,0 10,A,Y,0.6788795301189603,0 . . .
Столбцы
Ваш набор данных CSV должен содержать два столбца: id и target.
Параметры
class autotrain.trainers.tabular.params.TabularParams
( 
    data_path: str = None,
    model: str = 'xgboost',
    username: typing.Optional[str] = None,
    seed: int = 42,
    train_split: str = 'train',
    valid_split: typing.Optional[str] = None,
    project_name: str = 'project-name',
    token: typing.Optional[str] = None,
    push_to_hub: bool = False,
    id_column: str = 'id',
    target_columns: typing.Union[typing.List[str], str] = ['target'],
    categorical_columns: typing.Optional[typing.List[str]] = None,
    numerical_columns: typing.Optional[typing.List[str]] = None,
    task: str = 'classification',
    num_trials: int = 10,
    time_limit: int = 600,
    categorical_imputer: typing.Optional[str] = None,
    numerical_imputer: typing.Optional[str] = None,
    numeric_scaler: typing.Optional[str] = None
)
Параметры
- data_path (str) — Путь к набору данных.
- model (str) — Название используемой модели. По умолчанию используется “xgboost”.
- username (Optional[str]) — Имя пользователя Hugging Face Hub.
- seed (int) — Выборочное значение для воспроизводимости. Значение по умолчанию 42.
- train_split (str) — Название раздела обучающих данных. По умолчанию используется “train”.
- valid_split (Optional[str]) — Название разделения проверочных данных.
- project_name (str) — Имя выходного каталога. По умолчанию используется “project-name”.
- token (Optional[str]) — Токен Hugging Face Hub для аутентификации.
- push_to_hub (bool) — Следует ли загружать модель в Hugging Face Hub. Значение по умолчанию - False.
- id_column (str) — Имя столбца ID. По умолчанию используется значение “id”.
- target_columns (Union[List[str], str]) — Целевые столбцы в наборе данных. По умолчанию используется значение [“target”].
- categorical_columns (Optional[List[str]]) — Список столбцов категорий.
- numerical_columns (Optional[List[str]]) — Список числовых столбцов.
- task (str) — Тип задачи (например, “классификация”). По умолчанию используется “classification”.
- num_trials (int) — Количество попыток оптимизации гиперпараметров. Значение по умолчанию 10.
- time_limit (int) — Время тренировки указано в секундах. Значение по умолчанию 600.
- categorical_imputer (Optional[str]) — Вычислительная стратегия для категориальных столбцов.
- numerical_imputer (Optional[str]) — Вычислительная стратегия для числовых столбцов.
- numeric_scaler (Optional[str]) — Стратегия масштабирования для числовых столбцов.
TabularParams - это класс конфигурации для параметров обучения табличных данных.
