Используя AutoTrain, вы можете легко обучить модель классифицировать или регрессировать табличные данные. Все, что вам нужно сделать, это выбрать модель из списка и загрузить свой набор данных. Настройка параметров выполняется автоматически.

Модели

Для табличной классификации/регрессии доступны следующие модели.

  • xgboost
  • random_forest
  • ridge
  • logistic_regression
  • svm
  • extra_trees
  • gradient_boosting
  • adaboost
  • decision_tree
  • knn

Формат данных

id,category1,category2,feature1,target
1,A,X,0.3373961604172684,1
2,B,Z,0.6481718720511972,0
3,A,Y,0.36824153984054797,1
4,B,Z,0.9571551589530464,1
5,B,Z,0.14035078041264515,1
6,C,X,0.8700872583584364,1
7,A,Y,0.4736080452737105,0
8,C,Y,0.8009107519796442,1
9,A,Y,0.5204774795512048,0
10,A,Y,0.6788795301189603,0
.
.
.

Столбцы

Ваш набор данных CSV должен содержать два столбца: id и target.

Параметры

class autotrain.trainers.tabular.params.TabularParams

( 
    data_path: str = None,
    model: str = 'xgboost',
    username: typing.Optional[str] = None,
    seed: int = 42,
    train_split: str = 'train',
    valid_split: typing.Optional[str] = None,
    project_name: str = 'project-name',
    token: typing.Optional[str] = None,
    push_to_hub: bool = False,
    id_column: str = 'id',
    target_columns: typing.Union[typing.List[str], str] = ['target'],
    categorical_columns: typing.Optional[typing.List[str]] = None,
    numerical_columns: typing.Optional[typing.List[str]] = None,
    task: str = 'classification',
    num_trials: int = 10,
    time_limit: int = 600,
    categorical_imputer: typing.Optional[str] = None,
    numerical_imputer: typing.Optional[str] = None,
    numeric_scaler: typing.Optional[str] = None
)

Параметры

  • data_path (str) — Путь к набору данных.
  • model (str) — Название используемой модели. По умолчанию используется “xgboost”.
  • username (Optional[str]) — Имя пользователя Hugging Face Hub.
  • seed (int) — Выборочное значение для воспроизводимости. Значение по умолчанию 42.
  • train_split (str) — Название раздела обучающих данных. По умолчанию используется “train”.
  • valid_split (Optional[str]) — Название разделения проверочных данных.
  • project_name (str) — Имя выходного каталога. По умолчанию используется “project-name”.
  • token (Optional[str]) — Токен Hugging Face Hub для аутентификации.
  • push_to_hub (bool) — Следует ли загружать модель в Hugging Face Hub. Значение по умолчанию - False.
  • id_column (str) — Имя столбца ID. По умолчанию используется значение “id”.
  • target_columns (Union[List[str], str]) — Целевые столбцы в наборе данных. По умолчанию используется значение [“target”].
  • categorical_columns (Optional[List[str]]) — Список столбцов категорий.
  • numerical_columns (Optional[List[str]]) — Список числовых столбцов.
  • task (str) — Тип задачи (например, “классификация”). По умолчанию используется “classification”.
  • num_trials (int) — Количество попыток оптимизации гиперпараметров. Значение по умолчанию 10.
  • time_limit (int) — Время тренировки указано в секундах. Значение по умолчанию 600.
  • categorical_imputer (Optional[str]) — Вычислительная стратегия для категориальных столбцов.
  • numerical_imputer (Optional[str]) — Вычислительная стратегия для числовых столбцов.
  • numeric_scaler (Optional[str]) — Стратегия масштабирования для числовых столбцов.

TabularParams - это класс конфигурации для параметров обучения табличных данных.