Табличная классификация/регрессия
Используя AutoTrain, вы можете легко обучить модель классифицировать или регрессировать табличные данные. Все, что вам нужно сделать, это выбрать модель из списка и загрузить свой набор данных. Настройка параметров выполняется автоматически.
Модели
Для табличной классификации/регрессии доступны следующие модели.
- xgboost
- random_forest
- ridge
- logistic_regression
- svm
- extra_trees
- gradient_boosting
- adaboost
- decision_tree
- knn
Формат данных
id,category1,category2,feature1,target 1,A,X,0.3373961604172684,1 2,B,Z,0.6481718720511972,0 3,A,Y,0.36824153984054797,1 4,B,Z,0.9571551589530464,1 5,B,Z,0.14035078041264515,1 6,C,X,0.8700872583584364,1 7,A,Y,0.4736080452737105,0 8,C,Y,0.8009107519796442,1 9,A,Y,0.5204774795512048,0 10,A,Y,0.6788795301189603,0 . . .
Столбцы
Ваш набор данных CSV должен содержать два столбца: id и target.
Параметры
class autotrain.trainers.tabular.params.TabularParams
( data_path: str = None, model: str = 'xgboost', username: typing.Optional[str] = None, seed: int = 42, train_split: str = 'train', valid_split: typing.Optional[str] = None, project_name: str = 'project-name', token: typing.Optional[str] = None, push_to_hub: bool = False, id_column: str = 'id', target_columns: typing.Union[typing.List[str], str] = ['target'], categorical_columns: typing.Optional[typing.List[str]] = None, numerical_columns: typing.Optional[typing.List[str]] = None, task: str = 'classification', num_trials: int = 10, time_limit: int = 600, categorical_imputer: typing.Optional[str] = None, numerical_imputer: typing.Optional[str] = None, numeric_scaler: typing.Optional[str] = None )
Параметры
- data_path (str) — Путь к набору данных.
- model (str) — Название используемой модели. По умолчанию используется “xgboost”.
- username (Optional[str]) — Имя пользователя Hugging Face Hub.
- seed (int) — Выборочное значение для воспроизводимости. Значение по умолчанию 42.
- train_split (str) — Название раздела обучающих данных. По умолчанию используется “train”.
- valid_split (Optional[str]) — Название разделения проверочных данных.
- project_name (str) — Имя выходного каталога. По умолчанию используется “project-name”.
- token (Optional[str]) — Токен Hugging Face Hub для аутентификации.
- push_to_hub (bool) — Следует ли загружать модель в Hugging Face Hub. Значение по умолчанию - False.
- id_column (str) — Имя столбца ID. По умолчанию используется значение “id”.
- target_columns (Union[List[str], str]) — Целевые столбцы в наборе данных. По умолчанию используется значение [“target”].
- categorical_columns (Optional[List[str]]) — Список столбцов категорий.
- numerical_columns (Optional[List[str]]) — Список числовых столбцов.
- task (str) — Тип задачи (например, “классификация”). По умолчанию используется “classification”.
- num_trials (int) — Количество попыток оптимизации гиперпараметров. Значение по умолчанию 10.
- time_limit (int) — Время тренировки указано в секундах. Значение по умолчанию 600.
- categorical_imputer (Optional[str]) — Вычислительная стратегия для категориальных столбцов.
- numerical_imputer (Optional[str]) — Вычислительная стратегия для числовых столбцов.
- numeric_scaler (Optional[str]) — Стратегия масштабирования для числовых столбцов.
TabularParams - это класс конфигурации для параметров обучения табличных данных.