Datasets

Contribute Dataset 
Donate New

Link External

About Us 
Who We Are

Citation Metadata

Contact Information
 

 

Welcome to the UC Irvine Machine Learning Repository


We currently maintain 667 datasets as a service to the machine learning community.  Here, you can donate and find datasets used by millions of people all around the world!

View Datasets Contribute a Dataset

Popular Datasets


Iris


A small classic dataset from Fisher, 1936. One of the earliest known datasets used for evaluating classification methods.

Classification

150 Instances

4 Features
 

Dry Bean


Images of 13,611 grains of 7 different registered dry beans were taken with a high-resolution camera. A total of 16 features; 12 dimensions and 4 shape forms, were obtained from the grains.

Classification

13.61K Instances

16 Features
 

Heart Disease


4 databases: Cleveland, Hungary, Switzerland, and the VA Long Beach

Classification

303 Instances

13 Features
 

Rice (Cammeo and Osmancik)


A total of 3810 rice grain's images were taken for the two species, processed and feature inferences were made. 7 morphological features were obtained for each grain of rice.

Classification

3.81K Instances

7 Features
 

Raisin


Images of the Kecimen and Besni raisin varieties were obtained with CVS. A total of 900 raisins were used, including 450 from both varieties, and 7 morphological features were extracted.

Classification

900 Instances

8 Features
 

Adult


Predict whether income exceeds $50K/yr based on census data. Also known as "Census Income" dataset. 
Classification

48.84K Instances

14 Features
 
See More Popular Datasets
 

New Datasets


Micro Gas Turbine Electrical Energy Prediction


This dataset consists of measurements of electrical power corresponding to an input control signal over time, collected from a 3-kilowatt commercial micro gas turbine.

Regression

71.23K Instances

3 Features
 

Printed Circuit Board Processed Image


This CSV dataset, originally used for test-pad coordinate retrieval from PCB images, presents potential applications like classification (e.g., Grey test pad detection), anomaly detection (e.g., fake test pads), or clustering for grey test pads discovery. The dataset includes X and Y representing pixel positions, and R, G, B values determining pixel color (minmax normalized from 0-255). A 'Grey' field indicates approximate grey pixels.  This dataset was originally used for a 2-stage discovery of high number of test pad clusters (>100) in a dataset presented in: @article{Tan2016FastRO,  title={Fast retrievals of test-pad coordinates from photo images of printed circuit boards},  author={Swee Chuan Tan and Schumann Tong Wei Kit},  journal={2016 International Conference on Advanced Mechatronic Systems (ICAMechS)},  year={2016},  pages={464-467},  url={https://api.semanticscholar.org/CorpusID:38544897} } More pixels here than that in the paper due to different extraction method.

Classification, Clustering

723.55K Instances

6 Features
 

PhiUSIIL Phishing URL (Website)


PhiUSIIL Phishing URL Dataset is a substantial dataset comprising 134,850 legitimate and 100,945 phishing URLs. Most of the URLs we analyzed, while constructing the dataset, are the latest URLs. Features are extracted from the source code of the webpage and URL. Features such as CharContinuationRate, URLTitleMatchScore, URLCharProb, and TLDLegitimateProb are derived from existing features.

Classification

235.8K Instances

54 Features
 

UR3 CobotOps


The UR3 CobotOps Dataset is an essential collection of multi-dimensional time-series data from the UR3 cobot, offering insights into operational parameters and faults for machine learning in robotics and automation. It features electrical currents, temperatures, speeds across joints (J0-J5), gripper current, operation cycle count, protective stops, and grip losses, collected via MODBUS and RTDE protocols. This dataset supports research in fault detection, predictive maintenance, and operational optimization, providing a detailed operational snapshot of a leading cobot model for industrial applications

Classification, Regression, Clustering, Other

7.41K Instances

21 Features
 

RT-IoT2022 

The RT-IoT2022, a proprietary dataset derived from a real-time IoT infrastructure, is introduced as a comprehensive resource integrating a diverse range of IoT devices and sophisticated network attack methodologies. This dataset encompasses both normal and adversarial network behaviours, providing a general representation of real-world scenarios. Incorporating data from IoT devices such as ThingSpeak-LED, Wipro-Bulb, and MQTT-Temp, as well as simulated attack scenarios involving Brute-Force SSH attacks, DDoS attacks using Hping and Slowloris, and Nmap patterns, RT-IoT2022 offers a detailed perspective on the complex nature of network traffic. The bidirectional attributes of network traffic are meticulously captured using the Zeek network monitoring tool and the Flowmeter plugin. Researchers can leverage the RT-IoT2022 dataset to advance the capabilities of Intrusion Detection Systems (IDS), fostering the development of robust and adaptive security solutions for real-time IoT networks. 
Classification, Regression, Clustering

123.12K Instances

84 Features
 

Regensburg Pediatric Appendicitis


This repository holds the data from a cohort of pediatric patients with suspected appendicitis admitted with abdominal pain to Childrens Hospital St. Hedwig in Regensburg, Germany, between 2016 and 2021. Each patient has (potentially multiple) ultrasound (US) images, aka views, tabular data comprising laboratory, physical examination, scoring results and ultrasonographic findings extracted manually by the experts, and three target variables, namely, diagnosis, management and severity.

Classification

782 Instances

59 Features
 
See More New Datasets
 


By using the UCI Machine Learning Repository, you acknowledge and accept the cookies and privacy practices used by the UCI Machine Learning Repository.
 
 Read Policy