No puedo hablar de la aplicabilidad de crear una aplicación como Shazam (aunque creo que depende de cuál sea tu objetivo), pero puedo decir que puedes hacer que un algoritmo de clasificación de audio funcione y se ejecute con cierta facilidad. La dificultad del proyecto en general probablemente dependerá de la precisión con la que desee que sea su algoritmo y de sus antecedentes.
Para empezar, el algoritmo general ya se ha publicado, por lo que definitivamente lo echaría un vistazo si aún no lo hubieras hecho. [1] No es tan difícil hacer funcionar un algoritmo rudimentario. Tomé una clase en la que tuvimos que probar y construir nuestro propio algoritmo de clasificación de música para alguna tarea. Mi algoritmo básicamente generó espectrogramas para un montón de clips de audio, hizo una reducción de la dimensionalidad y luego entrenó a un ingenuo clasificador de Bayes. Personalmente no conseguí una configuración que funcionó particularmente bien (algo como ~ 60% de precisión si soy amable conmigo mismo, aunque con un conjunto de entrenamiento bastante pequeño porque era perezoso y no quería descargar un montón de música ). Otras personas en mi clase lo hicieron mucho mejor. Creo que tuve una de las peores precisiones.
El conjunto de datos que desea utilizar probablemente también supondrá una gran diferencia. Me pareció realmente impresionante cómo Shazam funciona para literalmente cualquier cosa porque no podía acercarme a diferenciar canciones similares con cualquier nivel de precisión. Diferenciar a Eminem de la banda de punk rock X fue bastante fácil, pero diferenciar la banda de punk rock X de la banda de punk rock Y fue mucho más difícil. Dicho esto, probablemente eres mucho más inteligente y mejor en estas cosas que yo, así que apuesto a que tendrías más suerte.
- Perdí mi carrera en la escuela secundaria y estoy a punto de comenzar el proceso de admisión a la universidad. ¿Alguien tiene algún consejo para mí durante el proceso?
- Como estudiante de secundaria con un GPA ponderado de 3.96 y 4.8 (13 AP), calificador de debate TOC, pasantía de ciencias de 2 años en Stanford y presidente de liderazgo de 3 años, ¿cuáles son las universidades a las que debo aspirar y tengo? una buena oportunidad en las ligas de hiedra?
- ¿Qué se necesita para entrar en XLRI, Jamshedpur?
- ¿Qué debo hacer para obtener la admisión en la ley?
- ¿Cuáles son mis posibilidades de admisión a la maestría de TUM en Informatik?
Dicho esto, si desea optimizar la velocidad y / o la escalabilidad, apuesto a que esto se convierte en una bestia completamente diferente. Aunque no sé nada de eso.
En resumen, creo que lo haces tan difícil como quieres, dependiendo de cómo te juzgues. Hacer un clon de Shazam que no se pueda distinguir en velocidad y precisión me suena realmente difícil, pero hacer algo básico ciertamente no lo es. ¡Aunque diré que fue un proyecto genial!
Notas al pie
[1] https://www.ee.columbia.edu/~dpw…