Saturday, 18 November 2017

Relación De Token De Tipo Medio Móvil


Si un texto tiene 1.000 palabras, se dice que tiene 1.000 fichas. Pero muchas de estas palabras se repetirán, y sólo puede decirse 400 palabras diferentes en el texto. Los tipos, por lo tanto, son las palabras diferentes. La relación entre tipos y fichas en este ejemplo sería 40. Pero esta relación tipo / token (TTR) varía muy ampliamente de acuerdo con la longitud del texto - o corpus de textos - que se está estudiando. Un artículo de 1.000 palabras podría tener una TTR de 40, una más corta podría alcanzar 70 4 millones de palabras, probablemente dará una proporción tipo / token de aproximadamente 2, y así sucesivamente. Tal información de tipo / testigo es bastante sin sentido en la mayoría de los casos, aunque se suministra en una visualización de estadísticas de WordList. El TTR convencional es informativo, por supuesto, si se está tratando con un corpus que comprende lotes de segmentos de texto de igual tamaño (por ejemplo, los cuerpos LOB y Brown). Pero en el mundo real, especialmente si el foco de su investigación es el texto en oposición al lenguaje, probablemente se ocupará de textos de diferentes longitudes y el TTR convencional no le ayudará mucho. WordList ofrece una mejor estrategia también: la relación estándar de tipo / token (STTR) se calcula cada n palabras como Wordlist pasa por cada archivo de texto. Por defecto. N 1.000. En otras palabras, la relación se calcula para las primeras 1000 palabras corrientes, luego se calcula de nuevo para los próximos 1.000, y así sucesivamente hasta el final de su texto o corpus. Se calcula un promedio de ejecución, lo que significa que obtiene una relación de tipo / token media basada en bloques consecutivos de texto de 1.000 palabras. (Los textos con menos de 1.000 palabras (o lo que sea que se ajuste a n) obtendrán una relación de tipo / token normalizada de 0.) Ajuste del límite N Ajuste el número n en Ajustes máximos del amplificador mínimo a cualquier número entre 100 y 20.000. Lo que STTR realmente cuenta Nota: La relación se calcula a) contando cada forma diferente como una palabra (así que decir y dice son dos tipos) b) usando sólo las palabras que no están en una lista de detención c) aquellos que están dentro de la longitud Usted ha especificado, d) teniendo en cuenta sus preferencias sobre números y guiones. El número mostrado es un porcentaje de nuevos tipos para cada n tokens. De esta manera se pueden comparar relaciones de tipo / token a través de textos de diferentes longitudes. Este método contrasta con el de Tuldava (1995: 131-50) que se basa en una noción de 3 etapas de acumulación. El método de cálculo de STTR de WordSmith fue mi propia invención, pero es paralelo a uno de los métodos ideados por el matemático David Malvern que trabaja con Brian Richards (Universidad de Reading). TTR y STTR son ambas medidas bastante crudas incluso si a menudo se supone que implican algo acerca de la densidad léxica. Supongamos que tenías un texto que gastó 1.000 palabras discutiendo ELEFANTE, LEÓN, TIGRE, etc, y luego 1.000 hablando de MADONNA, ELVIS. Etc, a continuación, 1.000 discusión de nubes, lluvia, SUNSHINE. Si estableció el límite STTR en 1.000 y pasó a obtener decir 48 o así para cada sección, la estadística en sí no le diría que hubo un cambio que implica África, Música, Tiempo. Supongamos que la frontera entre África y la música de la ampolla vino en la palabra 650 en vez de en la palabra 1.000, yo supone thered sea poca o ninguÌ n diferencia en la estadística. Pero lo que haría la diferencia Un texto que hablaba sobre las nubes y escrito por una persona que distinguía mucho entre tipos de nubes también podría usar NIEBLA, NIEBLA, CUMULUS, CUMULO-NIMBUS. Esto sería más alto en STTR que uno escrito por un niño que se mantenía refiriéndose a CLOUD pero usó adjetivos como HIGH, LOW, HEAVY, DARK, THIN, THIN para describir las nubes. Y que repetía DARK, THIN. Etc mucho en la descripción de ellos. (Nota: Sh akespeare es bien conocido por haber utilizado un vocabulario bastante limitado en términos de medidas como éstas) El lenguaje es una ventana al cerebro. El objetivo del proyecto CASPR es encontrar maneras de diagnosticar, evaluar e investigar la enfermedad mental y otras alteraciones cerebrales a través del análisis computarizado del habla. El trabajo inicial de CASPR fue financiado por GlaxoSmithKline Plc. Utilice los siguientes enlaces para obtener más información al respecto. Descargas de software NLPUtils (tokenizer y analizador morfológico de Boisclair) Tokenizer Verstaile y analizador morfológico para inglés, en C. Programas y documentación (actualizado el 21 de marzo de 2007) Sitio web del proyecto MATTR (Moving-Average Type-Token Ratio) versión 2.0 para Windows 1.0, ligeramente más rápido) Documentación (PDF, Informe de Investigación 2007-03, sin cambios desde MATTR 1.0) Ejecutable y código fuente para Windows 2000 / XP / Vista (se cree que puede utilizarse bajo Mac OS X y Linux según los mismos métodos que CPIDR 3) ) MATTR (Moving-Average Type-Token Ratio) versión 1.0 para la documentación de Windows (PDF, Research Report 2007-03) Ejecutable y código fuente para Windows 2000 / XP / Vista (se cree que puede usarse bajo Mac OS X y Linux por los mismos métodos Como CPIDR 3 ver manual) CPIDR reg (Computerized Propositional Idea Density Rater) versión 3.2 para documentación de Windows (PDF, Research Report 2007-03) Véase también el documento publicado que se muestra a continuación. CPIDR 3.2 paquete de instalación para Windows 2000 / XP / Vista / 7/8 (zip MSI) Paquete de instalación alternativo para CPIDR 3.2 para Windows (zip MSI construido con la versión más reciente del compilador, pero funcionalmente idéntico) Ejecutar CPIDR bajo Mac OS X, UNIX, Y Linux (PDF, Informe de Investigación 2007-04) NOTA: Hemos tenido informes de que el portapapeles de Mac no se sincroniza con el portapapeles CPIDR, y que CPIDR se bloquea en el Macintosh en condiciones que no hemos fijado. Recuerde que este es el software de Windows, y ejecutarlo bajo otros sistemas operativos es experimental. CPIDR 3.2 para Mac OS X, UNIX, Linux (paquete comprimido de archivos accesibles individualmente) CPIDR 5. Una versión comercial mejorada (no GPL) de CPIDR, es gratuita para los usuarios académicos no comerciales, aunque no de código abierto. Por favor, póngase en contacto con nosotros si está utilizando CPIDR 5 en la investigación académica. Consulte la documentación para obtener información sobre cómo obtener una licencia comercial. CPIDR 5 se puede llamar (como DLL) de otro software, y se recomienda la licencia para la incorporación en los productos comerciales. El nombre CPIDR es una marca registrada de la Universidad de Georgia Research Foundation, Inc. Nota: Ambas versiones de CPIDR pueden analizar múltiples archivos de texto en una sola ejecución. Simplemente seleccione varios archivos cuando se le solicite elija Archivo (s). Un programa de la densidad de la densidad de la idea para el francés, Densideacutees. Modelado en CPIDR, está siendo desarrollado por Hyeran Lee y otros y está disponible, gratis, desde code. google/p/densidees/. Elvevag (Elvevaag), Brita Wynn, Rolf y Covington, Michael A. (2011) Caso clínico: Confusiones significativas y significados confusos en la comunicación en la esquizofrenia. Psychiatry Research 186: 461 - 464. PDF. Covington, Michael A. y McFall, Joe D. (2010) Cortar el nudo gordiano: la relación de tipetoken de media móvil (MATTR). Diario de Lingüística Cuantitativa 17: 94-100. Texto completo sobre InformaWorld Covington, Michael A. Riedel, Wim J. Brown, Cati He, Congzhou Morris, Eric Weinstein, Sara Semple, James Brown, John (2009) Ketamina y habla esquizofrénica: más diferencia de lo que se informó originalmente. Journal of Psychopharmacology 23 (1) 111 - 112. Brown, Cati Snodgrass, Tony Kemper, Susan J. Herman, Ruth y Covington, Michael A. (2008) Medición automática de la densidad de ideas proposicional a partir del etiquetado de parte del habla. Métodos de Investigación del Comportamiento 40 (2) 540-545. La ketamina mimetiza aspectos del habla esquizofrénica Journal of Psychopharmacology 21 (3) 338-346. Covington, Michael A. He, Congzhou Brown, Cati Naci, Lorina McClain, Jonathan T. Fjordbak, Bess Sirmon Semple, James Brown, John (2005) La esquizofrenia y la estructura del lenguaje: la visión de los lingüistas. Schizophrenia Research 77 (1): 85-98, 2005. Publicación de resúmenes (los más recientes primero) Vin, Hemali (2009) Medir el orden del pensamiento. Universidad de Georgia Centro de Oportunidades de Investigación (CURO) Simposio, 6 de abril de 2009. El uso de software de análisis de texto en la investigación de la esquizofrenia. Esquizofrenia Bulletin 33: 522. Reducido la densidad de ideas en el habla como un indicador de la esquizofrenia y la intoxicación por ketamina, Brown, Cati Covington, Michael A. Semple, James y Brown, John (2005). Esquizofrenia Bulletin 31: 187-188. Él, Congzhou Covington, Michael A. Semple, James y Brown, John (2005) Algunos signos lingüísticos del deterioro cognitivo inducido por ketamina. Esquizofrenia Bulletin 31: 511. Presentaciones (las más recientes en primer lugar) Covington, Michael A. Lunden, Anya Cristofaro, Sarah Johnson, Stephanie Ramsay, Claire Broussard, Beth Zhang, Shayi Bailey, C. Thomas Fogarty, Robert y Compton, , Presentado en la Mesa Redonda de la Universidad de Georgetown sobre Lenguas y Lingüística, Washington, DC Marzo de 2012. Él, Congzhou Weinstein, Sara y Covington, Michael A. El uso de software de análisis de texto en la investigación de la esquizofrenia, Cartel presentado en el Congreso Internacional sobre la Investigación de la Esquizofrenia, Colorado Springs, marzo de 2007. Brown, Cati Snodgrass, Tony Covington, Michael A. Herman, Ruth y Kemper, Susan J. Medición de la densidad de ideas proposicionales a través del etiquetado de parte del habla. Lingüística de la Asociación de Lingüística de América, Anaheim, California, enero de 2007. Baptista, Marlyse Fjordbak, Bess y Covington, Michael A. Lingüistas se encuentran con clínicos: un estudio de los trastornos del lenguaje, cartel presentado en la Conferencia de Lingüística de la Universidad de Georgia, Septiembre de 2006. Él, Congzhou Weinstein, Sara y Covington, Michael A. Software de análisis del habla para la investigación psiquiátrica: el caso de D-Level Rater. Cartel presentado en el Primer Consorcio Anual de Neurociencias de Georgia y Carolina del Sur, Charleston, abril 2006. Brown, Cati Covington, Michael A. Semple, James y Brown, John, Reducción de la densidad de ideas en el habla como indicador de la intoxicación por la esquizofrenia y ketamina Algunos signos lingüísticos de deterioro cognitivo inducido por ketamina, cartel presentado en el Congreso Internacional sobre Investigación de la Esquizofrenia, Savannah, Estados Unidos, en el Congreso Internacional sobre Investigación de la Esquizofrenia, Savannah, , Abril de 2005. Él, Congzhou Brown, Cati Covington, Michael A. y Naci, Lorina, ¿Qué tan compleja es esa frase Una propuesta de revisión de la escala de Rosenberg y Abbeduto D-Level, cartel presentado en la reunión anual de la Sociedad Lingüística de América , Boston, enero de 2004. CASPR Research Reports 2007-04 Cody Boisclair ejecutando CPIDR bajo Mac OS X, UNIX y Linux Informe de Investigación 2007-02 Michael A. Covington y Joe D. McFall Utilizando MontyLingua 2.1 con C y Microsoft. NET Informe de Investigación 2007-01 Colin Nicholson Esquizofrenia y la Estructura del Lenguaje: Bibliografía Anotada 2004-2006 Informe de Investigación 2006-02 Congzhou Él Uso del Software de Análisis de Texto en la Investigación de la Esquizofrenia 2006-01 Michael A. Covington, Congzhou Él , Cati Brown, Lorina Naci y John Brown Qué tan compleja es esa frase Una propuesta de revisión de la Escala de nivel D de Rosenberg y Abbeduto Informe de investigación 2005-02 Salena A. Sampson Análisis computarizado de elementos destacados y comprensión del discurso en esquizofrenia Descripciones de imágenes Para la investigación Informes del Instituto de Inteligencia Artificial (no CASPR), haga clic aquí. El antiguo sitio web interno de CASPR ya no es accesible por el uso de Internet VPN o SFTP. Entrenamiento obligatorio para nuevos investigadores: Los nuevos miembros del equipo de CASPR deben completar un curso de capacitación en línea sobre ética de la investigación en sujetos humanos. Esto no tiene que hacerse de una vez, se divide en módulos de 30 minutos. Es necesario si va a trabajar con datos de sujetos humanos o si va a recibir un subsidio de la NSF. Para recibir el entrenamiento, vaya a ovpr. uga. edu/hso/training/ y siga las instrucciones. Elija el curso Social y Behavioral o el curso Bio-Médico. Cuando termine, imprima y guarde una copia de su certificado, y también envíe un correo electrónico al investigador principal. Cortando el nudo gordiano: La relación tipo-token media móvil (MATTR) Citas Citas 27 Referencias Referencias 20 quotA gran número de índices De la riqueza de vocabulario se ha establecido en la lingüística sin embargo, casi todos ellos evidencian una dependencia indeseable de la longitud del texto. Para evitar esta dependencia en nuestro análisis, utilizamos la media móvil de tipo de token ratio (MATTR), propuesta por Covington y McFall (2010), que experimentalmente se demostró ser independiente del tamaño del texto (véase). El MATTR se define como sigue. RESUMEN: La investigación tiene como objetivo investigar varias características de los discursos inaugurales de los presidentes de los Estados Unidos. El objetivo del trabajo es observar los discursos presidenciales desde el punto de vista de los índices estilométricos y descubrir si las circunstancias políticas e históricas (guerras, crisis financieras, ideología, etc.) influyen en el estilo de las direcciones inaugurales, análogamente a los hallazgos presentados por ech 2014). Específicamente, la riqueza del vocabulario, la concentración temática y la actividad de texto se calculan. Estos tres índices fueron elegidos especialmente debido a (a) su alta eficiencia de clasificación automática de texto (análisis de género, atribución de autoría, etc.), (b) su independencia en la longitud del texto y (c) la interpretación lingüística simple. La combinación de los tres métodos permite tanto investigar el estilo de los discursos presidenciales en particular en poderosa vista lingüística global y observar las tendencias de desarrollo del género específico de direcciones inaugurales durante los más de 200 años de historia. El corpus comprende las direcciones inaugural de todos los presidentes de los Estados Unidos de George Washington a Barack Obama (57 textos en total). Artículo en texto completo Enero 2016 Aphasiology Miroslav Kubt Radek ech quotType-token ratio (TTR) es ampliamente reportado, pero también ha sido criticado por su dependencia de la longitud de texto 56, 57. La razón media móvil de movimiento (MATTR) fue propuesta por Covington y McFall 58 como una adaptación de TTR que es independiente de la longitud del texto. En un estudio sobre el lenguaje en afasia, se reportó que MATTR es una de las mejores métricas para proporcionar una métrica no sesgada de la diversidad léxica 59. RESUMEN Antecedentes: Aunque el deterioro de la memoria es el principal síntoma de la enfermedad de Alzheimer AD), el deterioro del lenguaje puede ser un marcador importante. Relativamente pocos estudios de lenguaje en la AD cuantificar las deficiencias en el habla conectada utilizando técnicas computacionales. Objetivo: Proponemos demostrar la exactitud del estado de la técnica para identificar automáticamente la enfermedad de Alzheimer a partir de muestras narrativas cortas obtenidas con una tarea de descripción de imágenes, y para destapar los factores lingüísticos más destacados con un análisis de factores estadísticos. Métodos: Los datos se derivan del corpus de DementiaBank, de los cuales 167 pacientes diagnosticados con AD posible o probable proporcionan 240 muestras narrativas, y 97 controles proporcionan un adicional 233. Calculamos un número de variables lingüísticas de las transcripciones, y las variables acústicas de los asociados Archivos de audio y utilice estas variables para entrenar un clasificador de aprendizaje de máquina para distinguir entre participantes con AD y controles sanos. Para examinar el grado de heterogeneidad de los trastornos lingüísticos en la DA, se sigue un análisis factorial exploratorio sobre estas medidas del habla y el lenguaje con una rotación promax oblicua, y proporcionan interpretación para los factores resultantes. Resultados: Obtenemos una precisión de clasificación de más de 81 años en distinguir individuos con DA de aquellos que no se basan en muestras cortas de su lenguaje en una tarea de descripción de imágenes. Cuatro factores claros emergen: el deterioro semántico, la anomalía acústica, el deterioro sintáctico y el deterioro de la información. Conclusión: El aprendizaje mecánico moderno y el análisis lingüístico serán cada vez más útiles en la evaluación y agrupación de sospechas de DA. (TTR) Una medida de la diversidad léxica usada para capturar el vocabulario conversacional en adultos con afasia (Wright, Silverman, amp Newhoff, 2003). Relación tipo token media móvil (MATTR) Una medida de diversidad léxica basada en tramas progresivas de un número especificado de palabras (Covington, 2007 Covington amp McFall, 2010). T-units Un índice global de comportamientos de búsqueda de palabras. Quot Mostrar el resumen Ocultar el resumen RESUMEN: Antecedentes: En la actualidad, no existe consenso en cuanto a la eficacia comparativa de los tratamientos de restricción y no de restricción. Por otra parte, hasta la fecha los estudios han medido los efectos del tratamiento mediante las tareas de nomenclatura de una sola palabra y las baterías de afasia omnibus. Objetivos: Se aplicaron medidas comunicativas fiables de comportamientos léxicos y comunicativos para investigar el impacto comparativo de la terapia de afasia multimodal (M-MAT) y la terapia de afasia inducida por restricciones más (CIAT Plus) en tres géneros discursivos. Procedimientos: Trece personas con afasia crónica participaron cada una en 2 semanas de CIAT Plus intensivo y 2 semanas de M-MAT intensivo (30 horas en 2 semanas). Siete participantes realizaron CIAT Plus primero, mientras que seis realizaron M-MAT primero. Se recogieron muestras de discursos de tres condiciones (descripción de la imagen, relato de la historia de Cenicienta y conversación semiestructurada) en tres momentos (pretratamiento, post CIAT Plus y post-M-MAT). Las medidas de resultado primarias incluyeron medidas léxicas (palabras totales, palabras por minuto) y medidas de comunicación (unidades de información correctas totales (OIC), UCI por minuto). Resultados Resultados: Los resultados variaron considerablemente dentro y entre los participantes y también a través de las tres condiciones del discurso. Además, los cambios en las direcciones tanto positivas como negativas fueron evidentes en todo el conjunto de datos. Hubo una ligera tendencia a obtener mejores resultados de CIAT Plus para individuos con afasia leve y de M-MAT para individuos con afasia moderada. Conclusiones: Con el fin de informar a la práctica clínica y facilitar la planificación y evaluación del tratamiento, es fundamental continuar la investigación para seguir desarrollando medidas discursivas fiables para llegar a un consenso sobre lo que constituye un cambio significativo dentro de los datos del discurso y adoptar medidas para mitigar la variabilidad inherente al discurso. Texto completo Artículo Oct 2015

No comments:

Post a Comment